📏 上下文管理

上下文窗口是 Agent 最宝贵的资源——它承载了短期记忆、推理中间步骤和检索到的知识。如何高效管理有限的窗口空间，直接影响 Agent 的能力上限。

🎯 上下文管理的核心挑战

窗口滑动（Sliding Window）是最基础也是最重要的上下文管理策略。当上下文超过预设阈值时，通过滑动窗口保留最近和最相关的信息。

旧

← 当前窗口 →

新

当对话历史过长，无法全部保留在窗口中时，摘要压缩（Summarization）将历史对话压缩为精炼的摘要，用少量 Token 承载关键信息。

每次窗口将满时，对当前全部对话进行摘要，用摘要替换原始对话。新一轮对话从摘要+新消息开始。适用于长期对话。

不保留完整对话流，只提取实体、决策、约束等结构化关键信息。信息密度最高，但可能丢失对话脉络。

维护多层摘要：细粒度（最近 N 轮）、中粒度（按主题分段）、粗粒度（整体会话）。按需切换摘要层级。

使用专门的摘要模型或同一 LLM 生成摘要。需要消耗额外的 Token，但摘要质量最高。可利用结构化 Prompt 引导摘要格式。

并非所有信息都同等重要。选择性保留策略对窗口中的每条信息进行价值评估，择优保留。

将上下文从"消息流"升级为结构化文档，可以显著提升模型的理解和检索效率。

用 XML 标签或 JSON 结构组织上下文，明确标识各部分的语义角色：<system>、<history>、<documents>、<task> 等。

使用明显的分隔标记将不同类型内容分区：系统指令区、对话历史区、知识库区、当前任务区。帮助模型定位信息。

按任务-子任务层次组织上下文，使用标题、列表、缩进等结构表达信息层级。适合复杂多步骤任务。

在上下文开头生成内容索引/目录，列出各部分内容摘要和位置。模型可通过索引快速定位相关信息。

方案	信息保真度	Token 效率	实现难度	适用场景
无管理	高	低	极低	短对话、一次性任务
FIFO 滑动	中	中	低	一般对话 Agent
重要性滑动	较高	中	中	需要保留关键信息的任务
递归摘要	中	高	中	长期多轮对话
选择性保留	较高	较高	高	知识密集型 Agent
结构化上下文	高	较高	中	复杂多任务 Agent
混合方案（推荐）	高	高	高	生产级 Agent 系统

⚠️ 长上下文 Agent 的挑战

建议：不要盲目追求"塞满窗口"。即使模型支持百万 Token，最佳实践仍然是精简、结构化、有选择地使用上下文空间。

AI智能体开发知识库 · 记忆与推理 · 上下文管理