乐于分享
好东西不私藏

AI Agent与上下文工程(四): Agentic Context Engineering

AI Agent与上下文工程(四): Agentic Context Engineering

大多数人都是高估自己一天可以做的事情,但是低估了自己一年可以做的事情

AI Agent与上下文工程(四): Agentic Context Engineering

作者:xyiz

原文:https://zhuanlan.zhihu.com/p/2029282815401891569

Agentic Context Engineering的核心理念是:从人工干预的、静态的 Prompt 编写,走向具备自我进化、自我纠错能力的 Agentic 上下文管理。

在Agentic Context Engineering的观点中,Agent 的上下文不再是一个需要人类从外部精心打理的“静态容器”,而是一个能够由 Agent 自身在执行任务中不断反思、总结、提炼并主动更新的“生命体”。本文将列举当前学术界与工业界在 Agentic Context Engineering 领域的一些最新进展。

让上下文压缩更加 agentic

摘要压缩的陷阱:Context Collapse

在上一篇文章AI Agent与上下文工程(三): 上下文压缩方法中,我们提到过利用大语言模型(LLM)自身的理解能力,将过去冗长的历史记录“总结”成精简的摘要。然而,基于LLM的摘要式压缩并不是万能的。在实际的Agent任务中,简单的总结往往会导致致命的信息丢失。很多研究中指出,如果在Agent运行中仅仅使用普通的 Prompt 让 LLM 去做总结,反而会导致 “上下文坍塌(Context Collapse)”,也就是在不断的迭代重写中,之前的某些长尾领域知识会被灾难性遗忘,Agent 的任务成功率会显著下降。

因为在真实且复杂的 API 交互或代码执行中,有些信息是绝对不能被总结掉的。例如:

  • 凭证变量(Credential variables)
  • Token 状态(Token state)
  • 身份验证要求(Authentication requirements)

一旦LLM在写摘要时“自作聪明”地把这些长得像乱码的 Token 或繁琐的系统规则给省略了,Agent 在下一步调用 API 时就会直接报错。

ACON: OPTIMIZING CONTEXT COMPRESSION FOR LONG-HORIZON LLM AGENTS

ACON: OPTIMIZING CONTEXT COMPRESSION FOR LONG-HORIZON LLM AGENTS

原文:https://arxiv.org/abs/2510.00615

ACON: OPTIMIZING CONTEXT COMPRESSION FOR LONG-HORIZON LLM AGENTS这篇论文中提出的ACON框架,其思路是,不能仅凭LLM单方面去做总结,而是要引入环境反馈(Feedback)。当压缩后的上下文导致任务失败时,系统会将失败的反馈传回,指导LLM学习“哪些关键信息(如凭证、状态)必须在摘要中被保留”:

ACON框架分为如下几步:

  1. 收集对比轨迹(Contrastive Trajectories):系统首先让Agent在“完整上下文”下运行一次(通常能成功),再在“朴素压缩上下文”下运行一次(导致任务失败)。
  2. 失败原因分析(Failure Analysis):引入一个强大的评判LLM(如 GPT-4)去对比这两条轨迹,分析“为什么完整上下文成功了,而压缩后却失败了?”。LLM 会敏锐地发现那些被粗暴摘要掉、但对任务至关重要的信息(例如:“在第三步压缩时,丢失了用于身份验证的 Session Token”)。
  3. 更新压缩指南(Guideline Optimization):基于上述失败分析,LLM 会在自然语言空间中更新并优化“压缩指南(Compression Guidelines)”。比如在指南中动态增加一条硬性规则:“在总结交互历史时,切勿省略带有凭据属性的字符串或系统环境状态,必须原样保留”。

上述过程也可以简化为如下两张流程图。第1、2步:

第3步:

通过这种“试错-反馈-更新规则”的机制,基于 LLM 的摘要压缩就从“盲目的文本缩写”进化成了“任务导向的关键状态提取”,从而在缩减 26%-54% Token 消耗的同时,还能维持甚至提升 Agent 的任务成功率:

让 System Prompt / 全局指令更加 agentic

在传统的 Agent 开发中,System Prompt 是静态的“人设和操作手册”。一旦遇到 Agent 犯错,开发者就需要手动去修改 Prompt。那么,Agent 能否自己修改和进化自己的 System Prompt 呢?

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models

Agentic Context Engineering: Evolving Contexts for Self-Improving Language Models (arXiv:2510.04618)

原文:https://arxiv.org/abs/2510.04618

斯坦福大学等机构在 2025 年 10 月提出的这篇经典论文指出,如果直接让 LLM 去重写自己的 System Prompt,往往会陷入两个致命陷阱:

  • 简洁性偏差(Brevity bias)(模型倾向于把 Prompt 越写越短,丢失关键细节)
  • 上下文坍塌(Context collapse)(在不断的迭代重写中,之前的某些长尾领域知识会被灾难性遗忘)。

为了解决这一问题,该研究提出了 ACE(Agentic Context Engineering)框架。ACE 将上下文从单一的 Prompt 转化为一种动态的、结构化的 “Playbook”。它采用了一个模块化的流水线:首先由“Generator”在任务执行后产出新策略,接着由“Reflector”利用自然语言执行反馈(无需人类标注)进行评估,最后由“Curator”以增量的方式安全地将新策略合并到 Playbook 中,从而避免了信息的坍塌。

在没有监督微调(SFT)和梯度更新的情况下,ACE 在各类 Agent 基准测试中平均提升了 10.6% 的性能。

SCOPE: Prompt Evolution for Enhancing Agent Effectiveness

SCOPE: Prompt Evolution for Enhancing Agent Effectiveness (arXiv:2512.15374)

原文:https://arxiv.org/abs/2512.15374

在复杂且动态的真实环境中,Agent 常常会陷入两种失败模式

  • 纠正性失败(Corrective Failures):在遇到工具报错或环境障碍时,无法跳出死循环,无法解决眼前的即时错误。
  • 增强性失败(Enhancement Failures):表现为次优的行为模式,如检索偏差、效率低下或上下文污染等。

为了解决这一问题,SCOPE 将上下文管理定义为一个在线优化问题,通过从智能体的“执行轨迹”中汲取经验并自动进化其提示词。

SCOPE 框架的完整工作流程,主要包含三个核心阶段:

  1. 合成与选择(Synthesis & Selection):系统首先以智能体过去的“执行轨迹(Execution Trace)”作为输入,通过“指导生成器(Generator, )”自动生成多条候选的指导原则。随后,“Best-of-N 选择器(Selector, )”从中进行优中选优,筛选出一条“最佳指导原则(Optimal Guideline)”。
  2. 双流路由分类(Routing):最佳原则接着会进入“分类器(Classifier, )”进行分流。如果是针对当前特定任务的短期经验,将被划入虚线所示的“战术流”,存入战术记忆(Tactical Memory);如果是具备持久性、通用价值的经验,则进入实线所示的“战略流”,存入战略记忆(Strategic Memory)。
  3. 优化与输出(Optimization & Output):为了防止长期规则堆积冗余,“优化器(Optimizer, )”会对战略记忆库进行动态的梳理与整合。最终,特定的战术记忆与提纯后的战略记忆强强联合,共同生成“优化后的提示词(Optimized Prompt)”,实现智能体的闭环进化。

实验表明,通过这种自动化的 Prompt 进化,SCOPE 在极具挑战性的 HLE 和 GAIA 基准测试中,无需任何人类干预,就将任务成功率分别从 14.23% 飙升至 38.64%,以及 32.73% 飙升至 56.97%。

让记忆与经验更加 agentic

这类改进的核心思路是:与其每次都把所有的历史记录塞满 Context,不如让 Agent 自主将经验提炼为浓缩的“记忆库”。

Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory

Dynamic Cheatsheet: Test-Time Learning with Adaptive Memory (arXiv:2504.07952)

原文:https://arxiv.org/abs/2504.07952

这篇论文提出了一种极其轻量级的框架——Dynamic Cheatsheet(DC)。它赋予了黑盒大模型在推理时不断进化的外挂记忆。DC 不记录冗长的原始对话,而是设立了一个后台“Curator”模块,在 Agent 完成一轮推理后,主动评估其方案的正确性与泛化性,提炼出极其简练的“启发式规则、代码片段或解题思路”,并将其记录在 Cheatsheet 上。Agent 在后续任务中可以随时复用这些策略。

这种测试时学习极大地提升了模型的性能。在接入 DC 后,Claude 3.5 Sonnet 在 AIME 数学竞赛上的准确率直接翻倍(从 23% 提升至 50%);而 GPT-4o 在“24点游戏”上的成功率更是从 10% 飙升至近乎完美的 99%。

ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory

ReasoningBank: Scaling Agent Self-Evolving with Reasoning Memory (arXiv:2509.25140)

原文:https://arxiv.org/abs/2509.25140

在记录经验时,Agent 往往存在“幸存者偏差”,即只把成功走通的路径记录下来。然而,在真实的试错过程中,失败的教训往往比成功的经验更具指导价值。此外,被动地等待任务来积累经验效率太低。

Google Research 提出的 ReasoningBank 不仅从成功的经验中提取规律,更强制从 自我评判的失败经验 中提炼泛化性推理策略:

Training-Free Group Relative Policy Optimization

Training-Free Group Relative Policy Optimization (arXiv:2510.08191)

原文:https://arxiv.org/abs/2510.08191

2025 年初,以 DeepSeek-R1 为代表的模型证明了通过强化学习(特别是 GRPO 算法)可以让模型产生强大的思考能力。但对于 Agent 应用而言,标准 GRPO 需要进行昂贵的梯度反向传播和参数更新,成本极高,且在垂直领域中容易面临数据匮乏和灾难性遗忘(过拟合)的问题。

这篇研究提出了一种 Training-Free GRPO。它将策略优化从“Parameter space”彻底转移到了“Context space”。它的运行逻辑完全模拟 GRPO:对同一个 Query 生成一组Rollouts,但它不计算数学上的 Advantage 去更新权重,而是让 LLM 充当裁判,对这组尝试的“胜者和败者”进行对比内省,提取出自然语言形态的 “Semantic Group Advantage” 。这些语义经验作为 Token Prior 注入到后续上下文,完成免训练的强化学习闭环。

使用这种纯上下文驱动的 RL 方法,只需百余条训练样本驱动冻结的旗舰模型(如 DeepSeek-V3),就能匹敌甚至超越全参数微调的 32B 大模型。更夸张的是,它的“学习成本”从微调的 800 美元直接降维打击至仅需 8 美元的推理 API 费用。

FLEX: Continuous Agent Evolution via Forward Learning from Experience

FLEX: Continuous Agent Evolution via Forward Learning from Experience (arXiv:2511.06449)

原文:https://arxiv.org/abs/2511.06449

清华大学等团队提出的 FLEX(Forward Learning with EXperience)提出了一个与“反向传播”截然不同的概念:前向学习(Forward Learning)。它构建了一个Actor和Updater交织的循环机制,Agent 在与环境的互动中不断收集、蒸馏经验,存入结构化的经验库。

该研究另一个发现是:提出了经验增长的 Scaling Law,证明了 Agent 的能力会随着经验库容量的扩大而呈现数学上可预测的线性/对数增长。

FLEX 在数学(AIME)、化学合成(USPTO50k)和生物预测等多个科学领域实现了提升。例如在 Claude-Sonnet 上,仅仅学习了 49 个交互案例,其 AIME 准确率就从 40% 拉升至 63.3%:

总结

如果说早期基于 RAG 与 Prompt Engineering 的上下文管理是为 Agent 打造了一把锋利的“外挂瑞士军刀”,那么 Agentic Context Engineering 则是赋予了 Agent 能够自己 “打磨刀刃、编写秘籍、繁衍经验” 的灵魂。

从 ACE 和 SCOPE 的提示词自我演进,到 ReasoningBank 和 FLEX 的经验记忆沉淀,甚至 Training-Free GRPO 在无梯度下的策略跃迁,以及 ACON 带来的自主上下文瘦身,解释了上下文工程的未来方向:大语言模型不仅是推理的引擎,更是自我优化的主体。