近年来,大语言模型在复杂推理、代码生成以及智能体等方向不断突破,一个更接近真实世界的问题也逐渐浮出水面:模型是否真的能够从复杂上下文中学习?
现实中的许多任务,其关键知识并不存在于模型预训练记忆里,而是隐藏在冗长、专业且此前从未见过的专业文档之中。例如,阅读一份全新的技术文档后完成操作流程,根据陌生规则系统进行推理,又或是从实验数据中归纳规律……这些能力被研究者称为 “Context Learning”。然而,即便是 GPT-5 等顶尖模型,在这类任务上的表现依然远未达到实用水平:它们往往能够“读到”信息,却难以真正提炼规则、形成技能,并稳定迁移到新任务中。
为了增强模型的 Context Learning 能力,一种直觉上较为合理的思路是:在推理阶段,将长上下文中的规则、流程和经验提炼成自然语言“技能(Skills)”,再让模型利用这些技能完成任务。这带来了新的两难困境:人工编写技能库虽然质量高,但面对长篇、专业、跨领域文档时成本极其高昂;自动化技能生成虽然效率更高,却通常依赖代码执行、标准答案比对等奖励信号,在开放式 Context Learning 任务中几乎无法获得有效反馈。换句话说,模型虽然知道“上下文里有知识”,却缺乏一种无需人工监督、也无需外部反馈的方式,去真正把这些知识沉淀为可复用的能力。如果一个系统能够像“自学型研究员”一样,在没有人工标注或外部反馈的情况下,仅依靠上下文和文档本身不断总结经验,并逐步演化出一套高质量技能(Skills),这是否可能?
围绕这一问题,清华大学自然语言处理与社会人文计算实验室与深言科技、UIUC、复旦大学等机构提出了一种全新的 Skill 自动生成框架 Ctx2Skill。该方法通过多智能体自博弈(Self-Play)机制,让模型在“出题-解题-诊断-反思”的循环中自动进化技能,并利用 Cross-Time Replay 机制避免技能过拟合。实验表明,Ctx2Skill 能够显著提升 GPT-4.1、GPT-5.1 等模型的 Context Learning 能力,甚至让 GPT-4.1+Skills 的表现超过更强的前沿模型 Gemini 3 Pro,展示了从复杂文档中自动构建 Skills 这一方向的巨大潜力。

论文链接:
https://arxiv.org/abs/2604.27660
代码链接:
https://github.com/S1s-Z/Ctx2Skill

核心方法
多智能体自对弈:从复杂文档中“自动长出 Skills”
为大模型未见过的复杂文档构建 Skills 面临两个核心障碍:一方面,人工阅读长篇文档并总结其中的规则、流程与隐含知识成本极高;另一方面,在 Context Learning 任务中,并不存在代码执行结果、标准答案比对等奖励信号,因此系统无法判断生成的 Skills 是否真的有用。

为了解决这两个问题,Ctx2Skill 提出了一套多智能体自对弈(Self-Play)框架,仅依赖上下文和文档本身,自主发现、更新并筛选相关 Skills。Ctx2Skill 的核心思想是:通过多轮由“失败驱动”的文本迭代,共同进化推理者技能集(Reasoner Skills)、挑战者技能集(Challenger Skills)两套技能体系。其中,推理者不断积累上下文中的知识,而挑战者则不断挖掘推理者尚未掌握的能力盲区,从而形成持续升级的对抗过程。
整个框架由五类冻结参数的语言模型智能体协同完成。在每一轮迭代中,五个固定权重的语言模型角色分工协作:
挑战者(Challenger):给定复杂文档以及当前挑战者技能集,挑战者会生成一批任务,并为每个任务设计对应的评分细则(Rubrics)。这些任务并不是简单的信息检索,而是要求模型真正理解复杂文档中的规则、依赖关系与操作逻辑。例如,根据系统手册推断异常恢复流程、实验记录中归纳隐藏约束。评分细则的目标,是确保模型必须“归纳规则”而不是“复述原文”。与此同时,挑战者会随着迭代动态升级任务难度。当推理者逐渐掌握文档知识后,挑战者会不断提出更复杂、更具迷惑性的任务,以持续维持对抗压力。
推理者(Reasoner):推理者负责真正解决任务。给定复杂文档、任务以及当前技能集,推理者生成最终答案。每轮迭代中,推理者负责回答挑战中生成的多个任务,后续推理者的回复会用于迭代挑战者和推理者的 Skills。
裁判(Judge):裁判负责严格评估任务是否真正完成。裁判会对每条 Rubric 返回一个二元裁决(Pass / Fail),并最终生成任务解决指示器。只有当所有评分细则全部通过时,任务才会被认为真正解决。
提议者(Proposer、两侧各一):裁判的二元裁决确定了哪些任务失败或解决,但没有说明原因。因此,提议者需要分别汇总推理者没做对的案例和挑战者被轻易破解的案例,诊断当前技能的全盘缺口,输出一份高层次的修改建议。提议者不是孤立地诊断每个案例,而是将跨案例的常见失败或成功模式综合成高级诊断,指定操作(添加或合并)、目标技能名称、描述和理由。
生成者(Generator、两侧各一):提议者描述了应该改变什么以及为什么,但不是具体的技能内容本身。接下来,生成者会将诊断物化为实际的技能集。给定诊断和当前技能集后,生成者将返回一个完整的替换技能集,在该技能集添加或合并条目,同时保留每个不相关的条目。
这套机制的关键在于:挑战者(Challenger) 不是固定的出题机器,它也拥有自己的技能集并不断进化,从而形成持续的竞争压力;而推理者(Reasoner)的技能更新也完全由失败案例驱动,逐步补齐知识盲区。整个过程没有任何参数更新,也没有使用任何外部反馈,所有改进都以自然语言技能文件的形式沉淀下来。最终,推理者(Reasoner)侧累积的 Skills 可以在推理阶段提供给任意大模型以提高其 Context Learning 能力。
Cross-Time Replay:防止 Skills “越学越偏”
上述框架设计在跨迭代过程中有意加强挑战者,使其得以随着推理者的改进维持对抗压力。然而,这种简单设计引入了一种固有的 Bias,我们将其称为对抗性崩溃(Adversarial Collapse)。随着迭代的进行,挑战者会生成越来越极端的任务,这些任务集中在推理者残余的弱点上,逐渐偏离复杂文档的代表性知识。由于推理者的技能更新是由失败驱动的,这些病态案例可能导致冗余技能的积累,从而降低其泛化能力。此外,这种崩溃在循环内是不可检测的:每次迭代的裁判仅评估挑战者新生成的任务,不提供关于早期迭代中掌握的上下文知识是否被后续编辑破坏的信号,无条件地返回最后一次迭代的推理者技能是不可靠的。
基于此,Ctx2Skill 设计了一个跨时间重放机制(Cross-Time Replay)。在每轮结束时,系统会把当前最难的失败案例和最易的成功案例分别存入“困难探针集”与“简单探针集”。全部迭代结束后,用生成的历轮推理者技能让推理者重新回答这两组题目,计算两者解题率的乘积,选出乘积最高的那一轮技能作为最终的 Skills。基于这一设计,我们既能踢掉那些只顾啃硬骨头却丢了基本盘的 Skills,也能淘汰安于现状的早期版本,保证所选 Skills 既稳健又精进。
实验效果
构造的 Skills 的有效性
下图展示了 CL-bench 上的主要结果。对于当前的前沿语言模型来说,Context Learning 任务仍然具有挑战性:即使是表现最好的模型 GPT-5.1,其整体解决率也仅为 21.1%。

Ctx2Skill 在所有三个基座模型上一致地提高了解决率,将 GPT-4.1 从 11.1% 提升至 16.5%(+5.4%),GPT-5.1 从 21.1% 提升至 25.8%(+4.6%),GPT-5.2 从 18.2% 提升至 21.4%(+3.2%),在所有四个类别中大幅超越了 Prompting 和 AutoSkill4Doc。在对程序性、归纳性推理上下文要求更高的类别(如程序性任务执行、实证发现与模拟等)中,该提升尤为明显。
相比之下,两个基线方法仅提供了适度的改进,并且偶尔会降低个别类别的性能(例如,Prompting 使 GPT-4.1 上的规则系统应用下降了 2.5%),这表明单次传递的技能提取不足以处理复杂的上下文知识。值得注意的是,配备 Ctx2Skill 技能的 GPT-4.1(16.5%)超越了没有技能的更强前沿模型,例如 Gemini 3 Pro(15.8%),证明特定上下文的技能可以弥合巨大的能力差距。
构造的 Skills 的质量
除了解决率之外,该研究还使用 GPT-4.1 作为裁判,从五个维度(简洁性、忠实性、清晰度、有效性和可复用性)评估了生成技能的内在质量。Ctx2Skill 在所有三个基座模型上均获得了最高的平均分,在 GPT-4.1、GPT-5.1 和 GPT-5.2 上分别比 AutoSkill4Doc 高出 +3.6、+2.1 和 +2.3 分。其中,模型在忠实性和清晰度方面的改进最为显著。这些结果表明,迭代自对弈循环产生的技能不仅改善了下游推理,而且以结构良好、人类可读的形式呈现了上下文知识,便于检查、编辑和复用。

分析实验
我们在 GPT-4.1 和 GPT-5.1 上对 Ctx2Skill 的每个组件进行了消融实验(表 3,Ablation Study 区块)。
移除挑战者技能演进导致了最大的性能下降,证实了持续的对抗压力对于推理者逐步发现上下文知识是必不可少的。
Cross-Time Replay 是第二具影响力的组件。如果没有它,最后一次迭代的技能会遭受对抗性崩溃。在跨时间重放中,困难探针集的贡献大于简单探针集,移除拉普拉斯平滑也会降低性能。
将提议者和生成者合并为单个智能体会产生适度但一致的下降,支持了将诊断与技能物化解耦的设计。

我们还在 GPT-4.1 上检查了三种替代变体设计(表 3,Variant Designs Testing区块):
仅失败方技能更新(Loser-Only Skill Update)每次迭代仅更新失败方的技能;0.5% 的下降表明更新双方会产生更有效的共同进化。
联合结果技能更新(Joint Outcome Skill Update)将失败和解决的案例同时馈送到双方,允许各方从正负样本中学习;较大的 1.0% 退化表明混合结果稀释了诊断信号。
加法评分(Additive Scoring)将 Cross-Time Replay 机制中的乘法替换为加法;0.6% 的下降证实了乘法形式能更好地惩罚那些以牺牲简单探针性能换取困难探针收益的技能集。

从子类别柱状图可看到,绝大多数任务类型都获得正向提升,尤其在“工作流编排”子项上的提升高达 11.8 个百分点,验证了技能在结构化推理中的价值。
将跨时间重放与使用固定迭代的技能进行比较(表 3,Effect of Cross-Time Replay Mechanism区块):在 GPT-4.1 上,固定迭代的性能从 Iter-1(15.9%)单调下降到 Iter-5(14.7%),证实了后期的迭代遭受了对抗性崩溃现象。跨时间重放(16.5%)通过自适应地为每个上下文选择最平衡的技能集,而不是在所有上下文中承诺单一迭代,超越了每个固定迭代(相较于最好的 Iter-1,仍高出了 +0.6%)。下图证实了这一模式:在所有三个基座模型中,早期迭代被选择的频率最高,而后期迭代的非平凡比例表明,具有更复杂知识结构的某些上下文确实受益于额外的自对弈轮次。

总 结
本论文提出了 Ctx2Skill,这是一个自我进化的框架,能够自主地从复杂的上下文和文档中发现、微调和选择特定上下文的 Skills,而无需人工标注或外部反馈。通过技能优化的自对弈循环,挑战者和推理者通过失败驱动的文本编辑共同进化其技能集,而跨时间重放机制通过在迭代中选择最具泛化能力的技能集来防止对抗性崩溃。在 CL-bench 上的实验表明,Ctx2Skill 一致且大幅地提高了多个基座模型和任务类别的 Context Learning 性能,并且生成的技能可以在模型之间转移。Ctx2Skill 提供了一个实用且可扩展的范式,为语言模型配备了从复杂、以前未见过的上下文和文档中巧妙学习的能力。



夜雨聆风