拒绝人工喂饭!让AI智能体自主进化出复杂技能包:CoEvoSkills框架全解

现在的 LLM 智能体（Agent）调用几个简单的 API 工具不在话下，但在面对包含多个步骤、需要调试和验证的开放性专业任务（如复杂的软件修复、科学数据分析）时，往往会力不从心。为了解决这个问题，Anthropic 提出了“技能（Skill）”的概念——一种包含指令、脚本和领域知识的复杂工具包。然而，目前这些技能包主要靠人类专家手写，不仅费时费力，还存在严重的“人机认知错位”（Human–machine cognitive misalignment）——人类觉得好用的流程，AI 并不一定觉得好用。本文介绍了一篇前沿论文 CoEvoSkills，提出了一种让智能体“左脚踩右脚”自主进化复杂技能包的框架。无需真实的测试答案，仅通过“技能生成器”和“代理验证器”的协同进化，它不仅在评测中吊打人类手写的技能包，还能将学到的技能无缝迁移给其他模型（如 GPT、Qwen、DeepSeek 等），让不同模型的表现大幅飙升。

1. 为什么“工具”不够用了？（Tool vs Skill）

大型语言模型（LLM）智能体在推理、规划和环境交互方面发展迅速。这背后的一个关键驱动力是调用外部工具（Tool）和 API 的能力。但是，专业的开放式任务远远不止于孤立地调用工具。智能体必须协调多个步骤：分解目标、协调工具、从失败中恢复，并验证中间输出。

为了弥补这一差距，Anthropic 提出了智能体技能（Agent Skills）的概念。到底什么是“技能”？它和普通的“工具”有什么区别？

图 1：Tool 与 Skill 的直观对比。我们可以清晰地看到：工具（Tool）往往只是一个简单的、单一的 Python 函数（比如图左的 convert 函数），就像一把螺丝刀；而技能（Skill）则是一个结构化的“文件夹包裹”（图右的 my-skill 目录），它不仅包含核心入口文件 SKILL.md，还包含领域参考资料、可执行脚本和资源模板，就像一整个带有完整说明书的专业维修工具箱。

根据 SkillsBench 评测，为智能体配备精心设计的技能包，确实能大幅提升其解决复杂任务的能力。然而，目前这种模式几乎完全依赖人工编写。这不仅耗费人力，而且效果参差不齐。更严重的是，人类专家写出来的教程，AI 未必觉得好用。

图 2：不同领域的任务通过率对比。柱状图展示了无技能（红色）、人类编写技能（黄色）和自主进化技能（蓝色）在 11 个专业领域的表现。注意看被红框标注的自然科学（Natural Science）领域：引入人类编写的技能后，智能体的表现反而下降了（柱子比无技能还低）！这证实了“人机认知错位”的假设：为人类专家设计的工作流和抽象，天然不契合 LLM 智能体处理上下文、推理和执行的方式。而蓝色的自主进化技能则一骑绝尘，在 9 个领域都碾压了人类专家。

2. 破局之道：CoEvoSkills 协同进化框架

为了减少人工介入，近期的研究开始尝试让智能体自己生成工具。但这存在巨大的“工具-技能鸿沟”：现有方法只能“一次性”生成简单的单体函数，根本无法构建包含多文件协调的复杂技能包。更糟糕的是，很多自我纠错方法严重依赖真实的基准测试（Ground-truth）作为反馈，但在现实中，我们往往连标准答案都没有。

为此，论文提出了CoEvoSkills：一个技能自我进化的框架。它巧妙地设计了两个“信息隔离”的 AI 组件进行协同进化。

图 3：CoEvoSkills 框架概览图。整个框架由两套循环组成：

技能生成器（Skill Generator，绿色网络）：负责根据任务生成候选的技能包，并产出任务结果。

代理验证器（Surrogate Verifier，蓝色网络）：在不知道真实标准答案的情况下，自己编写测试用例并评估生成器的输出，如果不通过，就给生成器提供具体的失败原因和修改建议。

核心机制：如果代理验证器认为结果完美通过了，系统才会去挑战真实环境（Ground Truth Oracle）。如果真实大考失败了，真实环境只返回一个冷冰冰的失败信号（图中橙色箭头），没有任何报错细节。这会倒逼代理验证器去升级它的测试用例（Evolve Tests），从而在下一轮给生成器施加更大的压力。

3. 技能是如何一点点“炼”成的？

因为一次性生成多文件技能极不可靠，技能必须经过迭代改进。CoEvoSkills 的进化速度有多快？

图 4：技能质量在 5 轮进化中的提升曲线。

第 0 轮和第 1 轮时，AI 刚刚开始自主生成，表现极差（32%），几乎和无技能基线（红色虚线）一样。

随着协同进化的开启，通过率开始飙升，在第 3 轮（63%）时，正式超越了人类手写的技能（绿色虚线 53%）。

仅仅经过 5 轮的迭代，技能包质量就收敛到了惊人的75%，远超 Anthropic 官方单纯的技能生成器（紫色虚线 34%）。

4. 核心实验与结果分析

4.1 技能质量对比：碾压一切基线

在包含 87 个复杂任务的 SkillsBench 基准测试中，CoEvoSkills 展现出了统治级的表现。

图 5：在 Claude Opus 4.6 上的各方法通过率对比。我们清晰地看到，如果不经过协同进化，普通的自主生成（32.0%）、思维链引导的生成（30.7%）甚至是 Anthropic 官方生成器（34.1%），表现都极其糟糕，几乎和不使用技能（30.6%）没有区别。

而CoEvoSkills 以 71.1% 的压倒性优势登顶，不仅比无技能状态提升了 40.5 个百分点，更是超越了人类专家精心编写的技能（53.5%）。这说明：智能体创造的技能确实优于人类，因为它们内化了 AI 原生的推理模式和任务拆解策略。

4.2 惊人的跨模型“授人以渔”能力

既然在 Claude 上进化出了高质量的技能包，这些技能包能不能像“武功秘籍”一样，直接传授给其他公司的 AI 模型使用呢？

图 6：Claude 进化出的技能向其他 6 款主流大模型的迁移表现。这张图是整篇论文最令人振奋的部分之一！左侧是使用自身进化技能的表现，右侧是直接套用 Claude Opus 4.6 进化出的技能包的表现。可以看到，所有接到这份“武功秘籍”的模型，性能全部原地起飞：

GPT-5.2：无技能 29.6% -> 使用迁移技能65.0%（暴涨 35.4%）

Claude Sonnet 4.5：无技能 20.0% -> 使用迁移技能63.1%（暴涨 43.1%）

Qwen3 Coder：无技能 8.4% -> 使用迁移技能50.8%（暴涨 42.4%）

DeepSeek V3：无技能 13.0% -> 使用迁移技能48.8%（暴涨 35.8%）

Mistral Large 3：无技能 4.9% -> 使用迁移技能43.1%（暴涨 38.2%）

这证明了技能包在不同模型家族之间具有高度可移植性。自主进化的技能沉淀的是“可复用的任务结构”和领域法则，而不是某个模型独有的偏方，因此可以作为一个通用的外挂大脑被广泛分享。

5. 精彩案例：AI 是如何学会寻找系外行星的？

论文附录提供了一个非常生动的案例：要求 AI 分析天文光变数据，探测系外行星的轨道周期，要求精确到小数点后 5 位。

人类专家在这个任务上写了足足1096 行的文档教 AI 怎么做，罗列了三种算法（BLS、TLS、Lomb-Scargle）让 AI 自己选。结果 AI 常常选错，人类技能包的通过率只有53.5%。

而 CoEvoSkills 进化过程如下：

初期尝试：

AI 生成器使用了常见的 BLS 算法，代理验证器（充当判卷老师）觉得结果格式合理，给过了。但由于没有达到变态的 5 位小数精度要求，真实环境（最终大考）连续给了两次 75% 的反馈。

顿悟与重构：

被逼急了之后，智能体果断放弃了 BLS 算法，换成了使用更真实物理模型的 TLS 算法，并无师自通地发明了先粗搜、再在候选点 ±2% 范围内精搜的两阶段策略。

最终成型：

进化出的最终技能包只有64 行文档 + 142 行 Python 代码，它去掉了所有的废话，直接硬性规定必须用 TLS 算法，并直接提供封装好的高精度调用函数。最终，拿这个技能包去测试，通过率达到了完美的100%！

6. 总结与启发

CoEvoSkills 提出了一种绝妙的协同进化架构，让技能生成器和代理验证器左右互搏。它不仅绕开了在真实世界中难以获取标准答案的困境，更是首次向我们证明：

与其让人类费尽心思去教 AI 怎么干活，不如提供一个闭环的进化环境，让 AI 自己摸索出属于它的工作流。

这种脱离了特定模型绑定、以脚本代码与 Markdown 文档实体存在的复杂技能包，未来极有可能成为一种全新的开源数字资产。试想一下，未来开发者们分享的不再是单纯的 Prompt，而是经过多轮对战进化出来的、即插即用的 AI 专业技能包，任何大模型加载它之后都能瞬间化身为该领域的顶级专家，那将是一番怎样的光景！

(本文首发于“译数据”公众号，内容基于最新技术论文编译整理，旨在分享前沿AI技术)