现在的 LLM 智能体(Agent)调用几个简单的 API 工具不在话下,但在面对包含多个步骤、需要调试和验证的开放性专业任务(如复杂的软件修复、科学数据分析)时,往往会力不从心。为了解决这个问题,Anthropic 提出了“技能(Skill)”的概念——一种包含指令、脚本和领域知识的复杂工具包。然而,目前这些技能包主要靠人类专家手写,不仅费时费力,还存在严重的“人机认知错位”(Human–machine cognitive misalignment)——人类觉得好用的流程,AI 并不一定觉得好用。本文介绍了一篇前沿论文 CoEvoSkills,提出了一种让智能体“左脚踩右脚”自主进化复杂技能包的框架。无需真实的测试答案,仅通过“技能生成器”和“代理验证器”的协同进化,它不仅在评测中吊打人类手写的技能包,还能将学到的技能无缝迁移给其他模型(如 GPT、Qwen、DeepSeek 等),让不同模型的表现大幅飙升。
1. 为什么“工具”不够用了?(Tool vs Skill)
大型语言模型(LLM)智能体在推理、规划和环境交互方面发展迅速。这背后的一个关键驱动力是调用外部工具(Tool)和 API 的能力。但是,专业的开放式任务远远不止于孤立地调用工具。智能体必须协调多个步骤:分解目标、协调工具、从失败中恢复,并验证中间输出。
为了弥补这一差距,Anthropic 提出了智能体技能(Agent Skills)的概念。到底什么是“技能”?它和普通的“工具”有什么区别?

根据 SkillsBench 评测,为智能体配备精心设计的技能包,确实能大幅提升其解决复杂任务的能力。然而,目前这种模式几乎完全依赖人工编写。这不仅耗费人力,而且效果参差不齐。更严重的是,人类专家写出来的教程,AI 未必觉得好用。

2. 破局之道:CoEvoSkills 协同进化框架
为了减少人工介入,近期的研究开始尝试让智能体自己生成工具。但这存在巨大的“工具-技能鸿沟”:现有方法只能“一次性”生成简单的单体函数,根本无法构建包含多文件协调的复杂技能包。更糟糕的是,很多自我纠错方法严重依赖真实的基准测试(Ground-truth)作为反馈,但在现实中,我们往往连标准答案都没有。
为此,论文提出了CoEvoSkills:一个技能自我进化的框架。它巧妙地设计了两个“信息隔离”的 AI 组件进行协同进化。

3. 技能是如何一点点“炼”成的?
因为一次性生成多文件技能极不可靠,技能必须经过迭代改进。CoEvoSkills 的进化速度有多快?

4. 核心实验与结果分析
4.1 技能质量对比:碾压一切基线
在包含 87 个复杂任务的 SkillsBench 基准测试中,CoEvoSkills 展现出了统治级的表现。

4.2 惊人的跨模型“授人以渔”能力
既然在 Claude 上进化出了高质量的技能包,这些技能包能不能像“武功秘籍”一样,直接传授给其他公司的 AI 模型使用呢?

这证明了技能包在不同模型家族之间具有高度可移植性。自主进化的技能沉淀的是“可复用的任务结构”和领域法则,而不是某个模型独有的偏方,因此可以作为一个通用的外挂大脑被广泛分享。
5. 精彩案例:AI 是如何学会寻找系外行星的?
论文附录提供了一个非常生动的案例:要求 AI 分析天文光变数据,探测系外行星的轨道周期,要求精确到小数点后 5 位。
人类专家在这个任务上写了足足1096 行的文档教 AI 怎么做,罗列了三种算法(BLS、TLS、Lomb-Scargle)让 AI 自己选。结果 AI 常常选错,人类技能包的通过率只有53.5%。
而 CoEvoSkills 进化过程如下:
初期尝试:
AI 生成器使用了常见的 BLS 算法,代理验证器(充当判卷老师)觉得结果格式合理,给过了。但由于没有达到变态的 5 位小数精度要求,真实环境(最终大考)连续给了两次 75% 的反馈。
顿悟与重构:
被逼急了之后,智能体果断放弃了 BLS 算法,换成了使用更真实物理模型的 TLS 算法,并无师自通地发明了先粗搜、再在候选点 ±2% 范围内精搜的两阶段策略。
最终成型:
进化出的最终技能包只有64 行文档 + 142 行 Python 代码,它去掉了所有的废话,直接硬性规定必须用 TLS 算法,并直接提供封装好的高精度调用函数。最终,拿这个技能包去测试,通过率达到了完美的100%!
6. 总结与启发
CoEvoSkills 提出了一种绝妙的协同进化架构,让技能生成器和代理验证器左右互搏。它不仅绕开了在真实世界中难以获取标准答案的困境,更是首次向我们证明:
与其让人类费尽心思去教 AI 怎么干活,不如提供一个闭环的进化环境,让 AI 自己摸索出属于它的工作流。
这种脱离了特定模型绑定、以脚本代码与 Markdown 文档实体存在的复杂技能包,未来极有可能成为一种全新的开源数字资产。试想一下,未来开发者们分享的不再是单纯的 Prompt,而是经过多轮对战进化出来的、即插即用的 AI 专业技能包,任何大模型加载它之后都能瞬间化身为该领域的顶级专家,那将是一番怎样的光景!
(本文首发于“译数据”公众号,内容基于最新技术论文编译整理,旨在分享前沿AI技术)
夜雨聆风