最近 AI Agent 圈又来了一篇很值得读的综述论文:
A Comprehensive Survey on Agent Skills: Taxonomy, Techniques, and Applications
中文可以理解为:
Agent Skills 综合综述:分类体系、技术方法与应用
这篇论文的作者来自香港中文大学(深圳),它系统梳理了一个正在迅速变热的概念:Agent Skills。
如果你最近关注 Claude Code、OpenClaw、MCP、Codex、OpenAgent、各种 .skill项目,大概率已经感受到一个趋势:
AI Agent 的竞争,已经不只是“模型会不会推理”,而是“能不能把经验沉淀成可复用的技能”。
以前我们总说 Agent 要会规划、会调用工具、会执行任务。
但这篇论文提出一个更关键的问题:
如果每次做任务,Agent 都要从零思考、从零调用工具、从零试错,那它永远很慢、很脆、很难维护。
所以,Agent 系统真正要走向规模化,必须有一个新的中间层:
Skill。
一、为什么 Agent Skills 现在突然重要了?
过去的大模型主要是“回答问题”。
你问一句,它答一句。
后来 Agent 出现了,模型开始不只是回答,而是可以:
制定计划; 调用工具; 读写文件; 操作浏览器; 运行代码; 连接外部系统; 处理复杂任务。
这就是从 passive response generation到 action-oriented task execution的转变。
简单说:
AI 不再只是“说”,而是开始“做”。
但问题也随之出现。
当任务越来越复杂,Agent 如果每次都靠临时推理来完成任务,就会遇到几个典型问题:
每次都要重新理解流程; 每次都要重新选择工具; 每次都可能漏掉关键步骤; 每次执行结果都不稳定; 一旦任务变长,错误会不断累积; 同一个任务重复做,仍然消耗大量 token 和时间。
这就是论文里强调的 procedural gap,也就是“过程性缺口”。
模型知道很多知识,也能调用很多工具,但它并不天然知道:
在一个具体任务里,应该按照什么稳定流程,把工具、记忆和上下文协调起来。
而 Agent Skill 正是为了解决这个问题。
二、Agent Skill 到底是什么?
这篇论文给出的核心定义很清楚:
Agent Skills 是一种可复用的过程性工件,用来在特定任务约束下,协调工具、记忆和运行时上下文。
这句话看起来有点学术,我们翻译成人话:
Skill 不是一个简单 Prompt,也不是一个单独工具。
它更像是一个“任务操作手册”。
比如:
写公众号文章的 Skill; 做学术综述的 Skill; 生成 PPT 的 Skill; 做代码审查的 Skill; 处理客服工单的 Skill; 读论文并提炼创新点的 Skill; 做实验复现的 Skill。
这些 Skill 里面不只是写一句“你是专家”。
它还可能包含:
任务流程; 判断标准; 工具调用顺序; 输入输出格式; 示例模板; 注意事项; 错误处理方法; 相关参考文件; 可执行脚本。
所以,Skill 的本质是:
把一次次任务中积累出来的“怎么做”,变成 AI 可以重复调用的能力包。
三、Agent 和 Skill 的关系:一个负责想,一个负责做
这篇论文最有价值的观点之一,是重新划分了 Agent 和 Skill 的关系。
过去我们容易把所有能力都塞给 Agent:
Agent 要理解目标; Agent 要拆解任务; Agent 要调用工具; Agent 要记住上下文; Agent 要处理异常; Agent 要生成结果。
但这样会导致 Agent 过载。
论文提出,Agent 和 Skill 应该是互补关系:
Agent 负责高层推理和规划,Skill 负责底层可靠执行。
这就像一个团队:
Agent 像项目经理,负责理解目标、拆解任务、决定方向;
Skill 像标准作业流程和熟练工种,负责把具体动作稳定完成。
举个例子。
用户说:
帮我根据这篇论文写一篇公众号文章。
Agent 需要判断:
这是论文解读任务; 用户想要公众号风格; 需要先理解论文,再转成中文传播表达; 最后输出 Markdown 文件。
但真正执行时,最好调用一个“论文公众号写作 Skill”。
这个 Skill 里面已经写好了:
如何提取论文标题、作者和贡献; 如何解释问题背景; 如何把技术术语转成普通人能懂的话; 如何设计爆款标题和小标题; 如何加入“为什么重要”“适合谁看”“一句话总结”; 如何用 Markdown 格式输出。
这样一来,Agent 不用每次从零摸索,结果也更稳定。
四、这篇综述的核心框架:Skill 生命周期四阶段
论文把 Agent Skills 的研究系统整理成四个阶段:
1. Representation:技能如何表示
第一步是:一个 Skill 到底长什么样?
它可以是:
一段 Prompt; 一个 Markdown 文档; 一个工具调用说明; 一套脚本; 一个工作流; 一个带资源文件的文件夹; 一个可被检索和组合的能力模块。
现在大家看到的 Claude Skills,就很典型:一个 Skill 可以包含 SKILL.md、脚本、参考资料和模板资源。
也就是说,Skill 不是抽象概念,而是可以落地成具体文件结构的。
它的表示方式越清晰,Agent 越容易知道:
什么时候用; 怎么用; 用完输出什么; 出错怎么处理。
2. Acquisition:技能如何获得
第二步是:Skill 从哪里来?
论文把技能获取看成 Agent 系统走向成熟的关键。
Skill 可以来自很多地方:
人类专家手写; 从历史任务中总结; 从成功案例中提炼; 从失败经验中修正; 从大量文档和代码中抽取; 通过 Agent 自己反思和迭代生成。
这点很重要。
未来的 Skill 不一定全部由人写。
更理想的状态是:
Agent 在做任务的过程中,不断把成功经验沉淀成 Skill,把失败经验转化成改进规则。
这就有点像人类学习。
人不会每次做饭都重新研究一遍食材和火候,而是形成菜谱;
程序员不会每次开发都从零查命令,而是形成脚手架和代码模板;
科研人不会每次读论文都重新设计流程,而是形成自己的阅读方法。
Agent 也一样。
真正强的 Agent,不是每次都能临场发挥,而是能把经验变成可复用技能。
3. Retrieval:技能如何被调用
第三步是:Skill 多了以后,Agent 怎么知道该用哪个?
这其实是一个非常现实的问题。
当你只有 3 个 Skill,很简单。
但如果未来一个 Agent 拥有几百个、几千个 Skill,它就必须解决“技能检索”问题。
比如用户说:
帮我分析这篇论文,并写成公众号文章。
系统需要判断:
是论文阅读 Skill? 是中文写作 Skill? 是公众号排版 Skill? 是文献综述 Skill? 还是多个 Skill 组合使用?
这就像手机里装了很多 App,关键不是 App 越多越好,而是系统能不能在正确场景调用正确能力。
论文提到,Skill 检索和选择会成为 Agent 系统的重要环节。
未来 Agent 需要具备:
根据任务语义选择 Skill; 根据上下文选择 Skill; 根据历史效果选择 Skill; 多个 Skill 组合调用; 避免错误触发或过度触发。
这也是为什么很多 Skill 项目特别强调描述字段、触发条件和适用范围。
一个 Skill 写得好不好,不只看内容,还要看 Agent 能不能正确识别它。
4. Evolution:技能如何进化
第四步,也是最有想象力的一步:
Skill 不是写完就结束,而应该持续进化。
因为真实任务会变化,工具会变化,用户需求会变化,模型能力也会变化。
一个 Skill 如果长期不更新,很快就会过时。
所以未来的 Agent Skill 系统,需要具备进化能力:
根据用户反馈优化; 根据失败案例修正; 根据新工具更新流程; 根据新任务扩展能力; 根据实际效果做版本管理; 保留旧版本,避免越改越差。
这也是论文最后强调的开放挑战之一:
如何安全更新 Skill,如何做质量控制,如何保证长期能力管理。
这件事非常关键。
因为 Skill 一旦成为 Agent 的“肌肉记忆”,它的错误也会被反复放大。
一个错误 Prompt 可能只错一次;
但一个错误 Skill,可能会让 Agent 在很多任务里持续犯错。
五、这篇论文为什么值得关注?
我觉得它的重要性,不在于提出了某个新模型,而在于它帮我们把一个正在爆发的现象讲清楚了。
最近几个月,大家看到太多类似东西:
Claude Skills; MCP 工具链; Codex / Claude Code 工作流; - .skill人格蒸馏项目;
Agent 插件系统; 多智能体协作框架; 自动科研 Agent; AI 办公自动化流程。
它们看起来很散。
有人叫 Skill,有人叫 Tool,有人叫 Workflow,有人叫 Agent Plugin,有人叫 SOP,有人叫 Prompt Pack。
但这篇综述试图把它们放到一个统一视角里:
它们本质上都在解决同一个问题:如何把“会做事的过程知识”沉淀成可复用的 AI 能力。
这就是 Agent Skills 的意义。
六、它和 Prompt、工具、MCP 有什么区别?
很多人可能会问:
Skill 和 Prompt 有什么区别?
Skill 和工具调用有什么区别?
Skill 和 MCP 又是什么关系?
可以简单这样理解:
Prompt是一次性指令。
你告诉 AI 这次怎么做。
Tool是外部能力。
比如搜索、运行代码、查数据库、操作浏览器。
MCP是连接协议。
它让 AI 更标准地访问外部工具和数据。
Skill是过程知识。
它告诉 AI 在具体任务中,如何组合 Prompt、工具、记忆和上下文,把事情稳定做完。
所以:
Prompt 解决“怎么说”;Tool 解决“能做什么”;MCP 解决“怎么连接”;Skill 解决“如何把事情做对”。
这就是 Skill 的特殊位置。
它不是替代 Prompt、工具和 MCP,而是把它们组织起来。
七、普通人该怎么看 Agent Skills?
不要觉得这只是研究者和开发者的事。
它其实和每个使用 AI 的人都有关系。
如果你经常让 AI 做某类重复任务,比如:
写公众号; 做 PPT; 读论文; 写项目申请; 整理会议纪要; 做代码审查; 生成短视频脚本; 分析实验结果; 写教学材料。
那你就应该考虑把这类任务沉淀成自己的 Skill。
因为长期来看,真正拉开差距的不是谁会问 AI 一两句,而是谁能把自己的方法论变成可复用资产。
一个好 Skill,就像你的私人工作流:
让 AI 更懂你的风格; 让输出更稳定; 让重复工作更快; 让经验不断积累; 让你不用每次重新解释需求。
这也是为什么现在很多人开始做:
论文阅读。skill; 公众号写作。skill; PPT设计。skill; 自媒体运营。skill; 科研助手。skill; 个人知识库。skill。
AI 时代的个人效率,不只是会用模型,而是会沉淀自己的技能系统。
八、未来真正稀缺的,可能是“Skill 设计能力”
过去大家卷 Prompt。
谁的提示词写得好,谁的 AI 输出就更好。
但现在趋势正在变化:
Prompt 仍然重要,但已经不够了。
未来更重要的是:
你能不能把复杂任务拆成稳定流程; 你能不能把经验写成清晰规则; 你能不能设计触发条件; 你能不能把工具和上下文组织起来; 你能不能让 Skill 可复用、可组合、可更新; 你能不能用反馈持续优化它。
这就是 Skill 设计能力。
它有点像过去的软件工程,也有点像知识管理,还有点像产品经理设计流程。
真正厉害的人,未来可能不是只会写 Prompt,而是能把自己的工作方法封装成一套 Skill。
九、这篇综述留下的几个关键问题
当然,Agent Skills 还处在早期阶段。
论文最后也指出了一些挑战:
1. 质量控制
谁来判断一个 Skill 是好是坏?
它是否真的提升效率?
是否会带来错误?
是否能稳定复现?
2. 互操作性
不同平台的 Skill 能不能通用?
Claude 的 Skill、Codex 的 Skill、开源 Agent 的 Skill,未来能不能互相迁移?
3. 安全更新
Skill 更新后,会不会引入新错误?
旧版本结果还能不能复现?
能不能像软件一样做版本管理?
4. 长期能力管理
当一个 Agent 拥有成百上千个 Skill,如何管理、检索、评估和淘汰?
这些问题现在还没有完全解决。
但也正因为如此,Agent Skills 才是一个值得继续关注的方向。
十、写在最后:Agent 的未来,不只是更聪明,而是更会积累
这篇论文最打动我的地方,是它提醒我们:
Agent 的进化,不应该只是模型越来越强,也应该是技能越来越可积累。
人类之所以强,不是每次都从零思考。
我们会总结经验,形成流程,写成手册,做成模板,训练成习惯。
Agent 也会走向这个方向。
它不应该每次都重新发明轮子,而应该把一次次任务中的经验沉淀下来,变成可检索、可组合、可更新的 Skill。
所以,Agent Skills 真正代表的,不只是一个新名词。
它代表的是 AI Agent 从“临场发挥”走向“经验积累”的关键一步。
未来的 Agent 系统,可能会像这样运行:
模型负责理解和规划; 工具负责外部执行; 记忆负责保存经验; Skill 负责稳定完成任务; 人类负责定义目标、审查结果和持续改进。
如果说早期 AI 是“会聊天”,后来的 Agent 是“会做事”,那么 Agent Skills 想解决的就是:
如何让 AI 把事情越做越熟。
这才是它真正值得关注的地方。
📌 论文信息一览
💬 互动话题
如果让你给自己做一个 Skill,你最想做哪一个?
公众号写作。skill 论文阅读。skill PPT设计。skill 科研助手。skill 代码审查。skill 自媒体运营。skill 个人知识库。skill
欢迎在评论区聊聊。
如果这篇文章对你有启发,记得点个「赞」和「在看」,也可以转给正在研究 AI Agent 的朋友。
夜雨聆风