AI正在长出“技能系统”:从MCP到Skills,协议战争的下一站在哪

上周有个做AI Agent的朋友跟我说了一句话,我想了两天。
他说:“你发现没有?我们用了快两年时间,才搞明白一件事——让AI调用工具,最重要的不是‘怎么连’,而是‘怎么知道什么时候该用哪个’。”
他说这话的时候,我刚好看完Anthropic最新的Agent Skills开放标准和2026年4月MCP Dev Summit的全部材料。这两个东西放在一起看,有一条非常清晰的演进脉络。而这条脉络指向的东西,比任何单一协议都重要。
1
MCP做了一件了不起的事,但也埋了一个结构性的坑

先回到2024年11月。Anthropic推出MCP(Model Context Protocol),定位很清晰:做AI时代的“USB-C”,让大模型用统一的方式连接外部工具和数据源。在此之前,每接一个外部系统都得手写适配器——Cursor有Cursor的插件体系,Claude有Claude的工具调用格式,OpenAI有自己的Function Calling,互相不兼容。
MCP把这个乱局统一了。一套JSON-RPC 2.0协议,客户端-服务器架构,本地用STDIO传输,远程用HTTP+SSE。发布之后,行业几乎全部站队支持——OpenAI在2025年3月跟进,Google在4月跟进,微软在Windows 11里做原生集成。到2025年底,GitHub上已经有一万多个公开MCP服务器,Python和TypeScript SDK月下载量9700万次。
但一年多的生产环境跑下来,问题也集中暴露了。而且不是一个问题,是一组环环相扣的问题。
第一个坑:上下文膨胀。MCP的工作方式是:把所有可用工具的定义(名称、描述、参数schema)全部注入模型的上下文。每增加一个工具,就多占一块token预算。有开发者实测过,某主流AI IDE捆绑了43个MCP工具,光工具描述就在上下文里塞了55000个token——等于干活之前先把token预算花掉一大半。100个工具就是约40000 token的纯开销。你花大价钱买的上下文窗口,一大半租给了工具说明书。
第二个坑:决策瘫痪。 几百个工具定义全堆在上下文里,功能相似的工具成片出现。模型没有机制去区分细微差异,只能靠语义猜测去选。选错了第一步,后面的参数组装和执行全是无用功。这就像一个工具箱被倒扣在地上,所有螺丝刀、扳手、电钻摊在一起,你得自己扒拉半天。而且每次打开工具箱,都要重新扒拉一遍。
第三个坑:参数猜谜。工具schema定义了参数类型(比如“date是字符串”),但没告诉模型这个日期必须是YYYY-MM-DD格式、不能早于2020年、不能晚于今天。模型只能猜。猜错了报错,换种方式再试,再报错——然后就进入了烧token的地狱循环。
第四个坑:连接不稳定。 ScaleKit在2026年2月做了一次基准测试,MCP方案的任务完成率只有72%,平均耗时是CLI方案的1.3倍。28%的任务直接失败,主要原因就两个:超时和连接不稳定。
第五个坑:安全缺陷。 2026年4月,安全研究机构OX Security披露了一个更严重的问题:MCP的STDIO接口存在设计缺陷,可以在无校验的情况下执行任意OS命令,影响范围保守估计超过20万台服务器。覆盖Anthropic官方支持的全部11种语言SDK。研究者向11个主流MCP市场上传恶意服务器概念验证,9个直接接受且无安全审查。更让人心凉的是Anthropic的回应——他们说这属于“预期行为”,只更新了一个安全文档提醒大家小心使用。
把这些坑放在一起看,你会发现它们指向同一个根源:MCP解决了“怎么连”的问题,但完全没解决“怎么用”的问题。它定义了统一的连接接口,但从来没规定模型应该怎么发现工具、怎么选工具、怎么填参数、怎么处理失败。用我一个做Agent开发的朋友的话说:“MCP给你的是一根万能数据线,但没告诉你这根线应该插哪个设备。”
这就是为什么Perplexity的CTO Denis Yarats在2026年3月公开宣布放弃MCP,转回API和CLI——“在实际产品里测了半年,结论是MCP带来的复杂度远大于它解决的那个问题”。这也是为什么Y Combinator的CEO Garry Tan在推特上就打了六个字母、两个单词:MCP sucks。
2
Skills的出现不是巧合,是对MCP结构性缺陷的精确回应

讲到这你可能会问:MCP出了这么多问题,那替代方案是什么?
答案是,问题本身就是答案的线索。 我们回过头重新梳理刚才每一个坑的根源:
-
上下文膨胀?因为工具定义跟使用分离,模型需要“先认识所有螺丝刀再选”。
-
决策瘫痪?因为不同工具的使用场景没有结构化描述,模型只能硬猜。
-
参数猜谜?因为工具的隐性使用知识没有被纳入执行链路。
-
质量不稳定?因为每调用一个工具都要走繁琐的实时会话,没有递进式加载机制。
每一个坑的根源,都指向同一个缺失:工具的“使用说明书”没有被当作一等公民来设计。 MCP世界观的核心是“连接”——定义一整套让AI系统可靠连接外部世界的统一协议。但在实际使用中,开发者痛苦的不是“连不上”,而是“连上了但不会用”。
Anthropic显然意识到了这个问题,而且它做的事,比发表一个公开信说自己“听到了大家的反馈”更务实——它在协议之上又抽象了一层。
2025年10月,Anthropic发布Agent Skills。 12月18日,联合多家生态伙伴开源Agent Skills Specification 1.0。在开源声明中,Anthropic的系统性设计思路得到了完整表达——定位极其清晰:如果说MCP解决“能调什么工具”,Skills则解决“怎么完成任务流程” 。
这个定位不是一个概念对仗游戏。这里面的结构关系,是明确的分层架构:MCP是一把扳手,Skills是一个“拧紧某种特定螺丝”的使用说明书。
我给你一个具体例子。
一个做数据分析的Agent需要读取PDF。在纯MCP模式下,开发者需要:
-
先写一个PDF工具的JSON Schema:“函数名叫read_pdf,参数叫file_path,类型是string。”
-
把这几百行的Schema打包好,挂到Agent上——于是模型知道“哦,有一个叫read_pdf的工具”。
-
但当用户真的上传一个PDF要它提取表格时,模型还是不知道该怎么处理——它只知道“我可以调用read_pdf这个函数”,但不知道“提取表格需要先识别页面中的表格区域,然后处理合并单元格的情况,然后……”
在Skills模式下,开发者做的是:创建一个PDF处理的Skill文件夹,包含SKILL.md、脚本、模板和参考规则。模型运行时先读元数据,发现“这个技能专门解决PDF表格提取问题”,触发Skill后才加载详细指令和可执行脚本。不会出现“所有工具说明书全部塞进上下文”的情况。
从架构层面来看,MCP把工具的功能描述塞进上下文,Skills则是把专家的领域知识封装成文件包。一个是工具列表,一个是操作手册。一个是目录,一个是教程。
这种分层意义深远,因为它本质上是人类知识管理数百年演进逻辑的直接映射——从“把工具摆在那儿”到“教会你怎么用”。不是把“怎么做”换成“做成什么样”。Skills这个方向,指的不是“替代MCP”,而是“让MCP真正可用的必要条件”——连接给了你入口,技能给了你路径。
我引用官方放出的细节来说明这个“轻”和“重”的分工。Skill不是繁重的能力体,而是一个标准化、可移植、具备可组合性的知识文件夹,agent可以根据场景渐进式地加载。它内部的组成其实就四层结构:
-
SKILL.md——主文件,描述这个技能是什么、何时触发、执行的核心指令。
-
scripts/——可执行脚本,比如用Python做PDF的解析与表格提取。
-
references/——参考文档,用来提供详细的规则、注意事项、格式标准和错误处理逻辑。
-
assets/——素材与模板,比如发票识别用例中的发票样例,或者品牌风格的视觉模版。
当模型接到一个任务,先读metadata,识别“这个技能是不是该被触发”,触发成功后,再渐进式地加载脚本与参考文档。上下文不再是“一次性倒给你所有螺丝刀”,而是“先看一下你面前的东西是什么,再告诉你这一把该怎么用。”
截至2026年2月,公开可用的Agent Skills已经超过85000个,支持该标准的主流平台达27家,覆盖开发、设计、办公、电商、金融等领域。微软Azure AI Studio宣布原生支持Agent Skills格式,GitHub Copilot Workspace开始实验性支持,Cursor成为首个全面采用Agent Skills的AI IDE。Linux基金会也已启动讨论,拟将Agent Skills纳入AI & Data基金会(AIDF)的候选标准之一。
这不是“MCP的竞争对手”,这是“MCP拿到生产环境里真正跑起来需要的同行者”。
3
A2A来了:但MCP到Skills那条线,和Agent之间那条线,是两码事

先说清楚一个很多人混淆的概念。
Skills解决的是“一个Agent内部的能力怎么组织、怎么复用”。但整个行业在2026年还在折腾另一件事:多个Agent之间怎么协作。
Google在2025年4月推出了A2A(Agent2Agent Protocol),跟MCP不是一个层面的东西,但很多人以为它们是对立关系。其实它们是严格的分层协作关系。
拿人类组织打个比方:MCP(以及Skills)解决的是员工A怎么使用工具,A2A解决的是员工A和员工B怎么配合完成一个任务。
技术上看:MCP是“垂直”的——把Agent连接到工具和数据,回答“我能用什么?”A2A是“水平”的——Agent之间互相发现、互相委托任务,回答“我能和谁合作?”。
一个具体例子:“检查仓库库存”需要多个Agent协作——库存Agent查询数据,物流Agent安排运输,客服Agent更新用户。MCP给每个Agent提供调用自家数据库的能力(垂直连接),但Agent之间互相委托任务、交换中间结果,这些是A2A的范围(水平协作)。
这两层不仅不冲突,而且在实际工程里被设计成互补关系。Google官方从未说A2A要替代MCP,它的定位是Agent与Agent之间的通信语言;MCP是Agent调用工具、数据库、外部系统的通信管道。像一个公司内部的ERP系统调用(MCP做的事)和部门之间的工作流协同(A2A做的事)。
A2A v1.0现在已经是生产稳定版本,在150个组织中运行,由Linux Foundation治理。它的核心机制是通过“Agent Cards”——每个Agent发布一个JSON清单,声明自己的身份、能力、端点、认证方式——来实现Agent之间的相互发现。
A2A的快速成长说明一件事:Agent生态已经从“一个模型加一堆工具”的阶段,进入了“多个Agent需要编排协作”的阶段。 当系统里有几十个甚至上百个Agent同时运行,它们不能靠硬编码知道彼此的存在,需要一种自动发现、自动协商的机制。协议是这种扩展性的前提。
4
从MCP到Skills到A2A,一条完整的演进逻辑开始浮现

现在我们把这些点连起来。
2024年11月MCP推出的时候,行业的目标很简单:让AI能调用工具。只要有统一接口就行。后来发现光有接口不行,调用工具的上下文成本、选择效率、参数填写的隐性知识,每一环都埋着坑。
于是Skills出现了。把“使用工具的能力”从“连接工具的能力”里拆出来,变成独立的一层。模型不需要背下所有工具的说明书,而是根据需要渐进式加载。Skills变成了“Agent的能力模块”,不再是扁平的工具列表。
再到2026年,整个Agent生态膨胀到需要让不同厂商、不同框架的Agent互相对话,于是A2A应运而生。
这三条线的方向完全不同: MCP解决“连接层”,Skills解决“能力层”,A2A解决“编排层”。把Skills放在MCP和A2A之间思考,它正在变成一个不再依赖任何一个具体协议、但在所有Agent系统中都绕不开的“能力单元”定义。
这不是某一家公司的路线图。这是整个行业正在自然形成的分层架构。
5
未来方向

到了2026年,Skills本身正在快速标准化,但最值得关注的是它指向的几个方向:
-
可组合的Skill市场将成为Agent生态的基础设施。 截至2026年2月,公开Skills已超85000个。Linux基金会正在推动其成为正式标准。技术人如果现在还没开始把业务能力封装成Skill,后面会越来越被动。
-
Skill将成为AI时代的“分支能力”基础设施——类似于移动互联网时代的App Store,但更底层。它影响的不是某一个AI产品,而是所有AI产品都需要遵循的能力接口标准。Agent Skills被TechCrunch称为“AI领域的Dockerfile”——让AI能力变得可移植、可组合、可版本控制。
-
自主Skill生成正在成为产品竞争的核心地带。2026年3月,Anthropic发布Skill Creator 2.0,实现了AI Agent技能的自动生成与持续优化。模型观察人类的操作,自动总结、封装、优化Skill定义,并在实际使用中根据反馈迭代更新。这意味着Skill的生产不再是纯人工工程,而是一个“人设定方向+模型自动生成+使用数据持续反馈”的闭环。
-
这些演进最终指向一个方向:AI系统正在从“被训练”走向“被组装” 。未来的Agent应用,可能像乐高一样,从标准化的Skill市场中组合出需要的功能,而不是从零训练或开发。Skill就是那个最小的标准积木块。
6
写在最后

整条演进线索非常清晰,但很多人还在用2024年的MCP叙事框架理解2026年的Agent生态。2024年,最性感的技术是“模型能调用工具”;2026年,最性感的技术是“模型知道什么时候该用什么工具”。
MCP给了Agent一张地图——上面标着所有可以连接的外部系统。但地图只是地图,它没告诉你哪条路最快、堵不堵、哪条路修路了需要绕行。Skills就是给地图配上的导航App,它不只告诉你“那里有个工具”,还告诉你“这个场景下应该用这个工具、按这个顺序、注意这些坑”。
MCP是水管,A2A是水管网,Skills是水流调度系统。三样缺一不可,但调度系统才是让整个系统从“能通水”变成“高效通水”的关键。
把MCP、Skills、A2A放进同一个框架里看,未来的AI Agent能力是什么样的?
一个Agent将通过A2A发现协作伙伴,用Skills确定自己能做什么、怎么做,通过MCP去连接外部系统的工具和数据。这三层缺一不可,但Skills这一层最容易被人忽略——因为它既不像MCP那样“连接一切”性感,也不像A2A那样“多Agent协作”宏大。
但它恰好是我那个朋友说的那个关键问题的答案:让AI知道“什么时候该用哪个工具”。
工具可以被标准化连接,Agent之间的交互可以被A2A标准化,但“知道怎么用好一个工具”这件事,是目前唯一不能被参数堆起来的东西,也是所有AI应用真正产生差异的地方。
如果你是个做C端AI产品的开发者,你现在最该做的事不是学MCP或者A2A,而是给自己业务的五个最高频场景,写好五个Skill。不是给产品经理看的那类演示,是让Agent真正能跑通的那类——有SKILL.md、有scripts、有references、有assets,能渐进式加载的真正的Skill。
我的个人判断是:当这一波AI Agent真正走出Demo、走进生产环境时,Skill的设计质量,会远比模型的选择、协议的选择、UI的打磨更能决定它能不能被用户留下来。这件事还没有很多人意识到,但也正因为如此,现在还来得及。
这里是萝卜啊,关注最新的AI技术,探讨一人公司,分解原理,让AI真正的为你打工。关注萝卜啊,让AI真正的成为你的打工人。

夜雨聆风