AI正在长出“技能系统”:从MCP到Skills,协议战争的下一站在哪-夜雨聆风

AI正在长出“技能系统”:从MCP到Skills,协议战争的下一站在哪

上周有个做AI Agent的朋友跟我说了一句话，我想了两天。

他说：“你发现没有？我们用了快两年时间，才搞明白一件事——让AI调用工具，最重要的不是‘怎么连’，而是‘怎么知道什么时候该用哪个’。”

他说这话的时候，我刚好看完Anthropic最新的Agent Skills开放标准和2026年4月MCP Dev Summit的全部材料。这两个东西放在一起看，有一条非常清晰的演进脉络。而这条脉络指向的东西，比任何单一协议都重要。

1 MCP做了一件了不起的事，但也埋了一个结构性的坑

先回到2024年11月。Anthropic推出MCP（Model Context Protocol），定位很清晰：做AI时代的“USB-C”，让大模型用统一的方式连接外部工具和数据源。在此之前，每接一个外部系统都得手写适配器——Cursor有Cursor的插件体系，Claude有Claude的工具调用格式，OpenAI有自己的Function Calling，互相不兼容。

MCP把这个乱局统一了。一套JSON-RPC 2.0协议，客户端-服务器架构，本地用STDIO传输，远程用HTTP+SSE。发布之后，行业几乎全部站队支持——OpenAI在2025年3月跟进，Google在4月跟进，微软在Windows 11里做原生集成。到2025年底，GitHub上已经有一万多个公开MCP服务器，Python和TypeScript SDK月下载量9700万次。

但一年多的生产环境跑下来，问题也集中暴露了。而且不是一个问题，是一组环环相扣的问题。

第一个坑：上下文膨胀。MCP的工作方式是：把所有可用工具的定义（名称、描述、参数schema）全部注入模型的上下文。每增加一个工具，就多占一块token预算。有开发者实测过，某主流AI IDE捆绑了43个MCP工具，光工具描述就在上下文里塞了55000个token——等于干活之前先把token预算花掉一大半。100个工具就是约40000 token的纯开销。你花大价钱买的上下文窗口，一大半租给了工具说明书。

第二个坑：决策瘫痪。 几百个工具定义全堆在上下文里，功能相似的工具成片出现。模型没有机制去区分细微差异，只能靠语义猜测去选。选错了第一步，后面的参数组装和执行全是无用功。这就像一个工具箱被倒扣在地上，所有螺丝刀、扳手、电钻摊在一起，你得自己扒拉半天。而且每次打开工具箱，都要重新扒拉一遍。

第三个坑：参数猜谜。工具schema定义了参数类型（比如“date是字符串”），但没告诉模型这个日期必须是YYYY-MM-DD格式、不能早于2020年、不能晚于今天。模型只能猜。猜错了报错，换种方式再试，再报错——然后就进入了烧token的地狱循环。

第四个坑：连接不稳定。 ScaleKit在2026年2月做了一次基准测试，MCP方案的任务完成率只有72%，平均耗时是CLI方案的1.3倍。28%的任务直接失败，主要原因就两个：超时和连接不稳定。

第五个坑：安全缺陷。 2026年4月，安全研究机构OX Security披露了一个更严重的问题：MCP的STDIO接口存在设计缺陷，可以在无校验的情况下执行任意OS命令，影响范围保守估计超过20万台服务器。覆盖Anthropic官方支持的全部11种语言SDK。研究者向11个主流MCP市场上传恶意服务器概念验证，9个直接接受且无安全审查。更让人心凉的是Anthropic的回应——他们说这属于“预期行为”，只更新了一个安全文档提醒大家小心使用。

把这些坑放在一起看，你会发现它们指向同一个根源：MCP解决了“怎么连”的问题，但完全没解决“怎么用”的问题。它定义了统一的连接接口，但从来没规定模型应该怎么发现工具、怎么选工具、怎么填参数、怎么处理失败。用我一个做Agent开发的朋友的话说：“MCP给你的是一根万能数据线，但没告诉你这根线应该插哪个设备。”

这就是为什么Perplexity的CTO Denis Yarats在2026年3月公开宣布放弃MCP，转回API和CLI——“在实际产品里测了半年，结论是MCP带来的复杂度远大于它解决的那个问题”。这也是为什么Y Combinator的CEO Garry Tan在推特上就打了六个字母、两个单词：MCP sucks。

2 Skills的出现不是巧合，是对MCP结构性缺陷的精确回应

讲到这你可能会问：MCP出了这么多问题，那替代方案是什么？

答案是，问题本身就是答案的线索。 我们回过头重新梳理刚才每一个坑的根源：

上下文膨胀？因为工具定义跟使用分离，模型需要“先认识所有螺丝刀再选”。
决策瘫痪？因为不同工具的使用场景没有结构化描述，模型只能硬猜。
参数猜谜？因为工具的隐性使用知识没有被纳入执行链路。
质量不稳定？因为每调用一个工具都要走繁琐的实时会话，没有递进式加载机制。

每一个坑的根源，都指向同一个缺失：工具的“使用说明书”没有被当作一等公民来设计。 MCP世界观的核心是“连接”——定义一整套让AI系统可靠连接外部世界的统一协议。但在实际使用中，开发者痛苦的不是“连不上”，而是“连上了但不会用”。

Anthropic显然意识到了这个问题，而且它做的事，比发表一个公开信说自己“听到了大家的反馈”更务实——它在协议之上又抽象了一层。

2025年10月，Anthropic发布Agent Skills。 12月18日，联合多家生态伙伴开源Agent Skills Specification 1.0。在开源声明中，Anthropic的系统性设计思路得到了完整表达——定位极其清晰：如果说MCP解决“能调什么工具”，Skills则解决“怎么完成任务流程” 。

这个定位不是一个概念对仗游戏。这里面的结构关系，是明确的分层架构：MCP是一把扳手，Skills是一个“拧紧某种特定螺丝”的使用说明书。

我给你一个具体例子。

一个做数据分析的Agent需要读取PDF。在纯MCP模式下，开发者需要：

先写一个PDF工具的JSON Schema：“函数名叫read_pdf，参数叫file_path，类型是string。”
把这几百行的Schema打包好，挂到Agent上——于是模型知道“哦，有一个叫read_pdf的工具”。
但当用户真的上传一个PDF要它提取表格时，模型还是不知道该怎么处理——它只知道“我可以调用read_pdf这个函数”，但不知道“提取表格需要先识别页面中的表格区域，然后处理合并单元格的情况，然后……”

在Skills模式下，开发者做的是：创建一个PDF处理的Skill文件夹，包含SKILL.md、脚本、模板和参考规则。模型运行时先读元数据，发现“这个技能专门解决PDF表格提取问题”，触发Skill后才加载详细指令和可执行脚本。不会出现“所有工具说明书全部塞进上下文”的情况。

从架构层面来看，MCP把工具的功能描述塞进上下文，Skills则是把专家的领域知识封装成文件包。一个是工具列表，一个是操作手册。一个是目录，一个是教程。

这种分层意义深远，因为它本质上是人类知识管理数百年演进逻辑的直接映射——从“把工具摆在那儿”到“教会你怎么用”。不是把“怎么做”换成“做成什么样”。Skills这个方向，指的不是“替代MCP”，而是“让MCP真正可用的必要条件”——连接给了你入口，技能给了你路径。

我引用官方放出的细节来说明这个“轻”和“重”的分工。Skill不是繁重的能力体，而是一个标准化、可移植、具备可组合性的知识文件夹，agent可以根据场景渐进式地加载。它内部的组成其实就四层结构：

SKILL.md——主文件，描述这个技能是什么、何时触发、执行的核心指令。
scripts/——可执行脚本，比如用Python做PDF的解析与表格提取。
references/——参考文档，用来提供详细的规则、注意事项、格式标准和错误处理逻辑。
assets/——素材与模板，比如发票识别用例中的发票样例，或者品牌风格的视觉模版。

当模型接到一个任务，先读metadata，识别“这个技能是不是该被触发”，触发成功后，再渐进式地加载脚本与参考文档。上下文不再是“一次性倒给你所有螺丝刀”，而是“先看一下你面前的东西是什么，再告诉你这一把该怎么用。”

截至2026年2月，公开可用的Agent Skills已经超过85000个，支持该标准的主流平台达27家，覆盖开发、设计、办公、电商、金融等领域。微软Azure AI Studio宣布原生支持Agent Skills格式，GitHub Copilot Workspace开始实验性支持，Cursor成为首个全面采用Agent Skills的AI IDE。Linux基金会也已启动讨论，拟将Agent Skills纳入AI & Data基金会（AIDF）的候选标准之一。

这不是“MCP的竞争对手”，这是“MCP拿到生产环境里真正跑起来需要的同行者”。

3 A2A来了：但MCP到Skills那条线，和Agent之间那条线，是两码事

先说清楚一个很多人混淆的概念。

Skills解决的是“一个Agent内部的能力怎么组织、怎么复用”。但整个行业在2026年还在折腾另一件事：多个Agent之间怎么协作。

Google在2025年4月推出了A2A（Agent2Agent Protocol），跟MCP不是一个层面的东西，但很多人以为它们是对立关系。其实它们是严格的分层协作关系。

拿人类组织打个比方：MCP（以及Skills）解决的是员工A怎么使用工具，A2A解决的是员工A和员工B怎么配合完成一个任务。

技术上看：MCP是“垂直”的——把Agent连接到工具和数据，回答“我能用什么？”A2A是“水平”的——Agent之间互相发现、互相委托任务，回答“我能和谁合作？”。

一个具体例子：“检查仓库库存”需要多个Agent协作——库存Agent查询数据，物流Agent安排运输，客服Agent更新用户。MCP给每个Agent提供调用自家数据库的能力（垂直连接），但Agent之间互相委托任务、交换中间结果，这些是A2A的范围（水平协作）。

这两层不仅不冲突，而且在实际工程里被设计成互补关系。Google官方从未说A2A要替代MCP，它的定位是Agent与Agent之间的通信语言；MCP是Agent调用工具、数据库、外部系统的通信管道。像一个公司内部的ERP系统调用（MCP做的事）和部门之间的工作流协同（A2A做的事）。

A2A v1.0现在已经是生产稳定版本，在150个组织中运行，由Linux Foundation治理。它的核心机制是通过“Agent Cards”——每个Agent发布一个JSON清单，声明自己的身份、能力、端点、认证方式——来实现Agent之间的相互发现。

A2A的快速成长说明一件事：Agent生态已经从“一个模型加一堆工具”的阶段，进入了“多个Agent需要编排协作”的阶段。 当系统里有几十个甚至上百个Agent同时运行，它们不能靠硬编码知道彼此的存在，需要一种自动发现、自动协商的机制。协议是这种扩展性的前提。

4 从MCP到Skills到A2A，一条完整的演进逻辑开始浮现

现在我们把这些点连起来。

2024年11月MCP推出的时候，行业的目标很简单：让AI能调用工具。只要有统一接口就行。后来发现光有接口不行，调用工具的上下文成本、选择效率、参数填写的隐性知识，每一环都埋着坑。

于是Skills出现了。把“使用工具的能力”从“连接工具的能力”里拆出来，变成独立的一层。模型不需要背下所有工具的说明书，而是根据需要渐进式加载。Skills变成了“Agent的能力模块”，不再是扁平的工具列表。

再到2026年，整个Agent生态膨胀到需要让不同厂商、不同框架的Agent互相对话，于是A2A应运而生。

这三条线的方向完全不同： MCP解决“连接层”，Skills解决“能力层”，A2A解决“编排层”。把Skills放在MCP和A2A之间思考，它正在变成一个不再依赖任何一个具体协议、但在所有Agent系统中都绕不开的“能力单元”定义。

这不是某一家公司的路线图。这是整个行业正在自然形成的分层架构。

5 未来方向

到了2026年，Skills本身正在快速标准化，但最值得关注的是它指向的几个方向：

可组合的Skill市场将成为Agent生态的基础设施。 截至2026年2月，公开Skills已超85000个。Linux基金会正在推动其成为正式标准。技术人如果现在还没开始把业务能力封装成Skill，后面会越来越被动。
Skill将成为AI时代的“分支能力”基础设施——类似于移动互联网时代的App Store，但更底层。它影响的不是某一个AI产品，而是所有AI产品都需要遵循的能力接口标准。Agent Skills被TechCrunch称为“AI领域的Dockerfile”——让AI能力变得可移植、可组合、可版本控制。
自主Skill生成正在成为产品竞争的核心地带。2026年3月，Anthropic发布Skill Creator 2.0，实现了AI Agent技能的自动生成与持续优化。模型观察人类的操作，自动总结、封装、优化Skill定义，并在实际使用中根据反馈迭代更新。这意味着Skill的生产不再是纯人工工程，而是一个“人设定方向+模型自动生成+使用数据持续反馈”的闭环。
这些演进最终指向一个方向：AI系统正在从“被训练”走向“被组装” 。未来的Agent应用，可能像乐高一样，从标准化的Skill市场中组合出需要的功能，而不是从零训练或开发。Skill就是那个最小的标准积木块。

6 写在最后

整条演进线索非常清晰，但很多人还在用2024年的MCP叙事框架理解2026年的Agent生态。2024年，最性感的技术是“模型能调用工具”；2026年，最性感的技术是“模型知道什么时候该用什么工具”。

MCP给了Agent一张地图——上面标着所有可以连接的外部系统。但地图只是地图，它没告诉你哪条路最快、堵不堵、哪条路修路了需要绕行。Skills就是给地图配上的导航App，它不只告诉你“那里有个工具”，还告诉你“这个场景下应该用这个工具、按这个顺序、注意这些坑”。

MCP是水管，A2A是水管网，Skills是水流调度系统。三样缺一不可，但调度系统才是让整个系统从“能通水”变成“高效通水”的关键。

把MCP、Skills、A2A放进同一个框架里看，未来的AI Agent能力是什么样的？

一个Agent将通过A2A发现协作伙伴，用Skills确定自己能做什么、怎么做，通过MCP去连接外部系统的工具和数据。这三层缺一不可，但Skills这一层最容易被人忽略——因为它既不像MCP那样“连接一切”性感，也不像A2A那样“多Agent协作”宏大。

但它恰好是我那个朋友说的那个关键问题的答案：让AI知道“什么时候该用哪个工具”。

工具可以被标准化连接，Agent之间的交互可以被A2A标准化，但“知道怎么用好一个工具”这件事，是目前唯一不能被参数堆起来的东西，也是所有AI应用真正产生差异的地方。

如果你是个做C端AI产品的开发者，你现在最该做的事不是学MCP或者A2A，而是给自己业务的五个最高频场景，写好五个Skill。不是给产品经理看的那类演示，是让Agent真正能跑通的那类——有SKILL.md、有scripts、有references、有assets，能渐进式加载的真正的Skill。

我的个人判断是：当这一波AI Agent真正走出Demo、走进生产环境时，Skill的设计质量，会远比模型的选择、协议的选择、UI的打磨更能决定它能不能被用户留下来。这件事还没有很多人意识到，但也正因为如此，现在还来得及。

这里是萝卜啊，关注最新的AI技术，探讨一人公司，分解原理，让AI真正的为你打工。关注萝卜啊，让AI真正的成为你的打工人。