AI Agent 基础设施战争:Harness、MCP、A2A 三国杀谁主沉浮
2026 年 4 月,AI 圈发生了一件有意思的事。
GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 三个顶级模型在 SWE-bench 上的分数差距缩小到了个位数——用行话说,模型层的军备竞赛基本结束了。
但真正影响任务完成率的,不是模型本身。
同样是 Claude Opus 4.6,在 Claude Code 里能搞定的事,换个 Harness 可能就卡壳了。同一个模型,不同的运行环境,任务完成率能相差 3-5 倍。
Gartner 的数据更说明问题:2026 年底,40% 的企业应用将嵌入 AI Agent。而这些 Agent 能不能用、好不好用,七成取决于 Harness 的设计。
换句话说,AI 竞争已经从”大脑对决”转向”身体格斗”。
今天我们就来聊聊这场基础设施战争的三方势力:Anthropic、OpenAI、Google,以及他们背后的协议生态 MCP 和 A2A。
三国杀全貌:一图看清三大阵营
在展开之前,先上一张总览图:
| Anthropic(iOS 模式) | OpenAI(Android 模式) | Google(企业 Linux 模式) | |
|---|---|---|---|
| 核心定位 |
|
|
|
| 旗舰模型 |
|
|
|
| Harness 代表 |
|
|
|
| 旗舰协议 |
|
|
|
| 商业模式 |
|
|
|
| 生态策略 |
|
|
|
三种模式各有算盘。Anthropic 想做 AI 时代的苹果——我给你全套解决方案,你在我的生态里老老实实干活。OpenAI 想做安卓——你们都用我的最强模型,框架你们自己挑。Google 想做红帽——我提供企业级基础设施,你们自己玩出什么花样我不管。
有意思的是,这三家的竞争已经不是单纯的模型参数比拼了。真正的战场,是看谁能更好地把模型”装进”一个可部署、可控制、可协作的运行环境里。
Anthropic:安全至上的 iOS 模式
Claude Code:最成熟的 Harness 长什么样
先说 Claude Code。这是 Anthropic 官方推出的命令行工具,也是目前最成熟的 Claude Harness。
它解决什么问题?说白了就是:给模型装上一套完整的手和脚。
这套”手脚”有几个关键设计:
权限模型。Claude Code 默认只读,想要执行 shell 命令、写文件、访问网络,得用户显式授权。这不是功能限制,是安全哲学——模型不应该默认拥有执行能力,每一次高危操作都应该经过人类确认。
自动上下文压缩。当上下文快满的时候,Claude Code 会自动压缩历史对话,保留关键信息。这个能力对于处理大型代码库至关重要。
子 Agent 委托。你可以让 Claude 完成一个任务,然后让它把这个任务拆成小块,分配给子 Agent 并行处理。这其实是 Anthropic 在多 Agent 协作上的早期实践。
Claude Opus 4.6:自适应思考的秘密
Claude Opus 4.6 在 SWE-bench 上拿到了 80.8% 的分数,这个数字本身不算惊艳。真正值得关注的是它的”自适应思考”能力。
简单说,Opus 4.6 能够根据任务难度动态调整思考模式。简单问题快问快答,复杂问题会反复推敲。这不是简单的思维链(Chain of Thought),而是一种更智能的资源分配机制。
MCP 协议:Anthropic 的杀手锏
说起 Anthropic 在这场战争中的真正筹码,不是 Claude Code,而是 MCP(Model Context Protocol)。
MCP 是什么?你可以把它理解成 AI Agent 的 USB-C 接口。
过去,AI 模型想要调用外部工具(比如访问数据库、搜索文件、调用 API),每个模型都得自己实现一套方案。OpenAI 有 Tools,Anthropic 有 Tools,Google 有 Tools,但彼此不通用。
MCP 的野心是:成为 AI 时代的通用接口标准。
2026 年,MCP 已经捐赠给 Linux Foundation,开始中立化进程。目前的生态数据很亮眼:
-
每月 9700 万次 SDK 下载 -
2000+ MCP 服务器上线 -
所有主流 AI 平台都已支持
这意味着什么?MCP 已经从 Anthropic 的独门绝技变成了行业基础设施。Anthropic 的策略很聪明——我把协议捐出去,让所有人都用,这样 Anthropic 的生态反而成了标准的一部分。
Managed Agents:4 月刚公测的新业务
2026 年 4 月 8 日,Anthropic 推出了 Managed Agents 的公开测试。
定价很有意思:**$0.08/session-hour**。相比按 token 计费的传统模式,这个定价更面向企业——你可以预估每个月花多少钱,而不是被不确定的 token 消耗牵着走。
Managed Agents 还支持 Agent Teams——让多个 Claude Agent 协作完成复杂任务。这是 Anthropic 对多 Agent 时代的直接回应。
OpenAI:最强模型的 Android 模式
GPT-5.4:OSWorld 75%,超越人类平均
如果说 Anthropic 是苹果,那 OpenAI 更像安卓——我的模型最强,你们爱怎么用怎么用。
GPT-5.4 在 OSWorld 基准测试上拿到了 75%,这个数字超过了人类平均水平的 72.4%。换句话说,GPT-5.4 已经能像人类一样操作电脑了——点击、拖拽、输入命令、阅读屏幕。
这是 AI Agent 能力的一个关键里程碑。Computer Use 从概念变成了现实。
Codex Cloud + Codex CLI:Rust 写的开源利器
OpenAI 的 Harness 策略有两个重点:
Codex Cloud 提供云端执行环境,你不需要本地配置,API 调用、代码执行、结果验证一条龙。
Codex CLI 是 4 月刚开源的命令行工具,用 Rust 写的。Rust 的选择很有意思——高性能、内存安全、跨平台,这意味着 Codex CLI 可以作为各种开发流程的底层组件,而不只是 OpenAI 自己的专用工具。
Codex CLI 的设计理念是轻量、开放、可嵌入。你可以把它集成到自己的 CI/CD 系统里,也可以单独使用。
Agents SDK v0.13.6:支持 100+ LLM
OpenAI 的 Agents SDK 是其开放生态的核心。这个 SDK 最大的特点是什么?不绑定 OpenAI 的模型。
Agents SDK v0.13.6 支持 100 多种 LLM,包括 Claude、Gemini、开源模型等等。OpenAI 的逻辑很清楚:模型只是后端,你们爱用哪个用哪个,我的框架和工具链才是黏住用户的关键。
拥抱 MCP:敌人的敌人是朋友
一个值得注意的信号:OpenAI 宣布全面支持 MCP 协议。
这对 Anthropic 来说是个微妙的胜利——MCP 已经大到连 OpenAI 都不得不拥抱。协议一旦成为标准,即使竞争对手也必须站在同一条船上。
Google:企业级 Linux 模式
Gemini 3.1 Pro:ARC-AGI-2 77.1%
Google 的策略和前两家都不一样。
Anthropic 追求安全,OpenAI 追求性能,Google 追求的是企业市场的全面覆盖。
Gemini 3.1 Pro 在 ARC-AGI-2 基准测试上拿到了 77.1%。这个基准测试主要衡量模型的推理能力,特别是需要多步思考的复杂问题。
Google 的底气在于:我有整个 Alphabet 的产品线可以落地——搜索、邮箱、文档、地图、云服务。Gemini 不只是一个模型,是整个 Google 生态的 AI 能力出口。
Gemini CLI:4 月 8 日开源
Google 选择了和 OpenAI 同一天(4 月 8 日)开源 Gemini CLI。
和 Codex CLI 类似,Gemini CLI 也是面向开发者的命令行工具。但 Google 的布局更完整——Gemini CLI 不仅仅是代码执行环境,它和 Google Cloud 的服务深度集成。
对企业用户来说,用 Gemini CLI 意味着可以直接对接 Google Cloud 的各种服务——BigQuery、Cloud Storage、Vertex AI。这是 Google 的天然优势。
Antigravity IDE:多 Agent 编排的实验场
Google 还推出了一个实验性产品——Antigravity IDE。
这个 IDE 最大的特点是 Manager View:一个界面同时展示多个 Agent 的状态和输出,你可以实时看到任务是如何被拆分、分配、执行的。
这是 Google 对多 Agent 编排的一种探索。虽然还很早期,但它指向了一个方向:未来的开发环境,可能不是一个人对着一个 AI,而是多个 AI 协同工作,人变成管理者。
A2A 协议:Google 的反击
如果说 MCP 是 Anthropic 的护城河,那 A2A(Agent-to-Agent Protocol)就是 Google 的反击。
A2A 解决的问题和 MCP 不同。MCP 解决的是”Agent 如何调用工具”,A2A 解决的是”Agent 如何和其他 Agent 通信”。
现实中的复杂任务,往往需要多个 Agent 协作完成。一个 Agent 负责规划,一个负责执行,一个负责验证——他们之间需要交换状态、共享上下文、同步进度。这就是 A2A 要解决的事。
A2A v1.0 已经发布,生态数据:
-
150+ 组织加入 -
22,000+ GitHub stars -
5 个官方 SDK(Python、JS、Java、Go、.NET)
特别是 Go SDK,说明 Google 很重视 Go 开发者群体——这也很符合 Google 一贯的技术栈偏好。
AP2:Agent 支付协议
还有一个值得关注的协议:AP2(Agent Payments Protocol)。
当 Agent 能够替人类执行任务之后,Agent 之间的经济往来就变得有意义了。AP2 解决的是 Agent 如何相互支付、结算的问题。
目前 AP2 已经有 60+ 组织参与。虽然还很早期,但这代表了一种可能性:未来的 AI 经济,不只是人付钱给 AI,而是 AI 替人付钱给 AI。
协议战争:MCP vs A2A
说了这么多,你可能有个疑问:MCP 和 A2A 到底是什么关系?竞争还是互补?
答案是:互补,共同构成 Agent 互联网的双协议栈。
打个比方:
MCP = USB-C。解决的是 Agent 和外部世界的连接问题——怎么让 AI 调用工具、访问资源、完成任务。USB-C 定义了物理接口和传输协议,MCP 定义了 AI 调用工具的方式和数据格式。
A2A = HTTP。解决的是 Agent 和 Agent 之间的通信问题——怎么让多个 Agent 相互协作、交换信息、同步状态。HTTP 定义了互联网上的请求-响应模型,A2A 定义了 Agent 之间的对话协议。
这两个协议不是竞争关系,而是在不同层次解决不同问题。
现实中的 Agent 系统,往往需要同时使用两个协议:
-
Agent 通过 MCP 调用工具(查数据库、搜索文件、调用 API) -
Agent 通过 A2A 和其他 Agent 协作(分配任务、同步进度、汇总结果)
就像互联网既需要 USB-C 连接外设,也需要 HTTP 进行 Web 通信一样。
一个完善的 Agent 系统,MCP 和 A2A 缺一不可。
这对中国开发者意味着什么?机会来了。目前 MCP 服务器有 2000+,A2A 参与组织 150+——但两边的生态都还在早期,现在入场,有机会成为某个垂直领域的标准制定者。
五大趋势预测
基于上面的分析,我来说说对 2026-2027 年 AI Agent 基础设施发展的五个判断:
1. 单 Agent → 多 Agent 编排
单个 Agent 的能力有上限。复杂任务需要多个 Agent 协同。
这个趋势已经很明显了。Claude Code 的子 Agent 委托、Anthropic 的 Agent Teams、Google 的 Manager View——大家都在往多 Agent 协作的方向走。
未来会出现专门负责编排的”Manager Agent”和负责执行的”Worker Agent”的分工。
2. 本地开发 → 云原生部署
AI Agent 的运行成本很高。本地运行虽然省 token,但受限于机器性能;云端运行成本高,但弹性好。
2026 年的主流选择是云原生——开发调试在本地,生产部署在云端。Codex Cloud、Gemini CLI + Cloud、Anthropic Managed Agents 都是这个思路。
3. Computer Use 主流化
GPT-5.4 在 OSWorld 上 75% 的表现,证明了 AI 操作电脑的能力已经接近实用。
接下来的问题是:谁来定义 AI 操作电脑的标准?
目前各家的 Computer Use 方案互不兼容。Browser Use、MCP、还是各家的私有方案——这个领域的标准化战争才刚刚开始。
4. 安全和治理成为采纳门槛
企业采纳 AI Agent,最大的顾虑不是能力,是安全和治理。
模型会不会执行危险操作?怎么审计 Agent 的行为?谁为 Agent 的决策负责?
不能解决安全问题的 Harness,在企业市场会被直接淘汰。OpenClaw 这类专注安全的项目会越来越重要。
5. Harness 成为新一代 OS 层
最后也是最重要的判断:Harness 会成为继操作系统之后的新一层基础设施。
过去,程序员关心的是”我的代码在什么操作系统上运行”。未来,程序员关心的是”我的 Agent 在什么 Harness 里运行”。
Harness 会定义 Agent 的权限模型、资源限制、工具生态、协作方式。这层能力一旦标准化,整个应用开发范式都会改变。
开发者机遇:现在是入场的最佳时机
说了这么多宏观分析,最后聊聊对普通开发者的实际意义。
Claude Code = Agent 时代的 Windows。
这个类比可能有点夸张,但意思是对的。
2008 年的 App Store 时刻,诞生了一大批移动应用开发者。2026 年的 Agent 时刻,**现在入场,你有可能成为 Agent 应用生态的”第一批原生开发者”**。
具体来说,有几个方向值得关注:
MCP 服务器开发。2000+ MCP 服务器,听起来很多,但对比 USB-C 普及之前的各类专用接口,你就知道这个数字还远远不够。垂直领域的 MCP 服务器(比如特定行业的工具链集成)还是蓝海。
A2A 协作框架。目前 A2A 的生态还很早期,没有类似 Spring Boot 这样的成熟框架。**抢先做出好用的 A2A 开发工具,有机会成为这个领域的”Rails”**。
安全审计和治理工具。企业采纳 Agent,安全和审计是刚需。目前这个领域的工具还很初级。如果你对 AI 安全有了解,这是个被低估的机会。
Harness 定制和优化。每家都在推自己的 Harness,但企业需求千差万别。帮企业定制、优化、集成各种 Harness,可能是最近两三年最好赚的钱。
谁最可能定义 Agent 时代
回到标题的问题:Harness、MCP、A2A 三国杀,谁主沉浮?
我的判断是:这不是一个”谁赢”的问题,而是一个”谁来定义标准”的问题。
Anthropic 有 MCP,已经占了先手。但 MCP 成为行业标准,意味着 Anthropic 的独特优势会被稀释。这是一把双刃剑。
OpenAI 有最强模型,但模型优势正在收窄。当各家模型差距缩小到几个百分点,框架和工具链的体验会成为核心竞争力。OpenAI 的 Agents SDK 策略很聪明,但生态建设需要时间。
Google 有企业市场的天然优势,但 Android 模式在 AI 时代是否依然有效,还是个问号。Google 的问题是:它太习惯做平台了,但 AI Agent 的用户可能不想被绑在任何平台上。
最终最有可能定义 Agent 时代的,不是这三家里的某一个,而是那个能做出”Agent 时代的 Windows”的人。
Windows 之所以成功,不是因为它是最强大的操作系统,而是因为它找到了一个平衡点:足够开放让开发者进来,足够好用让用户留下来,足够标准让整个生态繁荣。
现在,Harness 的世界还没有 Windows。Anthropic、OpenAI、Google 都还在摸索。
这是坏事,也是好事。
坏消息是,你现在选的技术栈,三年后可能就被淘汰了。
好消息是,你现在积累的经验,会成为三年后稀缺的专业能力。
就像 2008 年的移动开发一样——那时候入行的开发者,很多后来成了移动端架构师、技术经理、行业专家。
2026 年的 Agent 开发,逻辑是一样的。
唯一不同的是,这场的速度可能是移动时代的 3-5 倍。
准备好了吗?
参考来源:
-
Momoview 2026年4月分析文章:AI Agent Development Harness MCP A2A Infrastructure War -
Gartner:2026年企业 AI Agent 采纳预测 -
SWE-bench、OSWorld、ARC-AGI-2 基准测试数据 -
Linux Foundation MCP 捐赠公告 -
各厂商官方发布信息(Anthropic Managed Agents 4月8日公测、Gemini CLI 4月8日开源等)
推荐阅读

夜雨聆风