为什么所有 AI 公司都在疯狂做 Agent

2026年过半，如果你关注 AI 行业，会发现自己正处在一个相当罕见的时刻。

OpenAI 在推 Operator 和 Codex CLI，Anthropic 有 Computer Use 和 Claude Code，Google 押注 A2A 协议和 Gemini Agent，微软把 Copilot 全线 Agent 化，Meta 在社交平台上铺 AI Agents，就连字节和智谱也在做桌面操控 Agent。

这不是巧合。这可能是自 2022 年底 ChatGPT 引爆对话式 AI 以来，行业最大的一次集体转向。

要理解为什么所有 AI 公司都在「疯狂做 Agent」，不能只看产品表面——它们背后的驱动力是「技术推力 × 商业拉力 × 基础设施标准化」三股力量在 18 个月内同时汇聚的结果。

Agent 到底是什么？不只是能「说话」的 AI

先厘清一个基础问题。

过去三年我们用的 AI 产品，核心能力是「对话」——你问它答，你给指令它生成内容。它像一个知识渊博但只动口不动手的顾问。

Agent 的突破在于：它从「动口」变成了「动手」。

一个 Agent 应该具备四项核心能力。

感知：能看懂屏幕、识别网页元素、理解眼前的环境。这依赖多模态模型——不只是理解文字，还要理解图像、界面布局。

规划：面对一个复杂任务，能分解成多个步骤，决定先做什么后做什么。这需要推理能力的支撑。

执行：能实际点击按钮、填写表单、运行代码、调用 API。这靠的是工具使用框架，把「思考」和「行动」连接起来。

记忆：能记住执行过程中的上下文——已经完成了什么、遇到了什么问题、用户的偏好是什么。

这三项能力在 2023 年就已经分别存在，但它们是「散装」的。多模态已经有了，推理也有了，工具调用也有了——但串联在一起稳定运行，是 2024 年底到 2025 年才做到的。

真正引爆一切的，是一个简单的转折点。

三层条件同时成熟：为什么偏偏是现在？

任何一个懂技术的人都能感受到，2024 年下半年到 2025 年，AI 发生了某种质的飞跃。这不是某一个模型的功劳，而是三层条件同时在 12-18 个月内达到可用阈值。

第一层：模型能力的「Agent 拐点」

2024 年 10 月，Anthropic 发布 Claude 3.5 Sonnet 并推出 Computer Use 功能[1]——这是第一次，一个 AI 模型能「看」电脑屏幕，「思考」怎么操作，然后「执行」鼠标点击和键盘输入。虽然当时还很不稳定，但证明了一件事：Agent 不是科幻，而是可以跑的代码。

三个月后，OpenAI 发布 Operator[2]，一个基于 CUA（Computer Use Agent）模型的浏览器 Agent。它能帮用户在网上订餐、比价、填表——虽然当时在 WebArena 评测中成功率为 58.1%、在 OSWorld 上为 38.1%[7]，但这在技术上已经是一个质的飞跃。

2025 年 4 月，OpenAI 又发布了 Codex CLI[5]，把 Agent 能力延伸到了终端环境——AI 可以像人一样在命令行里写代码、运行测试、排查错误。

Google 的 Project Mariner[6]（已于2026年5月停运）则走了另一条路——利用 Chrome 浏览器 API 实现精准的网页操控，而不是完全依赖视觉识别。

到了 2025 年底到 2026 年，GPT-5 系列、Claude Opus 4 等新一代模型的推理能力和多模态能力进一步提升，Agent 的多步规划可靠性相比早期有了明显改善。

第二层：工具生态的快速丰富

一条常被忽略的线索是：Agent 不只是模型的事。如果你有一个完美的模型，但没有任何工具可以接，它依然动不了。

2024 年到 2025 年，AI 工具生态经历了一场爆炸式增长。API 接口越来越多、越来越标准化，MCP 协议的出现大幅降低了工具对接的开发成本。到 2026 年初，GitHub 上已经有上千个 MCP Server 实现，覆盖从数据库到设计工具再到企业系统的各个层面。

第三层：基础设施的标准化

这一点我们会在后面专门展开。简单来说，MCP 和 A2A 这两个协议的出现，从根本上改变了 Agent 的「可扩展性」——如果一个 Agent 只能接自己的工具，那它永远只是个玩具。但如果有一套标准协议，让任何 Agent 都能接任何工具、任何 Agent 都能和任何其他 Agent 协作，规模化就成为了可能。

三层条件中少了任何一层，Agent 都只是个概念。但它们偏偏同时成熟了——这就是为什么「现在」是这个行业集体转向的时刻。

技术推力遇上商业拉力：不布局就出局

如果光有技术可能，AI 公司不会这么拼命。真正让每家巨头都坐不住的，是商业层面的博弈——这是一场「谁先占据位置，谁就可能锁定未来十年」的竞赛。

对话式 AI 的天花板已经可见

ChatGPT 在 2024 年达到月活 2 亿用户，2025 年进一步增长，但对话式产品的 ARPU（每用户平均收入）增长已经放缓。一个聊天机器人，不管多聪明，能收的订阅费是有上限的——$20/月是主流，$200/月是高端，但很难再有更大的突破。

Agent 打开了完全不同的定价空间。它不是按「聊了多少」收费，而是按「完成了什么」收费——自动化了多少流程、处理了多少客服工单、节省了多少人力。这是一种从 SaaS 到「结果即服务」的商业模式转换。

Agent 的「切换成本」极高

这是商业逻辑中最微妙也最重要的一点。

如果你用 ChatGPT 聊天，明天换成 Claude，感觉上就是换了个聊天界面——有点麻烦，但不伤筋动骨。但如果你配置了一套 Agent 工作流——它学会了你的业务流程、连接了你的数据库、自动处理你的日报和周报——换另一套 Agent 的工作量和风险完全不是一个量级。

这就解释了为什么各大 AI 公司宁愿亏本也要先抢占 Agent 市场。这不是短期的用户争夺，而是长期的生态锁定——谁的 Agent 先成为用户的「默认操作员」，谁就在未来十年拥有不可替代的地位。

企业市场的想象空间

根据 Gartner 的预测[8]，到 2028 年约 15% 的日常工作决策将由 Agentic AI 自主做出。传统 RPA（机器人流程自动化）市场的规模大约在 300 亿美元级别，而 AI Agent 的可寻址市场被多家分析机构预估在千亿美元级别。

传统 RPA 推行了几十年，但始终没能真正普及，原因在于它太「脆弱」——每个流程都需要写死规则，界面一变就废。AI Agent 的视觉理解和推理能力，恰好弥补了 RPA 的这个根本缺陷。换句话说，RPA 留下的市场真空，现在轮到 Agent 来填了。

六大厂商的全栈卡位

到 2026 年，AI 行业已经形成了一个清晰的竞争格局——每家巨头都在做全栈布局。

OpenAI 走的是「模型 + 产品 + API」三位一体路线——GPT-5 系列和 o-series 提供底层能力，Operator 面向 C 端，Codex CLI 面向开发者，Function Calling 和 GPTs 构建生态。

Anthropic 的策略更偏开发者驱动——Claude Opus 4 和 Sonnet 提供模型能力，Claude Code 面向开发者，MCP 协议作为生态武器。它走的是「协议先于产品」的路径——先定标准，再做生态。

Google 押注「协议 + 浏览器」——提出 A2A 协议填补了 Agent 间通信的空白，同时将 Agent 能力深度整合进 Gemini 应用层。

微软的策略是「存量变现」——在 M365 生态中把 Copilot 全线 Agent 化，面向已有的数亿企业用户自然升级。

它们的路径不同，但目标一致：抢占 Agent 时代的「生态位」。因为所有人都清楚，在 Agent 这个赛道上，第二名可能连入场券都拿不到。

协议之战：MCP、A2A 和 Agent 的「互联网时刻」

讨论 AI Agent 的时候，很多人只关注模型和产品，忽略了一个更底层的变化——协议标准化。但恰恰是协议层，决定了 Agent 行业是走向「百花齐放」还是「各自为战」。

2024 年 11 月，Anthropic 开源了 MCP（Model Context Protocol）[3]。它的定位非常明确：让 AI 模型能够通过统一标准接口接入任何工具和数据源。在此之前，每个工具对接 AI 都需要写单独的集成代码——接 Slack 一套代码，接 Notion 另一套，接公司内部系统再来一套。MCP 的出现就像给 AI 接入工具装上了「USB-C 接口」——只要双方都支持 MCP，插上就能用。

2025 年 4 月，Google 发布了 A2A（Agent-to-Agent Protocol）[4]。如果说 MCP 解决的是「AI 如何用工具」，A2A 解决的是「AI 之间如何协作」。它定义了 Agent 之间的能力发现、任务分配、进度沟通和结果交接等一系列标准。

MCP 和 A2A 不是竞争关系，而是互补关系。它们解决的是不同层面的问题：

MCP 是「纵向」的——连接 AI 和工具。

A2A 是「横向」的——连接 AI 和 AI。

如果把 Agent 生态比作互联网，MCP 像是传输层协议（让不同系统能交换数据），A2A 更像是应用层协议（让不同系统能协作完成复杂任务）。两者都不是对方的替代品，而是组合在一起才能形成完整的「Agent 协议栈」。

协议标准化的战略意义，不仅在于技术效率。它也是一场「平台之战」——掌握协议定义权的公司，自然而然地站在了生态的中心。Anthropic 掌握了「AI 如何连工具」，Google 掌握了「AI 之间如何协作」。它们提供的不仅是技术标准，更是一套规则——所有在这个生态里的玩家都必须遵守。

冷静一下：Agent 还没有准备好

如果只看以上三个维度的分析，你可能会觉得 Agent 已经万事俱备、只欠普及。但现实没有那么乐观。

安全与信任基础设施仍然落后

当前 Agent 在标准评测集上的表现存在较大差异——以 Operator 为例，其在 WebArena 上得分为 58.1%，在 OSWorld 上为 38.1%[2][7]。在受控环境下尚且如此，到真实世界中会打多少折扣，目前还没有足够的数据支撑结论。

更关键的问题是「不可逆操作」。AI 发错一条聊天消息大不了删掉重发，但如果一个 Agent 错误地发送了付款指令、删除了数据库记录、或者发布了不当内容——后果是不可逆的。而目前绝大多数 Agent 产品的「安全护栏」还停留在「确认对话框」的层面。

业界正在为此做准备——Anthropic 在 Agent 安全对齐方面持续投入，OpenAI 也在建设 Safety Systems，权限分级（只读 / 可写 / 管理员）正在成为 Agent 权限管理的共识。但距离企业级生产环境要求的 99.9%+ 可靠性，还有一段路要走。

Agent 叙事有过度包装的风险

2023 年每个人都自称在做 AI，2024 年每个人都自称在做 AI Native，2025 年每个人都自称在做 Agent。有一批所谓的 Agent 产品，本质上只是给聊天机器人加了一个「自动执行」按钮。如果核心能力仍然是单次对话加简单工具调用，它还算不上真正的自主 Agent。

这本身并不可怕——任何新技术都会经历从概念到落地的炒作周期。但作为读者和从业者，保持识别能力是有必要的：看一个 Agent 产品时，问它三个问题——它能自主执行多步任务吗？它能在中间步骤出错时自我修正吗？它的规划和执行是连在一起的，还是被人为切开的？

MCP 和 A2A 的采纳还在早期

虽然 MCP 已经有数十个厂商宣布支持，A2A 也有第一批合作方，但协议从「宣布支持」到「深度集成」之间有巨大的鸿沟。历史上 JSON-RPC、gRPC 等协议都曾试图在 AI 工具调用层面形成标准，最终都没能真正统一。MCP 和 A2A 能否走得更远，取决于它们能否让开发者切实感受到「接入成本足够低、收益足够高」。

健脑计划的判断

Agent 不是 2026 年的新概念——它是 2022 年以来大模型技术演进的必然产物。但「必然」不等于「马上到来」。我们相信三件事，也需要警惕三件事。

我们相信的三件事：

第一，Agent 是 AI 从「信息输出」到「行动执行」的范式转移，其影响力不亚于 2022 年底 ChatGPT 带来的对话式 AI 浪潮。

第二，MCP 和 A2A 的出现是 Agent 行业走向规模化的关键基础设施。无论最终是 MCP、A2A 还是某种融合方案成为事实标准，「AI 工具接入标准化」和「AI 间协作标准化」这两个趋势是不可逆的。

第三，所有巨头同时押注 Agent 不是巧合。这里的商业逻辑足够硬——从对话式 AI 到行动式 AI 的定价跃迁，加上极高的生态锁定效应，构成了极具吸引力的商业闭环。

需要警惕的三件事：

第一，当前 Agent 的可靠性还远未达到企业级生产环境的要求。对于不可逆操作场景（支付、数据删除、公开发布），Agent 需要有显著高于人类操作员的安全保障——这在 2026 年 5 月尚未实现。

第二，Agent 被过度包装的风险真实存在。不是每个加了一个「自动执行」按钮的聊天机器人都值得叫 Agent。

第三，协议碎片化可能导致开发者的选择困境，最终延缓而非加速 Agent 的规模化落地。

普通人可落地的行动建议

分析完了，说点实际的。

如果你是开发者（本月内）

装一个 Claude Code 或 Codex CLI，真正体验一下「让 AI 操作终端」是什么感觉。跑几个日常任务——代码审查、单元测试、部署流程。你需要建立对 Agent 能力边界的切身感受，而不是只看媒体评测。

如果你是产品经理（3 个月内）

梳理你的业务场景中哪些环节目前依赖人工做「规则明确的重复操作」——数据录入、信息比对、基础审核、定期报表。这些是当前 Agent 最可能替代的环节。不需要一步到位部署全自动 Agent，可以先从「人审 + Agent 操作」的半自动模式开始。

如果你是普通用户（长期）

保持一个认知更新：未来两年，会「用 AI」和会「给 AI 下任务」将变成两种完全不同的能力。前者等于今天会用搜索引擎——基本技能；后者等于今天会管理一个团队——需要学会拆解目标、分配任务、检查结果、处理异常。

从现在开始，可以尝试的不是让 AI 回答「这个问题是什么」，而是让 AI 执行「帮我把这件事做完」。这个思维习惯的转变，比学任何工具都重要。

参考资料

[1] Anthropic Computer Use 公告: https://www.anthropic.com/news/3-5-models-and-computer-use

[2] OpenAI Introducing Operator: https://openai.com/index/introducing-operator/

[3] Anthropic 推出 MCP: https://www.anthropic.com/news/model-context-protocol

[4] Google A2A 协议: https://github.com/a2aproject/A2A

[5] OpenAI Codex CLI: https://openai.com/index/codex-cli/

[6] Google Project Mariner (已停运): https://en.wikipedia.org/wiki/Project_Mariner

[7] WebArena 基准测试: https://webarena.dev/

[8] Gartner AI Agent 市场预测: https://www.gartner.com/en/articles/what-s-new-in-artificial-intelligence-from-the-2024-gartner-hype-cycle

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

🌟 点亮星标 🌟

AI深度话题天天聊