2026年过半,如果你关注 AI 行业,会发现自己正处在一个相当罕见的时刻。
OpenAI 在推 Operator 和 Codex CLI,Anthropic 有 Computer Use 和 Claude Code,Google 押注 A2A 协议和 Gemini Agent,微软把 Copilot 全线 Agent 化,Meta 在社交平台上铺 AI Agents,就连字节和智谱也在做桌面操控 Agent。
这不是巧合。这可能是自 2022 年底 ChatGPT 引爆对话式 AI 以来,行业最大的一次集体转向。
要理解为什么所有 AI 公司都在「疯狂做 Agent」,不能只看产品表面——它们背后的驱动力是「技术推力 × 商业拉力 × 基础设施标准化」三股力量在 18 个月内同时汇聚的结果。

Agent 到底是什么?不只是能「说话」的 AI
先厘清一个基础问题。
过去三年我们用的 AI 产品,核心能力是「对话」——你问它答,你给指令它生成内容。它像一个知识渊博但只动口不动手的顾问。
Agent 的突破在于:它从「动口」变成了「动手」。

一个 Agent 应该具备四项核心能力。
感知:能看懂屏幕、识别网页元素、理解眼前的环境。这依赖多模态模型——不只是理解文字,还要理解图像、界面布局。
规划:面对一个复杂任务,能分解成多个步骤,决定先做什么后做什么。这需要推理能力的支撑。
执行:能实际点击按钮、填写表单、运行代码、调用 API。这靠的是工具使用框架,把「思考」和「行动」连接起来。
记忆:能记住执行过程中的上下文——已经完成了什么、遇到了什么问题、用户的偏好是什么。
这三项能力在 2023 年就已经分别存在,但它们是「散装」的。多模态已经有了,推理也有了,工具调用也有了——但串联在一起稳定运行,是 2024 年底到 2025 年才做到的。
真正引爆一切的,是一个简单的转折点。
三层条件同时成熟:为什么偏偏是现在?
任何一个懂技术的人都能感受到,2024 年下半年到 2025 年,AI 发生了某种质的飞跃。这不是某一个模型的功劳,而是三层条件同时在 12-18 个月内达到可用阈值。
第一层:模型能力的「Agent 拐点」
2024 年 10 月,Anthropic 发布 Claude 3.5 Sonnet 并推出 Computer Use 功能[1]——这是第一次,一个 AI 模型能「看」电脑屏幕,「思考」怎么操作,然后「执行」鼠标点击和键盘输入。虽然当时还很不稳定,但证明了一件事:Agent 不是科幻,而是可以跑的代码。
三个月后,OpenAI 发布 Operator[2],一个基于 CUA(Computer Use Agent)模型的浏览器 Agent。它能帮用户在网上订餐、比价、填表——虽然当时在 WebArena 评测中成功率为 58.1%、在 OSWorld 上为 38.1%[7],但这在技术上已经是一个质的飞跃。
2025 年 4 月,OpenAI 又发布了 Codex CLI[5],把 Agent 能力延伸到了终端环境——AI 可以像人一样在命令行里写代码、运行测试、排查错误。
Google 的 Project Mariner[6](已于2026年5月停运)则走了另一条路——利用 Chrome 浏览器 API 实现精准的网页操控,而不是完全依赖视觉识别。
到了 2025 年底到 2026 年,GPT-5 系列、Claude Opus 4 等新一代模型的推理能力和多模态能力进一步提升,Agent 的多步规划可靠性相比早期有了明显改善。
第二层:工具生态的快速丰富
一条常被忽略的线索是:Agent 不只是模型的事。如果你有一个完美的模型,但没有任何工具可以接,它依然动不了。
2024 年到 2025 年,AI 工具生态经历了一场爆炸式增长。API 接口越来越多、越来越标准化,MCP 协议的出现大幅降低了工具对接的开发成本。到 2026 年初,GitHub 上已经有上千个 MCP Server 实现,覆盖从数据库到设计工具再到企业系统的各个层面。
第三层:基础设施的标准化
这一点我们会在后面专门展开。简单来说,MCP 和 A2A 这两个协议的出现,从根本上改变了 Agent 的「可扩展性」——如果一个 Agent 只能接自己的工具,那它永远只是个玩具。但如果有一套标准协议,让任何 Agent 都能接任何工具、任何 Agent 都能和任何其他 Agent 协作,规模化就成为了可能。
三层条件中少了任何一层,Agent 都只是个概念。但它们偏偏同时成熟了——这就是为什么「现在」是这个行业集体转向的时刻。
技术推力遇上商业拉力:不布局就出局
如果光有技术可能,AI 公司不会这么拼命。真正让每家巨头都坐不住的,是商业层面的博弈——这是一场「谁先占据位置,谁就可能锁定未来十年」的竞赛。
对话式 AI 的天花板已经可见
ChatGPT 在 2024 年达到月活 2 亿用户,2025 年进一步增长,但对话式产品的 ARPU(每用户平均收入)增长已经放缓。一个聊天机器人,不管多聪明,能收的订阅费是有上限的——$20/月是主流,$200/月是高端,但很难再有更大的突破。
Agent 打开了完全不同的定价空间。它不是按「聊了多少」收费,而是按「完成了什么」收费——自动化了多少流程、处理了多少客服工单、节省了多少人力。这是一种从 SaaS 到「结果即服务」的商业模式转换。

Agent 的「切换成本」极高
这是商业逻辑中最微妙也最重要的一点。
如果你用 ChatGPT 聊天,明天换成 Claude,感觉上就是换了个聊天界面——有点麻烦,但不伤筋动骨。但如果你配置了一套 Agent 工作流——它学会了你的业务流程、连接了你的数据库、自动处理你的日报和周报——换另一套 Agent 的工作量和风险完全不是一个量级。
这就解释了为什么各大 AI 公司宁愿亏本也要先抢占 Agent 市场。这不是短期的用户争夺,而是长期的生态锁定——谁的 Agent 先成为用户的「默认操作员」,谁就在未来十年拥有不可替代的地位。
企业市场的想象空间
根据 Gartner 的预测[8],到 2028 年约 15% 的日常工作决策将由 Agentic AI 自主做出。传统 RPA(机器人流程自动化)市场的规模大约在 300 亿美元级别,而 AI Agent 的可寻址市场被多家分析机构预估在千亿美元级别。
传统 RPA 推行了几十年,但始终没能真正普及,原因在于它太「脆弱」——每个流程都需要写死规则,界面一变就废。AI Agent 的视觉理解和推理能力,恰好弥补了 RPA 的这个根本缺陷。换句话说,RPA 留下的市场真空,现在轮到 Agent 来填了。
六大厂商的全栈卡位
到 2026 年,AI 行业已经形成了一个清晰的竞争格局——每家巨头都在做全栈布局。
OpenAI 走的是「模型 + 产品 + API」三位一体路线——GPT-5 系列和 o-series 提供底层能力,Operator 面向 C 端,Codex CLI 面向开发者,Function Calling 和 GPTs 构建生态。
Anthropic 的策略更偏开发者驱动——Claude Opus 4 和 Sonnet 提供模型能力,Claude Code 面向开发者,MCP 协议作为生态武器。它走的是「协议先于产品」的路径——先定标准,再做生态。
Google 押注「协议 + 浏览器」——提出 A2A 协议填补了 Agent 间通信的空白,同时将 Agent 能力深度整合进 Gemini 应用层。
微软的策略是「存量变现」——在 M365 生态中把 Copilot 全线 Agent 化,面向已有的数亿企业用户自然升级。
它们的路径不同,但目标一致:抢占 Agent 时代的「生态位」。因为所有人都清楚,在 Agent 这个赛道上,第二名可能连入场券都拿不到。
协议之战:MCP、A2A 和 Agent 的「互联网时刻」
讨论 AI Agent 的时候,很多人只关注模型和产品,忽略了一个更底层的变化——协议标准化。但恰恰是协议层,决定了 Agent 行业是走向「百花齐放」还是「各自为战」。
2024 年 11 月,Anthropic 开源了 MCP(Model Context Protocol)[3]。它的定位非常明确:让 AI 模型能够通过统一标准接口接入任何工具和数据源。在此之前,每个工具对接 AI 都需要写单独的集成代码——接 Slack 一套代码,接 Notion 另一套,接公司内部系统再来一套。MCP 的出现就像给 AI 接入工具装上了「USB-C 接口」——只要双方都支持 MCP,插上就能用。
2025 年 4 月,Google 发布了 A2A(Agent-to-Agent Protocol)[4]。如果说 MCP 解决的是「AI 如何用工具」,A2A 解决的是「AI 之间如何协作」。它定义了 Agent 之间的能力发现、任务分配、进度沟通和结果交接等一系列标准。
MCP 和 A2A 不是竞争关系,而是互补关系。它们解决的是不同层面的问题:
MCP 是「纵向」的——连接 AI 和工具。
A2A 是「横向」的——连接 AI 和 AI。
如果把 Agent 生态比作互联网,MCP 像是传输层协议(让不同系统能交换数据),A2A 更像是应用层协议(让不同系统能协作完成复杂任务)。两者都不是对方的替代品,而是组合在一起才能形成完整的「Agent 协议栈」。

协议标准化的战略意义,不仅在于技术效率。它也是一场「平台之战」——掌握协议定义权的公司,自然而然地站在了生态的中心。Anthropic 掌握了「AI 如何连工具」,Google 掌握了「AI 之间如何协作」。它们提供的不仅是技术标准,更是一套规则——所有在这个生态里的玩家都必须遵守。
冷静一下:Agent 还没有准备好
如果只看以上三个维度的分析,你可能会觉得 Agent 已经万事俱备、只欠普及。但现实没有那么乐观。
安全与信任基础设施仍然落后
当前 Agent 在标准评测集上的表现存在较大差异——以 Operator 为例,其在 WebArena 上得分为 58.1%,在 OSWorld 上为 38.1%[2][7]。在受控环境下尚且如此,到真实世界中会打多少折扣,目前还没有足够的数据支撑结论。
更关键的问题是「不可逆操作」。AI 发错一条聊天消息大不了删掉重发,但如果一个 Agent 错误地发送了付款指令、删除了数据库记录、或者发布了不当内容——后果是不可逆的。而目前绝大多数 Agent 产品的「安全护栏」还停留在「确认对话框」的层面。
业界正在为此做准备——Anthropic 在 Agent 安全对齐方面持续投入,OpenAI 也在建设 Safety Systems,权限分级(只读 / 可写 / 管理员)正在成为 Agent 权限管理的共识。但距离企业级生产环境要求的 99.9%+ 可靠性,还有一段路要走。
Agent 叙事有过度包装的风险
2023 年每个人都自称在做 AI,2024 年每个人都自称在做 AI Native,2025 年每个人都自称在做 Agent。有一批所谓的 Agent 产品,本质上只是给聊天机器人加了一个「自动执行」按钮。如果核心能力仍然是单次对话加简单工具调用,它还算不上真正的自主 Agent。
这本身并不可怕——任何新技术都会经历从概念到落地的炒作周期。但作为读者和从业者,保持识别能力是有必要的:看一个 Agent 产品时,问它三个问题——它能自主执行多步任务吗?它能在中间步骤出错时自我修正吗?它的规划和执行是连在一起的,还是被人为切开的?
MCP 和 A2A 的采纳还在早期
虽然 MCP 已经有数十个厂商宣布支持,A2A 也有第一批合作方,但协议从「宣布支持」到「深度集成」之间有巨大的鸿沟。历史上 JSON-RPC、gRPC 等协议都曾试图在 AI 工具调用层面形成标准,最终都没能真正统一。MCP 和 A2A 能否走得更远,取决于它们能否让开发者切实感受到「接入成本足够低、收益足够高」。
健脑计划的判断
Agent 不是 2026 年的新概念——它是 2022 年以来大模型技术演进的必然产物。但「必然」不等于「马上到来」。我们相信三件事,也需要警惕三件事。
我们相信的三件事:
第一,Agent 是 AI 从「信息输出」到「行动执行」的范式转移,其影响力不亚于 2022 年底 ChatGPT 带来的对话式 AI 浪潮。
第二,MCP 和 A2A 的出现是 Agent 行业走向规模化的关键基础设施。无论最终是 MCP、A2A 还是某种融合方案成为事实标准,「AI 工具接入标准化」和「AI 间协作标准化」这两个趋势是不可逆的。
第三,所有巨头同时押注 Agent 不是巧合。这里的商业逻辑足够硬——从对话式 AI 到行动式 AI 的定价跃迁,加上极高的生态锁定效应,构成了极具吸引力的商业闭环。
需要警惕的三件事:
第一,当前 Agent 的可靠性还远未达到企业级生产环境的要求。对于不可逆操作场景(支付、数据删除、公开发布),Agent 需要有显著高于人类操作员的安全保障——这在 2026 年 5 月尚未实现。
第二,Agent 被过度包装的风险真实存在。不是每个加了一个「自动执行」按钮的聊天机器人都值得叫 Agent。
第三,协议碎片化可能导致开发者的选择困境,最终延缓而非加速 Agent 的规模化落地。
普通人可落地的行动建议
分析完了,说点实际的。
如果你是开发者(本月内)
装一个 Claude Code 或 Codex CLI,真正体验一下「让 AI 操作终端」是什么感觉。跑几个日常任务——代码审查、单元测试、部署流程。你需要建立对 Agent 能力边界的切身感受,而不是只看媒体评测。
如果你是产品经理(3 个月内)
梳理你的业务场景中哪些环节目前依赖人工做「规则明确的重复操作」——数据录入、信息比对、基础审核、定期报表。这些是当前 Agent 最可能替代的环节。不需要一步到位部署全自动 Agent,可以先从「人审 + Agent 操作」的半自动模式开始。
如果你是普通用户(长期)
保持一个认知更新:未来两年,会「用 AI」和会「给 AI 下任务」将变成两种完全不同的能力。前者等于今天会用搜索引擎——基本技能;后者等于今天会管理一个团队——需要学会拆解目标、分配任务、检查结果、处理异常。
从现在开始,可以尝试的不是让 AI 回答「这个问题是什么」,而是让 AI 执行「帮我把这件事做完」。这个思维习惯的转变,比学任何工具都重要。
参考资料
[1] Anthropic Computer Use 公告: https://www.anthropic.com/news/3-5-models-and-computer-use
[2] OpenAI Introducing Operator: https://openai.com/index/introducing-operator/
[3] Anthropic 推出 MCP: https://www.anthropic.com/news/model-context-protocol
[4] Google A2A 协议: https://github.com/a2aproject/A2A
[5] OpenAI Codex CLI: https://openai.com/index/codex-cli/
[6] Google Project Mariner (已停运): https://en.wikipedia.org/wiki/Project_Mariner
[7] WebArena 基准测试: https://webarena.dev/
[8] Gartner AI Agent 市场预测: https://www.gartner.com/en/articles/what-s-new-in-artificial-intelligence-from-the-2024-gartner-hype-cycle
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
🌟 点亮星标 🌟
AI深度话题天天聊
夜雨聆风