AGENT SURVEY 2025-2026
AI Agent 爆发之年从论文洪流到产品落地
一文读懂2025-2026全貌
基于 arXiv、MIT AI Agent Index 及 32 篇最新前沿论文的系统梳理
2025年的AI Agent领域,有几个数据值得关注:ChatGPT Agent、Claude Code、Codex、Operator 等产品先后发布,SWE-bench 基准分数在 18 个月内从 12% 飙升至 86%,MCP 协议成为"AI 的 HTTP",Meta 以约 20 亿美元收购 Manus。学术端,Agent 相关论文年产量约1,800 篇,超过前四年总和的两倍以上。下面从数据、产品、论文三个维度来梳理。
一、数据说话:论文洪流与市场爆发
根据 MIT、剑桥、斯坦福等联合发布的MIT 2025 AI Agent Index,Agent 领域的学术产出在 2025 年出现了快速增长。Google Scholar 上标题精确匹配"AI agent"的论文年产量约1,800 篇,这一数字超过了 2020-2024 四年总和的两倍以上。如果放宽到摘要和关键词提及,arXiv 上估计每年有3,000-5,000 篇Agent 相关论文。在 ACL 2025 的 1,800+ 篇投稿中,"LLM Agents & Tool Use"位列热门主题第 7 位。
市场端同样火热。2025 年 Agentic AI 市场规模约70-80 亿美元,年复合增长率高达42-46%,预计到 2030-2033 年将达到500-1,000 亿美元。McKinsey 2025 年调查显示,62%的企业已在试验 Agent 技术,预计 2030 年可自动化的经济价值达2.9 万亿美元。
六大研究方向热度排名
基于 ACL 2025 及多篇综述论文的综合分析,当前 Agent 研究的热门子方向如下:
二、产品里程碑:从概念验证到实际应用
2025-2026 年间,Agent 领域的产品迭代速度明显加快。
2025 Q1:Agent 元年开启
1 月,OpenAI 发布Operator研究预览版,成为首个主流浏览器操作 Agent 产品。2 月,Anthropic 推出Claude Code,让 AI 直接在终端里写代码。3 月,Manus 以"全球首款通用型 AI Agent"之名发布,GitHub 单日 Star 破 5 万。同月,OpenAI 开源 Agent SDK 并宣布支持 MCP 协议,标志着跨厂商标准的初步形成。
2025 Q2-Q3:产品化加速,竞争白热化
4 月 Meta 发布 Llama 4 并支持 Agent 框架集成,OpenAI 随后推出Codex CLI(开源)和Codex(云端版)。5 月,Claude 4 发布,Claude Code 正式商用;Google I/O 上演示了Project Mariner浏览器 Agent。7 月,月之暗面开源Kimi K2(1 万亿参数 MoE,Apache 2.0 许可)。7 月 17 日,OpenAI 发布ChatGPT Agent,融合 Operator 与 Deep Research 能力,被视为"通用 AI Agent"的重要产品。8 月,Google 正式推出异步编码 AgentJules,Cognition 完成 5 亿美元融资,估值逼近 100 亿美元。
2025 Q4-2026 Q1:格局重塑
10 月,OpenAI DevDay 发布可视化 Agent 构建工具AgentKit。11 月,Claude Opus 4.5以 SWE-bench80.9%的成绩刷新行业纪录。11 月 25 日,MCP 协议迎来一周年,累计下载9700 万+,5800+ 服务器,300+ 客户端。12 月,Meta 以约20 亿美元收购 Manus,Linux 基金会下成立AAIF(Agentic AI Foundation),创始成员包括 Anthropic 和 OpenAI。
进入 2026 年,Anthropic 推出Claude Cowork桌面 AI Agent,覆盖非技术办公场景;月之暗面发布Kimi K2.5,首创 Agent 集群能力,可调度100 个分身并行处理 1500 个步骤。3 月,OpenAI Codex 推出原生桌面应用,支持多 Agent 并行;阿里发布Qwen3.5-Omni,实现全模态交互 Agent。
四大技术突破
1. 编程 Agent:SWE-bench 分数飙升
SWE-bench 是衡量 AI 软件工程能力的核心基准。2024 年 3 月,SWE-agent 初始分数仅12.47%;到 2026 年 3 月,GPT-5.4 Pro 已达到86.0%。18 个月内提升超过 60 个百分点,AI 编码能力已从"偶尔能修 Bug"进化到"大部分任务都能搞定"。
2. MCP 协议成为"AI 的 HTTP"
MCP(Model Context Protocol)由 Anthropic 于 2024 年 11 月发布,仅用一年就从实验性协议成长为行业事实标准。2025 年 3 月 OpenAI 宣布支持,11 月一周年时累计9700 万+ 下载、5800+ 服务器、300+ 客户端。12 月,MCP 捐赠给 Linux 基金会下的 AAIF,白金成员包括 AWS、Microsoft、Google。如果说 HTTP 统一了互联网通信,MCP 正在统一 AI 与外部世界的交互方式。
3. 多 Agent 系统走向成熟
CrewAI 的角色扮演式编排执行效率比 LangGraph 快5.76 倍;Kimi K2.5 首创 Agent 集群,调度 100 个分身并行处理 1500 个步骤;Microsoft 统一 AutoGen 与 Semantic Kernel;OpenAI 推出可视化 Agent Builder。多 Agent 协作已从论文概念走向产品能力。
4. Computer Use / GUI Agent 产品化
Anthropic 率先推出 Computer Use,2026 年 3 月扩展到 Claude Code 和 Cowork;Google 发布 Gemini 2.5 Computer Use 专用模型;OpenAI 的 Operator 从 o3 升级后浏览器操控精度大幅提升。Agent 正在从"能对话"进化到"能操作一切"。
GitHub 框架生态:开发者的选择
开源社区的活跃度是技术趋势的一个参考指标。目前 GitHub 上 Agent 相关项目的 Star 排名中,Dify以10.7 万 Star领跑,紧随其后的是 Langflow(5 万+)、MetaGPT(4.9 万+)、AutoGen(4 万+)、browser-use(3.6 万+)等。一个明显的趋势是:互操作性成为主流,开发者倾向于组合使用框架;"代码即思考"范式兴起,Agent 直接写代码执行而非调用预设工具;可观测性成为标配,LangSmith、Logfire 等全链路追踪工具被广泛采用。
三、前沿论文速览:32 篇最新研究说了什么?
2026 年 3-4 月,arXiv 上涌现出 32 篇高质量的 Agent 论文。我们按六大方向进行梳理,挑出最具代表性的工作。
3.1 推理与规划:Agent 的"大脑"在进化
LEAD(arXiv:2603.06870)揭示了一个问题:Agent 在长程任务中过度分解步骤会导致上下文碎片化,一旦中间出错就"不可恢复"。通过引入短期前瞻验证,LEAD 使 o4-mini 在 Checkers Jumping 任务上从 n=11 提升至 n=13。
MiRA(arXiv:2603.19685)则带来了一个有意思的发现:中小模型通过专门的 Agent 训练,可以在特定任务上超越大模型。MiRA 将 Gemma3-12B 在 WebArena-Lite 上的成功率从 6.4% 提升至43.0%,超越了 GPT-4o。这为高效 Agent 部署提供了新路径——不必一味追求大模型。
SAGE(arXiv:2603.15255)展示了多 Agent 协作的新可能:四个 Agent(Challenger、Planner、Solver、Critic)组成闭环自演化系统,仅用小规模种子集就能持续自我改进,在 Qwen-2.5-7B 上 LiveCodeBench 提升8.9%,OlympiadBench 提升10.7%。
BIGMAS(arXiv:2603.15371)从人类认知的全局工作空间理论获得灵感,将专用 LLM Agent 组织为动态有向图节点,通过中央共享工作空间协调,在多个推理任务上持续优于 ReAct 和 Tree of Thoughts。
3.2 工具使用:当 Agent 的"工具箱"装不下时
MCP 生态已有 5800+ 服务器,工具数量快速增长。如果全部暴露给 Agent,上下文窗口将被严重浪费。语义工具发现研究(arXiv:2603.20313)提出用向量检索动态选择最相关的 3-5 个工具,实现了99.6% 的 token 消耗降低,命中率 97.1%。
在形式化验证方面,有研究(arXiv:2603.24747)首次用进程演算对 MCP 进行形式化,提出 MCP+ 类型系统扩展,为 Agent 系统提供了首个形式化验证基础。
AVR(arXiv:2603.12823)提出了自适应 VLM 路由框架,根据动作难度将任务分配到满足可靠性阈值的最廉价模型,实现最高 78% 的推理成本降低。这预示着 Agent 的"算力调度"将像云计算的弹性伸缩一样智能。
3.3 多 Agent 系统:协作中的问题
多 Agent 系统并非"越多越好"。一篇重要论文(arXiv:2604.02668)系统揭示了"谄媚传播"现象:Agent 倾向于附和同伴的错误意见,导致错误级联。研究发现,向 Agent 提供同伴谄媚排名先验可以缓解这一问题,将最终讨论准确率提升 10.5%。这是多 Agent 系统走向生产必须正视的隐患。
MIND(arXiv:2603.21696,ICLR 2026 Workshop)引入心智理论,让 Agent 能以90.2%的准确率推断对手意愿,在旅行规划场景中 High-w Hit 提升20.5%,Debate Hit-Rate 提升30.7%。
PROClaim(arXiv:2603.28488)设计了"法庭式"多 Agent 辩论框架,融合原告/被告/法官角色与渐进式 RAG,在 Check-COVID 基准上达到81.7%准确率,比标准多 Agent 辩论高 10 个百分点。
3.4 具身 Agent:从仿真到现实的跨越
具身 Agent 领域在 2026 年初取得了突破。MolmoBot(AI2 出品,arXiv:2603.16861)通过 180 万条纯仿真专家轨迹训练,在真实机器人上实现了零样本迁移,桌面抓放成功率79.2%,远超 pi_0.5 的 39.2%,且无需任何真实世界微调。这挑战了"纯仿真不够"的成见。
另一项研究(arXiv:2603.18532)利用 3D 世界生成模型创建数百个多样化交互场景,将仿真成功率从9.7% 提升至 79.8%,真实世界成功率从21.7% 提升至 75%。ExpertGen(arXiv:2603.15956)在工业装配任务中达到90.5%成功率,长程操控达85%。
这些成果共同指向一个趋势:生成式 AI 正在大幅降低具身 Agent 的训练成本,Sim-to-Real 的鸿沟正在被快速填平。
3.5 Agent 应用:从实验室走向生产线
编程 Agent 方面,OPENDEV(arXiv:2603.05344)提出了开源终端原生编程 Agent 的完整架构蓝图,采用工作负载专用模型路由、规划-执行双 Agent 分离等设计。ProdCodeBench(arXiv:2604.01527)从真实开发者-Agent 会话中构建了生产级评估基准,覆盖 7 种编程语言,四个基础模型解决率在53.2%-72.2%之间。
GUI Agent 方面,WebFactory(arXiv:2603.05044)提出了全自动闭环 RL 流水线,仅用 10 个合成网站训练的 GUI Agent 就能达到与大量人工标注数据训练的 Agent 相当的性能,大幅降低了训练成本。
3.6 框架与基础设施:为 Agent 时代修路架桥
Agentproof(arXiv:2603.20356)能自动从 LangGraph、CrewAI、AutoGen、Google ADK 四大框架提取工作流图模型,执行结构检查和安全策略验证,5000 节点图的验证在亚秒内完成。
ATBench(arXiv:2604.02022)提出了长程 Agent 安全轨迹级基准,包含 1000 条轨迹(平均 9.01 轮),使用"延迟触发"协议捕获真实风险涌现模式。BeyondSWE(arXiv:2602.09447)则将评估范围从单仓库 Bug 修复扩展到跨仓库、领域专用、依赖迁移等更贴近真实场景的任务。
四、挑战与未来:几个待解难题
尽管进展迅猛,Agent 领域仍面临几个核心挑战:
1. 长程任务可靠性:Agent 成功率随任务长度呈指数衰减("半衰期"规律),每个 Agent 都有其独特的"半衰期"。
2. 多 Agent 谄媚传播:Agent 倾向于附和同伴的错误意见,导致错误级联,影响最终决策质量。
3. 工具规模膨胀:MCP 生态中 5800+ 服务器带来的工具选择和上下文管理问题亟待解决。
4. 安全与自主的权衡:更自主的 Agent 意味着更大的安全风险,如何在保持效用的同时确保安全仍是开放问题。
5. Sim-to-Real 鸿沟:纯仿真虽取得突破,但复杂真实场景中的泛化性仍不足。
6. 评估方法论不成熟:现有基准与真实生产环境存在差距,需要更贴近实战的评估体系。
五、写在最后:从"AI 工具"到"AI 同事"
回顾 2025-2026 年的 Agent 发展,梳理下来有几条脉络值得关注:
AI Agent 领域正处于一个转型期:从技术突破走向生态构建,从单点能力走向系统协作,从实验验证走向生产部署。随着 MCP 协议的标准化、多 Agent 系统的成熟、评估方法论的完善,以及安全治理框架的建立,2026 年下半年 AI Agent 有望在软件开发、企业自动化、科学研究等领域实现规模化落地。
这不再只是"AI 工具"的升级,Agent 正在从工具变成协作伙伴。当你的 Agent 能自主操作浏览器、编写代码、调用工具、协调其他 Agent 完成复杂任务时,人机协作的方式会发生很大变化。
参考来源
MIT 2025 AI Agent Index | arXiv 预印本平台 | McKinsey 2025 调查 | Mordor Intelligence 市场报告 | SWE-bench Leaderboard | Anthropic/OpenAI/Google/Meta 官方公告 | GitHub 开源数据本文基于 arXiv 2026 年 3-4 月 32 篇代表性论文及 2025 年全年行业数据撰写,数据截止 2026 年 4 月初。
-- END --
夜雨聆风