AI Agent:从提问到出结果
一、一句话定义
AI Agent是一个以大型语言模型为“大脑”,能够自主理解目标、规划步骤、调用工具,并循环执行直至完成复杂任务的智能体系统。它的核心突破不在于“回答问题”,而在于“去做事”。
二、从学术实验到全民狂欢
2.1 概念前传:智能体的学术渊源
AI Agent并非大模型时代的全新发明。早在强化学习领域,“Agent”指的就是在环境中感知、决策、行动的智能体。但在大模型出现之前,这些Agent要么只能处理高度限定的任务,要么需要大量人工标注的训练数据,通用性始终是天花板。
真正让Agent发生质变的是大语言模型带来的通用理解与推理能力。当GPT-3.5展示出对自然语言的惊人理解力时,研究者们开始思考:能不能让LLM不只是生成文本,还能像人一样“边想边做”?
2.2 2022年10月:ReAct,点亮心跳
普林斯顿和谷歌的研究者发布了一篇改变游戏规则的论文:《ReAct: Synergizing Reasoning and Acting in Language Models》。这篇论文的核心思想简单但致命:让模型交替进行“思考”和“行动”。
传统的LLM用法是“你问,它答”。你问现在几点了,模型要么胡编一个时间,要么说不知道。而ReAct Agent会先想“我需要获取当前时间,应该调用一个获取时间的工具”,然后调用工具,拿到结果后再想“现在我有时间了,可以回答用户了”,最后给出答案。
这个“想一下→做一下→再想一下→再做一下”的循环,就是现代所有LLM Agent的底层心跳。
但ReAct论文发表后并没有立刻引爆开发社区。它更多停留在学术圈讨论,真正的引爆点要等到五个月后。
2.3 2023年3月:AutoGPT,意外的燎原之火
一个叫Toran Richards的开发者发布了一个GitHub仓库,名叫Auto-GPT。
他在README里写了一句话:“Auto-GPT is an experimental open-source application showcasing the capabilities of the GPT-4 language model. This program, driven by GPT-4, chains together LLM ‘thoughts’, to autonomously achieve whatever goal you set.”
就是这么一句话,让GitHub在接下来几周内涌入了几十万颗星星,AutoGPT成为GitHub历史上增长最快的项目之一。
AutoGPT实现了一个循环:你把一个总目标喂给它,Agent把目标拆成子任务,一个接一个执行,每次执行前会“思考”,执行后会“反思”,然后生成下一个子任务。它还拥有长期记忆和短期记忆,可以跨多轮对话保持目标。
在2023年3月,当大多数人还只是把ChatGPT当成一个更聪明的聊天机器人时,AutoGPT展示了完全不同的可能性:AI不只是回答问题,它可以去“做事”。
开发者们疯狂了。有人用它写完整的商业计划书,有人让它自动运营Twitter账号,有人让它分析加密货币市场。虽然大多数尝试以失败告终——Agent常常陷入无限循环,或者烧掉几十美元API费用却一事无成——但这个“方向感”被点亮了。
同月,Yohei Nakajima发布了BabyAGI。代码量不到200行,却清晰地展示了Agent的核心循环:从任务列表取最高优先级任务→执行→生成新任务→重新排序优先级→重复。如果说AutoGPT是功能臃肿的概念跑车,BabyAGI就是一辆结构透明的卡丁车——一眼就能看懂它是怎么工作的。
2.4 2023年下半年:多Agent协作登上舞台
社区很快发现一个问题:单Agent在处理复杂任务时能力有天花板。比如“开发一个网站”需要产品经理定义需求、设计师出图、前端写代码、后端搭服务——单Agent要在这些角色之间反复横跳,上下文很快被塞爆,最后产出的东西往往不成体系。
2023年8月,MetaGPT发布。这个项目给Agent分配不同角色——产品经理、架构师、项目经理、工程师——然后让它们按照标准作业程序协作。MetaGPT能从一句话需求产出完整的需求文档、系统设计、代码仓库。它的设计哲学是:“代码只是副产品,真正的产品是标准化的流程。”
2023年10月,LangChain团队发布LangGraph。与MetaGPT的SOP思路不同,LangGraph把多Agent协作建模成一个有向图:每个节点是一个Agent或工具,每条边代表状态流转的条件。这种“图即编排”的思路让开发者可以精确控制流程,但也意味着更高的学习曲线。
2023年9月,微软发布AutoGen。它的核心抽象是“对话即计算”:Agent之间的协作就是一场多轮对话,两个Agent可以互相聊天、多个Agent可以开圆桌会议。
2.5 2024年:框架繁荣与MCP登场
2024年3月,CrewAI发布。它的设计哲学非常直接:Agent就是角色。你定义一个Agent时需要指定它的角色、目标和背景故事,然后把这些Agent放进一个团队里分配任务。CrewAI凭借极低的上手门槛迅速在商业场景中获得牵引力——几行Python代码就能搭一个销售团队或内容团队。
2024年11月,Anthropic发布Model Context Protocol(MCP)。这是一个非常重要的基础设施层创新。MCP承诺了一个美好的未来:通过这个协议,大模型能随意调用工具,瞬间获得操作整个数字世界的能力。OpenAI在2025年3月公开表示要在自家产品里支持MCP。MCP为Agent的工具调用提供了标准化接口,将工具能力与Agent编排解耦。
MCP的发布标志着Agent生态开始向标准化迈进——不再是每个框架自己定义一套工具调用方式,而是有了一个公共协议。
2.6 2025年:巨头入局与产品化元年
2025年是Agent领域剧烈变化的一年。
年初,OpenAI将实验性框架Swarm升级为生产级Agents SDK,正式确立了Agent开发的四个核心原语:Agents、Handoffs、Guardrails、Tracing。
3月,中国创业公司Monica发布Manus。Manus的定位是通用AI Agent产品,名称源自拉丁语“手”,寓意将想法转化为行动。它把Agent从“极客的玩具”变成“普通人的工具”——用户通过自然语言下达任务,Agent在云端虚拟机中自主执行,用户可以实时观看Agent的屏幕操作。Manus展示了Agent产品化的巨大潜力。同年,一篇关于Manus的学术论文发表于arXiv,将其定位为“连接‘心智’与‘手’的全自主数字Agent”。
2025年,Google发布开源的Agent Development Kit(ADK),将记忆管理作为框架的一级关注点,默认区分短期会话记忆和长期记忆。ADK支持Python、TypeScript、Go等多种语言,内置开发UI和A2A协议支持,主打生产级部署能力。
2025年10月,微软发布Agent Framework预览版,合并了Semantic Kernel和AutoGen两大项目,旨在提供统一的Agent开发基础。
2025年10月,Anthropic发布Claude Agent Skills,将专家知识打包成可复用的技能模块,Agent可以按需发现和加载。Skills解决了“每次对话都从零开始”的痛点,将组织内的专业知识变成可继承的数字资产。
2025年10月,Claude Agent SDK首个版本发布,支持与Claude Code的交互和自定义工具。
2025年12月,Anthropic低调但极其重要地发布了“高级工具调用”套件,补齐了MCP的短板——解决了工具上下文爆炸、决策瘫痪和参数组装失败等实际问题。
2025年底,Meta以20亿美元收购Manus,将其纳入Meta的AI产品矩阵。
2.7 2026年:从框架到平台,全面生产化
进入2026年,Agent领域呈现出清晰的趋势:从“能跑起来就行”走向“生产级可用”。
2026年1月,Manus发布沙箱架构技术文档,揭示了其自主任务执行的基础设施设计。
2026年2月,Manus 1.6版本发布,推出“Max”Agent,任务成功率更高,用户满意度提升19.2%,还新增了移动应用开发和“Design View”交互画布功能。
2026年3月,Meta推出Manus桌面应用“My Computer”,支持macOS和Windows,将Agent能力直接带到用户本地设备上,可以读取、编辑本地文件,启动和控制应用程序,与开源工具OpenClaw形成正面竞争。OpenClaw是一个免费的本地Agent,可以浏览网页、写代码、管理文件、执行多步任务,下载量已达数百万次,被黄仁勋称为“绝对的下一个ChatGPT”。
2026年3月,Dapr Agents v1.0发布,作为CNCF项目提供持久工作流、状态管理和安全多Agent协调的生产级Python框架,为Kubernetes和云原生平台上的AI Agent提供了基础设施保障。
2026年3月,NVIDIA在GTC大会上发布Agent Toolkit和OpenShell开源运行时,OpenShell应用基于策略的安全、网络和隐私护栏,使自主Agent更安全地部署。NVIDIA还与LangChain合作将AI-Q Blueprint等组件整合进深度Agent库。黄仁勋表示:“Claude Code和OpenClaw已经点燃了Agent的拐点,将AI从生成和推理扩展到行动。”
2026年3月,Google发布ADK for Java 1.0.0,使ADK成为支持Python、TypeScript、Go、Java四种语言的跨平台框架,并集成了GoogleMapsTool等实用工具。
2026年4月,Google正式发布ADK 2.0版本,引入基于图的工作流定义,支持更精细的流程控制和协作智能体。
2026年4月,微软发布Agent Framework 1.0,定位为生产级SDK和运行时,合并了Semantic Kernel和AutoGen,提供企业级多Agent编排、多模型提供商支持以及通过A2A和MCP的跨运行时互操作性。该框架支持包括Azure OpenAI、OpenAI、Anthropic Claude、Amazon Bedrock、Google Gemini、Ollama在内的多个模型提供商。
2026年4月,OpenAI对Agents SDK进行重大升级,新增原生沙箱执行能力和模型原生Harness,让Agent能够在受控环境中处理文件、运行命令、处理多步骤任务。这次更新首次在Python中推出,TypeScript支持计划后续发布,解决了从原型到生产的关键痛点:有能力的模型和有支撑Agent工作的基础设施之间的鸿沟。
2026年4月,Anthropic推出Claude Managed Agents公测,将优化性能的Agent框架与生产级基础设施打包,使开发者能在数日内从原型转向大规模部署。据早期测试者反馈,开发周期可减少高达80%。
2.8 演进逻辑:为什么Agent是现在?
回顾四年演进,推动Agent发展的核心力量有四股:
第一,模型能力的跨越式提升。2022年的GPT-3.5在推理和工具调用上还很笨拙,2023年的GPT-4让ReAct循环真正可用,2025年各家的推理模型让Agent的规划能力大幅跃升。Agent的能力天花板直接取决于底层模型的上限。
第二,成本的断崖式下降。AutoGPT在2023年执行一个复杂任务可能要烧掉10美元以上的API费用。到2026年,同样任务的成本可能只有几美分。当执行成本低于人类一分钟的工资时,Agent的经济账就算过来了。
第三,工具生态的成熟与标准化。2023年想让Agent调用工具,开发者得自己写OpenAPI规范。现在MCP协议正在成为行业标准,各大云厂商(AWS、Red Hat等)都已提供原生MCP支持,成千上万个现成的MCP服务器覆盖了从操作Kubernetes到处理文件的方方面面。
第四,认知的转变——也是最重要的。早期大家把Agent当成“自动化的ChatGPT”,认为它应该一次把事做完。但实际使用中发现,Agent的价值不在于“全自动”,而在于“人机协作”——它做80%的脏活累活,人做20%的关键决策和验收。这种认知转变,让产品设计从追求“完全自主”转向追求“丝滑交接”。
三、2026年4月的竞争图谱
站在2026年4月这个时间截面上,AI Agent的版图已清晰分层:底层模型、中层框架、上层产品。本节聚焦中层的框架平台和关键基础设施,分析它们在技术路线、产品定位和生态策略上的差异。
3.1 主要玩家全景表
| 玩家 | 类型 | 首发时间 | 1.0/GA时间 | 核心哲学 | 语言支持 |
|---|---|---|---|---|---|
| AutoGPT | 自主Agent实验 | 2023.03 | - | 目标驱动自主循环 | Python |
| MetaGPT | 多Agent框架 | 2023.08 | - | SOP化协作,全流程产出 | Python |
| AutoGen | 多Agent框架 | 2023.09 | - | 对话驱动,微软背书 | Python, .NET |
| LangGraph | 编排框架 | 2023.10 | - | 图状态机,精确控制 | Python, TypeScript |
| CrewAI | 多Agent框架 | 2024.03 | - | 角色扮演,简单易用 | Python |
| MCP | 工具协议 | 2024.11 | - | 标准化工具接口 | 协议层 |
| OpenAI Agents SDK | 开发SDK | 2025初 | - | 模型原生,安全执行 | Python (TS计划中) |
| Manus | 产品 | 2025.03 | - | 端到端执行,开箱即用 | 无需编程 |
| Google ADK | 开发框架 | 2025 | 2026.04 (v2.0) | 记忆优先,工程化 | Python, TS, Go, Java |
| Microsoft Agent Framework | 企业平台 | 2025.10 | 2026.04 | 统一编排,企业级 | .NET, Python |
| OpenClaw | 开源Agent产品 | 2025.11 | 2026.04 (v2.6.2) | 本地优先,强执行力,生态广度 | 无需编程,图形化部署 |
| Hermes Agent | 开源Agent框架 | 2026.02 | - | 自进化学习,持久记忆 | Python |
| Dapr Agents | 云原生框架 | - | 2026.03 | 持久化,生产可靠性 | Python |
| Claude Managed Agents | 托管平台 | - | 2026.04 (公测) | 安全对齐,一站式部署 | API |
3.2 OpenClaw与Hermes:两条路线的对决
2026年上半年最值得关注的两个新玩家,一个是OpenClaw,一个是Hermes Agent。
OpenClaw(社区昵称“龙虾”)由奥地利工程师Peter Steinberger于2025年11月以Clawdbot之名发布,后更名为OpenClaw,采用MIT开源协议,Windows平台支持零代码图形化一键部署。上线仅4个月,GitHub星标即突破28万,超越React登顶全球第一。
它的核心定位是“连接大模型与本地系统的执行中枢”,强调本地优先、隐私保护、数据不出设备。支持多模型融合(GPT-4o、Claude、Gemini、DeepSeek等),拥有3200+社区Skills,通过微信、飞书、钉钉等即时通讯工具即可驱动AI执行文件操作、浏览器自动化、Shell命令等任务。社区评价称OpenClaw像一个“执行力超强的管家”——能力由人类预设,技能需要手动编写和安装,行为稳定可控。
Hermes Agent由硅谷知名AI实验室Nous Research于2026年2月25日发布,7周内GitHub星标即突破9.5万,单日最高新增6400+星。它的核心定位是“与你一同成长的智能体”,主打自进化学习闭环:完成任务后自动将成功经验沉淀为可复用的Skill,下次遇到类似任务直接调用,不再从头推理。它拥有三层持久记忆系统,跨会话记住用户的代码风格、项目偏好甚至沟通习惯。
据Nous Research内部基准测试,拥有20+自创技能的Agent完成类似研究任务的速度比新实例快40%。
社区对两者的典型比喻:OpenClaw像安卓——开放、强大、什么都能接,代价是用户需要自己搞定一切;Hermes像苹果——不给你那么多开关可以拨,但它会悄悄替你把事情记住、学会,然后越做越顺。一个让你掌控一切,一个替你记住一切。
值得注意的是,许多用户选择了“两个都用”——OpenClaw负责连接调度和执行,Hermes负责需要持续学习和动脑的复杂任务。
3.3 技术路线深度对比
LangGraph:给开发者一张精确的地图
LangGraph来自LangChain团队,是LangChain生态从“链式调用”向“Agent编排”演进的关键一步。它把Agent系统建模成一个有向图,每个节点可以是LLM调用、工具执行或另一个Agent,边由条件函数控制。LangGraph内置了状态持久化和人机交互中断点,这意味着Agent可以在任意节点暂停等待人类输入,然后从断点继续。
核心优势在于精确控制——图结构让你可以精确设计Agent的行为,不会像纯LLM驱动那样“跑偏”,可调试性强,人机协作原生支持。但学习曲线陡峭,对简单任务来说过于复杂。
Google ADK:记忆管理作为一级公民
Google ADK最突出的设计选择是将记忆管理作为框架的一级关注点。ADK内置了两种记忆接口:SessionService负责当前会话内容和工具调用中间结果,会话结束自动清理;MemoryService负责长期信息,如用户偏好和历史记录。
ADK 2.0版本引入了基于图的工作流定义,并定义了三种核心Agent类型:LlmAgent、WorkflowAgent以及SequentialAgent/ParallelAgent/LoopAgent的组合。支持多语言,内置开发UI,A2A协议支持跨框架通信,可部署到Cloud Run和Vertex AI。
Microsoft Agent Framework:统一编排的企业平台
微软Agent Framework 1.0的定位非常清晰:提供一个统一的SDK和运行时,用于构建、编排和部署AI Agent及多Agent应用。它将Semantic Kernel的企业级基础和AutoGen的创新编排合并为一个框架。
该框架的核心抽象是单Agent抽象和服务连接器、中间件钩子、Agent内存和上下文提供者、基于图的工作流,以及多Agent编排模式。支持包括Azure OpenAI、OpenAI、Anthropic Claude、Amazon Bedrock、Google Gemini、Ollama在内的多个模型提供商。
OpenAI Agents SDK:模型原生Harness + 沙箱执行
OpenAI Agents SDK于2026年4月的最新更新引入了两个关键能力:模型原生Harness和沙箱执行。Harness提供了Agent工作所需的完整基础设施——指令、工具、审批、追踪、交接和状态管理。沙箱让Agent在隔离环境中运行,只允许访问特定任务所需的文件和代码。
SDK支持多个沙箱提供商,也允许开发者自带沙箱。架构上分离了Harness和计算,凭证不进入模型生成代码的执行环境,降低了提示注入和数据泄露风险。
MCP:工具调用的标准化基础设施
Model Context Protocol虽然不是Agent框架,但已成为Agent生态的基础设施层。它提供标准化接口,将Agent编排与能力实现解耦。
MCP的演进经历了重要转折:2024年11月发布后,2025年夏天生态爆发,GitHub上涌现了数以万计的MCP服务器,但企业实践发现,当工具数量从10个增加到1000个时,Agent变得迟钝健忘。2025年12月,Anthropic发布高级工具调用套件,补齐了这个短板。
3.4 竞争格局总结
框架层正在分化。各大厂商的Agent框架基本完成了“1.0/GA”里程碑。路线明显分化:Google ADK主打多语言工程化和记忆管理,微软Agent Framework主打企业级编排和多模型支持,OpenAI Agents SDK主打模型原生Harness和安全沙箱,LangGraph/CrewAI/AutoGen在各自赛道深耕。
协议层正在标准化。MCP已成为工具调用的通用语言,但经历了从“协议残缺”到“高级工具调用补齐”的演进过程。
产品层正在产品化。Manus被Meta收购后推出了桌面版,与开源工具OpenClaw形成正面竞争。Agent正在从云端走向本地设备,从开发者工具走向普通用户产品。
四、横纵交汇洞察
把纵向的四年级别演进和横向的各大门派对比放在一起,看看能得出什么新的判断。
4.1 从“能跑”到“能生产”,2026年的关键转折
纵向看,Agent的发展可以清晰地分为三个阶段:
2023年:实验期。AutoGPT和BabyAGI点燃了可能性,但距离生产环境还很远。关键词是“看,它居然能做到这个”。
2024年:框架繁荣期。LangGraph、CrewAI、AutoGen等框架涌现,各自探索不同的编排范式。关键词是“选择你的哲学”。
2025-2026年:生产化期。各大厂商纷纷推出1.0/GA版本,安全沙箱、持久化工作流、企业级编排、可观测性等生产级特性成为标配。关键词是“它真的能用了吗”。
4.2 MCP的“残缺”与“补齐”
MCP的演进历程是理解Agent行业的关键切口。2024年11月发布时,人们以为工具调用问题即将解决。但企业实践很快暴露问题:当工具从10个增加到1000个时,Agent变得迟钝健忘。直到2025年12月Anthropic发布高级工具调用套件,才从协议层面解决了问题。
这个故事的启示是:Agent的基础设施远比看起来复杂。看似简单的“调用一个工具”背后,涉及上下文管理、语义匹配、参数推断、错误恢复等多个层次的问题。
4.3 核心优势与劣势的历史根源
今天的优势:
- • 多模型支持和协议标准化:根源在MCP的发布和演进。
- • 生产级可靠性:根源在2025-2026年各大框架的GA化浪潮。
- • 企业采纳加速:根源在各大科技巨头的集体入场带来的生态信任。
今天的劣势:
- • 框架碎片化:根源在2023-2024年的爆发期,每个团队押注不同哲学。
- • Agent仍不可靠:根源在LLM的概率本质,以及工具调用的复杂性。
- • 长周期任务的稳定性:多个框架都在攻克这个方向,但尚无公认的完美方案。
4.4 未来推演:三个剧本
剧本一:最可能发生的——“平台三国杀”
未来12-18个月,Agent框架层将形成三大平台阵营:微软Agent Framework(依托Azure和企业生态)、Google ADK(依托GCP和多语言生态)、OpenAI/Anthropic(依托模型优势)。MCP成为连接一切工具的标准协议。
剧本二:最危险的——“模型吞噬框架”
如果未来12个月内底层模型在规划、记忆、工具调用上取得突破性进展,框架层的价值将急剧下降。中间层框架将面临生存危机,除非它们已转型为垂直领域的深度解决方案。
剧本三:最乐观的——“Agent成为操作系统能力”
Agent不再是独立的应用或框架,而是被整合进操作系统。Manus桌面版和OpenClaw已经在向这个方向探索——让Agent直接在用户本地设备上运行,操作文件和应用程序。
4.5 回到“从提问到出结果”
从ReAct论文的“思考→行动”循环,到AutoGPT的自主任务执行,到LangGraph/CrewAI的多Agent协作,到MCP的工具调用标准化,再到Manus/OpenClaw的端到端产品——AI Agent“从提问到出结果”的路径越来越清晰。
2026年4月,这条路径已经走完了从0到1的阶段,正在经历从1到100的规模化过程。各厂商的GA版本、生产级特性、安全沙箱、持久化工作流——都在回答同一个问题:如何让Agent从“偶尔能成”变成“每次都可靠”。
五、信息来源
- 1. Yao et al. (2022).ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629
- 2. AutoGPT GitHub Repository. https://github.com/Significant-Gravitas/AutoGPT
- 3. BabyAGI GitHub Repository. https://github.com/yoheinakajima/babyagi
- 4. MetaGPT GitHub Repository & Paper. https://github.com/geekan/MetaGPT
- 5. LangGraph Documentation. https://langchain-ai.github.io/langgraph/
- 6. CrewAI Documentation. https://docs.crewai.com/
- 7. AutoGen GitHub Repository. https://github.com/microsoft/autogen
- 8. Microsoft Ships Production-Ready Agent Framework 1.0. Visual Studio Magazine, 2026-04-06
- 9. Google Agent Development Kit (ADK) Documentation. https://google.github.io/adk-docs/
- 10. Google ADK深度解析. CSDN, 2026-04-16
- 11. How to Build Production-Ready AI Agents with Long-Term Memory Using Google ADK and Milvus. Milvus Blog, 2026-02-26
- 12. OpenAI Upgrades Its Agents SDK With Sandboxing. DevOps.com, 2026-04-17
- 13. OpenAI Agents SDK Gets Sandbox Execution. Blockchain.news, 2026-04-18
- 14. Claude Managed Agents公测发布. Blockchain.news, 2026-04-08
- 15. Claude AI Agent Skills: The Architecture Turning Claude Into an Enterprise Operating Layer. LUNARTECH, 2026-03-08
- 16. Anthropic出手,补齐Agent当下的短板. 腾讯新闻, 2026-01-16
- 17. Standardizing Agent Connectivity with Model Context Protocol (MCP). dev.to, 2026-04-17
- 18. From Mind to Machine: The Rise of Manus AI. arXiv:2505.02024, 2026-03-19
- 19. Meta's Manus AI agent arrives on your desktop. The Next Web, 2026-03-18
- 20. Manus 1.6 launch expands capabilities. KrASIA, 2025-12-19
- 21. NVIDIA Expands Enterprise AI Push with OpenShell and Agent Software. ADTmag, 2026-03-18
- 22. General Availability of Dapr Agents Delivers Production Reliability. TMCnet, 2026-03-23
- 23. 从最顶级的30个AI Agent产品里,看懂了这三个趋势. 36氪
- 24. 从Manus到OpenClaw到Hermes:超级Agent在进化. CSDN, 2026-04-15
夜雨聆风