OpenClaw拿了28万星,Hermes 7周破9.5万——2026年,AI Agent到底在争什么?

AI Agent：从提问到出结果

一、一句话定义

AI Agent是一个以大型语言模型为“大脑”，能够自主理解目标、规划步骤、调用工具，并循环执行直至完成复杂任务的智能体系统。它的核心突破不在于“回答问题”，而在于“去做事”。

二、从学术实验到全民狂欢

2.1 概念前传：智能体的学术渊源

AI Agent并非大模型时代的全新发明。早在强化学习领域，“Agent”指的就是在环境中感知、决策、行动的智能体。但在大模型出现之前，这些Agent要么只能处理高度限定的任务，要么需要大量人工标注的训练数据，通用性始终是天花板。

真正让Agent发生质变的是大语言模型带来的通用理解与推理能力。当GPT-3.5展示出对自然语言的惊人理解力时，研究者们开始思考：能不能让LLM不只是生成文本，还能像人一样“边想边做”？

2.2 2022年10月：ReAct，点亮心跳

普林斯顿和谷歌的研究者发布了一篇改变游戏规则的论文：《ReAct: Synergizing Reasoning and Acting in Language Models》。这篇论文的核心思想简单但致命：让模型交替进行“思考”和“行动”。

传统的LLM用法是“你问，它答”。你问现在几点了，模型要么胡编一个时间，要么说不知道。而ReAct Agent会先想“我需要获取当前时间，应该调用一个获取时间的工具”，然后调用工具，拿到结果后再想“现在我有时间了，可以回答用户了”，最后给出答案。

这个“想一下→做一下→再想一下→再做一下”的循环，就是现代所有LLM Agent的底层心跳。

但ReAct论文发表后并没有立刻引爆开发社区。它更多停留在学术圈讨论，真正的引爆点要等到五个月后。

2.3 2023年3月：AutoGPT，意外的燎原之火

一个叫Toran Richards的开发者发布了一个GitHub仓库，名叫Auto-GPT。

他在README里写了一句话：“Auto-GPT is an experimental open-source application showcasing the capabilities of the GPT-4 language model. This program, driven by GPT-4, chains together LLM ‘thoughts’, to autonomously achieve whatever goal you set.”

就是这么一句话，让GitHub在接下来几周内涌入了几十万颗星星，AutoGPT成为GitHub历史上增长最快的项目之一。

AutoGPT实现了一个循环：你把一个总目标喂给它，Agent把目标拆成子任务，一个接一个执行，每次执行前会“思考”，执行后会“反思”，然后生成下一个子任务。它还拥有长期记忆和短期记忆，可以跨多轮对话保持目标。

在2023年3月，当大多数人还只是把ChatGPT当成一个更聪明的聊天机器人时，AutoGPT展示了完全不同的可能性：AI不只是回答问题，它可以去“做事”。

开发者们疯狂了。有人用它写完整的商业计划书，有人让它自动运营Twitter账号，有人让它分析加密货币市场。虽然大多数尝试以失败告终——Agent常常陷入无限循环，或者烧掉几十美元API费用却一事无成——但这个“方向感”被点亮了。

同月，Yohei Nakajima发布了BabyAGI。代码量不到200行，却清晰地展示了Agent的核心循环：从任务列表取最高优先级任务→执行→生成新任务→重新排序优先级→重复。如果说AutoGPT是功能臃肿的概念跑车，BabyAGI就是一辆结构透明的卡丁车——一眼就能看懂它是怎么工作的。

2.4 2023年下半年：多Agent协作登上舞台

社区很快发现一个问题：单Agent在处理复杂任务时能力有天花板。比如“开发一个网站”需要产品经理定义需求、设计师出图、前端写代码、后端搭服务——单Agent要在这些角色之间反复横跳，上下文很快被塞爆，最后产出的东西往往不成体系。

2023年8月，MetaGPT发布。这个项目给Agent分配不同角色——产品经理、架构师、项目经理、工程师——然后让它们按照标准作业程序协作。MetaGPT能从一句话需求产出完整的需求文档、系统设计、代码仓库。它的设计哲学是：“代码只是副产品，真正的产品是标准化的流程。”

2023年10月，LangChain团队发布LangGraph。与MetaGPT的SOP思路不同，LangGraph把多Agent协作建模成一个有向图：每个节点是一个Agent或工具，每条边代表状态流转的条件。这种“图即编排”的思路让开发者可以精确控制流程，但也意味着更高的学习曲线。

2023年9月，微软发布AutoGen。它的核心抽象是“对话即计算”：Agent之间的协作就是一场多轮对话，两个Agent可以互相聊天、多个Agent可以开圆桌会议。

2.5 2024年：框架繁荣与MCP登场

2024年3月，CrewAI发布。它的设计哲学非常直接：Agent就是角色。你定义一个Agent时需要指定它的角色、目标和背景故事，然后把这些Agent放进一个团队里分配任务。CrewAI凭借极低的上手门槛迅速在商业场景中获得牵引力——几行Python代码就能搭一个销售团队或内容团队。

2024年11月，Anthropic发布Model Context Protocol（MCP）。这是一个非常重要的基础设施层创新。MCP承诺了一个美好的未来：通过这个协议，大模型能随意调用工具，瞬间获得操作整个数字世界的能力。OpenAI在2025年3月公开表示要在自家产品里支持MCP。MCP为Agent的工具调用提供了标准化接口，将工具能力与Agent编排解耦。

MCP的发布标志着Agent生态开始向标准化迈进——不再是每个框架自己定义一套工具调用方式，而是有了一个公共协议。

2.6 2025年：巨头入局与产品化元年

2025年是Agent领域剧烈变化的一年。

年初，OpenAI将实验性框架Swarm升级为生产级Agents SDK，正式确立了Agent开发的四个核心原语：Agents、Handoffs、Guardrails、Tracing。

3月，中国创业公司Monica发布Manus。Manus的定位是通用AI Agent产品，名称源自拉丁语“手”，寓意将想法转化为行动。它把Agent从“极客的玩具”变成“普通人的工具”——用户通过自然语言下达任务，Agent在云端虚拟机中自主执行，用户可以实时观看Agent的屏幕操作。Manus展示了Agent产品化的巨大潜力。同年，一篇关于Manus的学术论文发表于arXiv，将其定位为“连接‘心智’与‘手’的全自主数字Agent”。

2025年，Google发布开源的Agent Development Kit（ADK），将记忆管理作为框架的一级关注点，默认区分短期会话记忆和长期记忆。ADK支持Python、TypeScript、Go等多种语言，内置开发UI和A2A协议支持，主打生产级部署能力。

2025年10月，微软发布Agent Framework预览版，合并了Semantic Kernel和AutoGen两大项目，旨在提供统一的Agent开发基础。

2025年10月，Anthropic发布Claude Agent Skills，将专家知识打包成可复用的技能模块，Agent可以按需发现和加载。Skills解决了“每次对话都从零开始”的痛点，将组织内的专业知识变成可继承的数字资产。

2025年10月，Claude Agent SDK首个版本发布，支持与Claude Code的交互和自定义工具。

2025年12月，Anthropic低调但极其重要地发布了“高级工具调用”套件，补齐了MCP的短板——解决了工具上下文爆炸、决策瘫痪和参数组装失败等实际问题。

2025年底，Meta以20亿美元收购Manus，将其纳入Meta的AI产品矩阵。

2.7 2026年：从框架到平台，全面生产化

进入2026年，Agent领域呈现出清晰的趋势：从“能跑起来就行”走向“生产级可用”。

2026年1月，Manus发布沙箱架构技术文档，揭示了其自主任务执行的基础设施设计。

2026年2月，Manus 1.6版本发布，推出“Max”Agent，任务成功率更高，用户满意度提升19.2%，还新增了移动应用开发和“Design View”交互画布功能。

2026年3月，Meta推出Manus桌面应用“My Computer”，支持macOS和Windows，将Agent能力直接带到用户本地设备上，可以读取、编辑本地文件，启动和控制应用程序，与开源工具OpenClaw形成正面竞争。OpenClaw是一个免费的本地Agent，可以浏览网页、写代码、管理文件、执行多步任务，下载量已达数百万次，被黄仁勋称为“绝对的下一个ChatGPT”。

2026年3月，Dapr Agents v1.0发布，作为CNCF项目提供持久工作流、状态管理和安全多Agent协调的生产级Python框架，为Kubernetes和云原生平台上的AI Agent提供了基础设施保障。

2026年3月，NVIDIA在GTC大会上发布Agent Toolkit和OpenShell开源运行时，OpenShell应用基于策略的安全、网络和隐私护栏，使自主Agent更安全地部署。NVIDIA还与LangChain合作将AI-Q Blueprint等组件整合进深度Agent库。黄仁勋表示：“Claude Code和OpenClaw已经点燃了Agent的拐点，将AI从生成和推理扩展到行动。”

2026年3月，Google发布ADK for Java 1.0.0，使ADK成为支持Python、TypeScript、Go、Java四种语言的跨平台框架，并集成了GoogleMapsTool等实用工具。

2026年4月，Google正式发布ADK 2.0版本，引入基于图的工作流定义，支持更精细的流程控制和协作智能体。

2026年4月，微软发布Agent Framework 1.0，定位为生产级SDK和运行时，合并了Semantic Kernel和AutoGen，提供企业级多Agent编排、多模型提供商支持以及通过A2A和MCP的跨运行时互操作性。该框架支持包括Azure OpenAI、OpenAI、Anthropic Claude、Amazon Bedrock、Google Gemini、Ollama在内的多个模型提供商。

2026年4月，OpenAI对Agents SDK进行重大升级，新增原生沙箱执行能力和模型原生Harness，让Agent能够在受控环境中处理文件、运行命令、处理多步骤任务。这次更新首次在Python中推出，TypeScript支持计划后续发布，解决了从原型到生产的关键痛点：有能力的模型和有支撑Agent工作的基础设施之间的鸿沟。

2026年4月，Anthropic推出Claude Managed Agents公测，将优化性能的Agent框架与生产级基础设施打包，使开发者能在数日内从原型转向大规模部署。据早期测试者反馈，开发周期可减少高达80%。

2.8 演进逻辑：为什么Agent是现在？

回顾四年演进，推动Agent发展的核心力量有四股：

第一，模型能力的跨越式提升。2022年的GPT-3.5在推理和工具调用上还很笨拙，2023年的GPT-4让ReAct循环真正可用，2025年各家的推理模型让Agent的规划能力大幅跃升。Agent的能力天花板直接取决于底层模型的上限。

第二，成本的断崖式下降。AutoGPT在2023年执行一个复杂任务可能要烧掉10美元以上的API费用。到2026年，同样任务的成本可能只有几美分。当执行成本低于人类一分钟的工资时，Agent的经济账就算过来了。

第三，工具生态的成熟与标准化。2023年想让Agent调用工具，开发者得自己写OpenAPI规范。现在MCP协议正在成为行业标准，各大云厂商（AWS、Red Hat等）都已提供原生MCP支持，成千上万个现成的MCP服务器覆盖了从操作Kubernetes到处理文件的方方面面。

第四，认知的转变——也是最重要的。早期大家把Agent当成“自动化的ChatGPT”，认为它应该一次把事做完。但实际使用中发现，Agent的价值不在于“全自动”，而在于“人机协作”——它做80%的脏活累活，人做20%的关键决策和验收。这种认知转变，让产品设计从追求“完全自主”转向追求“丝滑交接”。

三、2026年4月的竞争图谱

站在2026年4月这个时间截面上，AI Agent的版图已清晰分层：底层模型、中层框架、上层产品。本节聚焦中层的框架平台和关键基础设施，分析它们在技术路线、产品定位和生态策略上的差异。

3.1 主要玩家全景表

玩家	类型	首发时间	1.0/GA时间	核心哲学	语言支持
AutoGPT	自主Agent实验	2023.03	-	目标驱动自主循环	Python
MetaGPT	多Agent框架	2023.08	-	SOP化协作，全流程产出	Python
AutoGen	多Agent框架	2023.09	-	对话驱动，微软背书	Python, .NET
LangGraph	编排框架	2023.10	-	图状态机，精确控制	Python, TypeScript
CrewAI	多Agent框架	2024.03	-	角色扮演，简单易用	Python
MCP	工具协议	2024.11	-	标准化工具接口	协议层
OpenAI Agents SDK	开发SDK	2025初	-	模型原生，安全执行	Python (TS计划中)
Manus	产品	2025.03	-	端到端执行，开箱即用	无需编程
Google ADK	开发框架	2025	2026.04 (v2.0)	记忆优先，工程化	Python, TS, Go, Java
Microsoft Agent Framework	企业平台	2025.10	2026.04	统一编排，企业级	.NET, Python
OpenClaw	开源Agent产品	2025.11	2026.04 (v2.6.2)	本地优先，强执行力，生态广度	无需编程，图形化部署
Hermes Agent	开源Agent框架	2026.02	-	自进化学习，持久记忆	Python
Dapr Agents	云原生框架	-	2026.03	持久化，生产可靠性	Python
Claude Managed Agents	托管平台	-	2026.04 (公测)	安全对齐，一站式部署	API

3.2 OpenClaw与Hermes：两条路线的对决

2026年上半年最值得关注的两个新玩家，一个是OpenClaw，一个是Hermes Agent。

OpenClaw（社区昵称“龙虾”）由奥地利工程师Peter Steinberger于2025年11月以Clawdbot之名发布，后更名为OpenClaw，采用MIT开源协议，Windows平台支持零代码图形化一键部署。上线仅4个月，GitHub星标即突破28万，超越React登顶全球第一。

它的核心定位是“连接大模型与本地系统的执行中枢”，强调本地优先、隐私保护、数据不出设备。支持多模型融合（GPT-4o、Claude、Gemini、DeepSeek等），拥有3200+社区Skills，通过微信、飞书、钉钉等即时通讯工具即可驱动AI执行文件操作、浏览器自动化、Shell命令等任务。社区评价称OpenClaw像一个“执行力超强的管家”——能力由人类预设，技能需要手动编写和安装，行为稳定可控。

Hermes Agent由硅谷知名AI实验室Nous Research于2026年2月25日发布，7周内GitHub星标即突破9.5万，单日最高新增6400+星。它的核心定位是“与你一同成长的智能体”，主打自进化学习闭环：完成任务后自动将成功经验沉淀为可复用的Skill，下次遇到类似任务直接调用，不再从头推理。它拥有三层持久记忆系统，跨会话记住用户的代码风格、项目偏好甚至沟通习惯。

据Nous Research内部基准测试，拥有20+自创技能的Agent完成类似研究任务的速度比新实例快40%。

社区对两者的典型比喻：OpenClaw像安卓——开放、强大、什么都能接，代价是用户需要自己搞定一切；Hermes像苹果——不给你那么多开关可以拨，但它会悄悄替你把事情记住、学会，然后越做越顺。一个让你掌控一切，一个替你记住一切。

值得注意的是，许多用户选择了“两个都用”——OpenClaw负责连接调度和执行，Hermes负责需要持续学习和动脑的复杂任务。

3.3 技术路线深度对比

LangGraph：给开发者一张精确的地图

LangGraph来自LangChain团队，是LangChain生态从“链式调用”向“Agent编排”演进的关键一步。它把Agent系统建模成一个有向图，每个节点可以是LLM调用、工具执行或另一个Agent，边由条件函数控制。LangGraph内置了状态持久化和人机交互中断点，这意味着Agent可以在任意节点暂停等待人类输入，然后从断点继续。

核心优势在于精确控制——图结构让你可以精确设计Agent的行为，不会像纯LLM驱动那样“跑偏”，可调试性强，人机协作原生支持。但学习曲线陡峭，对简单任务来说过于复杂。

Google ADK：记忆管理作为一级公民

Google ADK最突出的设计选择是将记忆管理作为框架的一级关注点。ADK内置了两种记忆接口：SessionService负责当前会话内容和工具调用中间结果，会话结束自动清理；MemoryService负责长期信息，如用户偏好和历史记录。

ADK 2.0版本引入了基于图的工作流定义，并定义了三种核心Agent类型：LlmAgent、WorkflowAgent以及SequentialAgent/ParallelAgent/LoopAgent的组合。支持多语言，内置开发UI，A2A协议支持跨框架通信，可部署到Cloud Run和Vertex AI。

Microsoft Agent Framework：统一编排的企业平台

微软Agent Framework 1.0的定位非常清晰：提供一个统一的SDK和运行时，用于构建、编排和部署AI Agent及多Agent应用。它将Semantic Kernel的企业级基础和AutoGen的创新编排合并为一个框架。

该框架的核心抽象是单Agent抽象和服务连接器、中间件钩子、Agent内存和上下文提供者、基于图的工作流，以及多Agent编排模式。支持包括Azure OpenAI、OpenAI、Anthropic Claude、Amazon Bedrock、Google Gemini、Ollama在内的多个模型提供商。

OpenAI Agents SDK：模型原生Harness + 沙箱执行

OpenAI Agents SDK于2026年4月的最新更新引入了两个关键能力：模型原生Harness和沙箱执行。Harness提供了Agent工作所需的完整基础设施——指令、工具、审批、追踪、交接和状态管理。沙箱让Agent在隔离环境中运行，只允许访问特定任务所需的文件和代码。

SDK支持多个沙箱提供商，也允许开发者自带沙箱。架构上分离了Harness和计算，凭证不进入模型生成代码的执行环境，降低了提示注入和数据泄露风险。

MCP：工具调用的标准化基础设施

Model Context Protocol虽然不是Agent框架，但已成为Agent生态的基础设施层。它提供标准化接口，将Agent编排与能力实现解耦。

MCP的演进经历了重要转折：2024年11月发布后，2025年夏天生态爆发，GitHub上涌现了数以万计的MCP服务器，但企业实践发现，当工具数量从10个增加到1000个时，Agent变得迟钝健忘。2025年12月，Anthropic发布高级工具调用套件，补齐了这个短板。

3.4 竞争格局总结

框架层正在分化。各大厂商的Agent框架基本完成了“1.0/GA”里程碑。路线明显分化：Google ADK主打多语言工程化和记忆管理，微软Agent Framework主打企业级编排和多模型支持，OpenAI Agents SDK主打模型原生Harness和安全沙箱，LangGraph/CrewAI/AutoGen在各自赛道深耕。

协议层正在标准化。MCP已成为工具调用的通用语言，但经历了从“协议残缺”到“高级工具调用补齐”的演进过程。

产品层正在产品化。Manus被Meta收购后推出了桌面版，与开源工具OpenClaw形成正面竞争。Agent正在从云端走向本地设备，从开发者工具走向普通用户产品。

四、横纵交汇洞察

把纵向的四年级别演进和横向的各大门派对比放在一起，看看能得出什么新的判断。

4.1 从“能跑”到“能生产”，2026年的关键转折

纵向看，Agent的发展可以清晰地分为三个阶段：

2023年：实验期。AutoGPT和BabyAGI点燃了可能性，但距离生产环境还很远。关键词是“看，它居然能做到这个”。

2024年：框架繁荣期。LangGraph、CrewAI、AutoGen等框架涌现，各自探索不同的编排范式。关键词是“选择你的哲学”。

2025-2026年：生产化期。各大厂商纷纷推出1.0/GA版本，安全沙箱、持久化工作流、企业级编排、可观测性等生产级特性成为标配。关键词是“它真的能用了吗”。

4.2 MCP的“残缺”与“补齐”

MCP的演进历程是理解Agent行业的关键切口。2024年11月发布时，人们以为工具调用问题即将解决。但企业实践很快暴露问题：当工具从10个增加到1000个时，Agent变得迟钝健忘。直到2025年12月Anthropic发布高级工具调用套件，才从协议层面解决了问题。

这个故事的启示是：Agent的基础设施远比看起来复杂。看似简单的“调用一个工具”背后，涉及上下文管理、语义匹配、参数推断、错误恢复等多个层次的问题。

4.3 核心优势与劣势的历史根源

今天的优势：

• 多模型支持和协议标准化：根源在MCP的发布和演进。
• 生产级可靠性：根源在2025-2026年各大框架的GA化浪潮。
• 企业采纳加速：根源在各大科技巨头的集体入场带来的生态信任。

今天的劣势：

• 框架碎片化：根源在2023-2024年的爆发期，每个团队押注不同哲学。
• Agent仍不可靠：根源在LLM的概率本质，以及工具调用的复杂性。
• 长周期任务的稳定性：多个框架都在攻克这个方向，但尚无公认的完美方案。

4.4 未来推演：三个剧本

剧本一：最可能发生的——“平台三国杀”

未来12-18个月，Agent框架层将形成三大平台阵营：微软Agent Framework（依托Azure和企业生态）、Google ADK（依托GCP和多语言生态）、OpenAI/Anthropic（依托模型优势）。MCP成为连接一切工具的标准协议。

剧本二：最危险的——“模型吞噬框架”

如果未来12个月内底层模型在规划、记忆、工具调用上取得突破性进展，框架层的价值将急剧下降。中间层框架将面临生存危机，除非它们已转型为垂直领域的深度解决方案。

剧本三：最乐观的——“Agent成为操作系统能力”

Agent不再是独立的应用或框架，而是被整合进操作系统。Manus桌面版和OpenClaw已经在向这个方向探索——让Agent直接在用户本地设备上运行，操作文件和应用程序。

4.5 回到“从提问到出结果”

从ReAct论文的“思考→行动”循环，到AutoGPT的自主任务执行，到LangGraph/CrewAI的多Agent协作，到MCP的工具调用标准化，再到Manus/OpenClaw的端到端产品——AI Agent“从提问到出结果”的路径越来越清晰。

2026年4月，这条路径已经走完了从0到1的阶段，正在经历从1到100的规模化过程。各厂商的GA版本、生产级特性、安全沙箱、持久化工作流——都在回答同一个问题：如何让Agent从“偶尔能成”变成“每次都可靠”。

五、信息来源

1. Yao et al. (2022).ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629
2. AutoGPT GitHub Repository. https://github.com/Significant-Gravitas/AutoGPT
3. BabyAGI GitHub Repository. https://github.com/yoheinakajima/babyagi
4. MetaGPT GitHub Repository & Paper. https://github.com/geekan/MetaGPT
5. LangGraph Documentation. https://langchain-ai.github.io/langgraph/
6. CrewAI Documentation. https://docs.crewai.com/
7. AutoGen GitHub Repository. https://github.com/microsoft/autogen
8. Microsoft Ships Production-Ready Agent Framework 1.0. Visual Studio Magazine, 2026-04-06
9. Google Agent Development Kit (ADK) Documentation. https://google.github.io/adk-docs/
10. Google ADK深度解析. CSDN, 2026-04-16
11. How to Build Production-Ready AI Agents with Long-Term Memory Using Google ADK and Milvus. Milvus Blog, 2026-02-26
12. OpenAI Upgrades Its Agents SDK With Sandboxing. DevOps.com, 2026-04-17
13. OpenAI Agents SDK Gets Sandbox Execution. Blockchain.news, 2026-04-18
14. Claude Managed Agents公测发布. Blockchain.news, 2026-04-08
15. Claude AI Agent Skills: The Architecture Turning Claude Into an Enterprise Operating Layer. LUNARTECH, 2026-03-08
16. Anthropic出手，补齐Agent当下的短板. 腾讯新闻, 2026-01-16
17. Standardizing Agent Connectivity with Model Context Protocol (MCP). dev.to, 2026-04-17
18. From Mind to Machine: The Rise of Manus AI. arXiv:2505.02024, 2026-03-19
19. Meta's Manus AI agent arrives on your desktop. The Next Web, 2026-03-18
20. Manus 1.6 launch expands capabilities. KrASIA, 2025-12-19
21. NVIDIA Expands Enterprise AI Push with OpenShell and Agent Software. ADTmag, 2026-03-18
22. General Availability of Dapr Agents Delivers Production Reliability. TMCnet, 2026-03-23
23. 从最顶级的30个AI Agent产品里，看懂了这三个趋势. 36氪
24. 从Manus到OpenClaw到Hermes：超级Agent在进化. CSDN, 2026-04-15