Manus、OpenClaw、Hermes 一路爆火,Agent 到底是什么?-夜雨聆风

Manus、OpenClaw、Hermes 一路爆火,Agent 到底是什么?

AI训练营10期，6月底开班，欢迎咨询

导读：上周去某大学做了一场关于 Agent 的分享，另外比较惊讶的是：大家对于 Agent 是什么是比较陌生的！

另一方面，我也比较惊异于自己居然无法站在小白的角度描述什么是 Agent！所以有些必要的科普还是得捡起来啊：

由此，有了几天这篇 Agent 概述类文章，软硬适中：

研究这么久的 Agent，今天来聊聊我对 Agent 的理解，这里准备说点真话、实话、系统性的话，有兴趣同学可以移步订阅下：

《1/20-第 01 篇 · Agent 的定义与环境搭建》

不知道大家是什么时候开始接触 Agent，我们作为 AI 行业的一线参与者/开发者，最早接触 Agent的应该是 cursor、windsurf 这类 AI 编程工具，当时我们用它写代码，修 bug，输出接口文档等等。

其实当时我根本不知道它们是 Agent，我们只是把它当成了一个开发工具，我相信行业很多人都是同样认知，直到拐点事件爆发：

2025年3月，Manus AI 在 YouTube 发布了公开视频《Introducing Manus: The General AI Agent》，视频中给出的一些案例简历分析，股票分析，房产分析，云端执行。

这些案例看起来让人兴奋，市场情绪也被点燃，为了抢先体验manus，本来免费的邀请码，一度炒到上万元的价格！

当时我们做的AI应用还只是一般的知识问答、意图识别，文本分类等，复杂一点的再加上一个 RAG。

Manus 的发布，让我们看到了原来 AI 还可以完全自主运行，完成任务，同时也让 Agent 这个词进入大众的视野，More Context Less Control 的 ReAct 范式逐步为大家所接受：

什么是 Agent

其实在 Manus 之前就已经有很多类似产品了，比如：

2022 年的论文《ReAct: Synergizing Reasoning and Acting in Language Models》；
然后早期、又出圈的 Agent 的话是 2023 年 3 月的开源项目 Auto-GPT；

但国内的话，还是 Manus 的发布给我们打开了 AI 应用新的视野。

于是我们团队开始马不停蹄的研究如何实现一个 Manus，经过我们研究和讨论发现，Manus 实现起来好像不难？

我们可以预先定义一些工具函数，让模型再做推理的时候选择一个工具，应用层负责执行工具把结果回传给模型，让模型继续推理，直到问题解决：

如果让我们给 Agent 下一个定义，我想可以这么说：

Agent 是一个能够自主感知环境，做出决策，调用工具并执行任务，最终完成目标的任务执行系统

这句话里面的每一个词都很重要（只不过现阶段的要点逐渐变成了构造环境了Harness）：

自主：Agent不需要人一步一步的指示，它会根据任务目标自动做决策
感知：意味 Agent可以和外部环境通信，可以观察外部环境
工具：这个是Agent能够做事的前提，它有什么样的工具，就有了什么样的能力
目标：Agent需要围绕用户任务目标而存在，不是在哪里瞎聊天

我们再来看看普通的聊天机器人和 Agent 有什么区别，以 deepseek 来举例，在官网网站提供的聊天框里面输入：

帮我整理一下上个月的销售数据，按区域分析一下增长率，做成PPT

Deepseek 会给出一个文本的回答

我没办法直接帮你整理数据或生成PPT文件但我可以教你一步步整理数据、计算增长率、提炼分析结论并给你PPT的结构和内容建议。你需要先提供以下信息......

基座模型更像是一个百科全书，什么都知道，你问它什么，它就回答你什么。

而Agent，我们可以把它比喻成一个数字员工，你给它一个任务，它会自己拆解任务，自己想办法完成任务，比如上面的问题，它会去打开 excel，查看数据，自己写公式计算增长率，自己做 ppt…

中途它可能回来找你确认一些事情，销售数据的 excel 在哪里，PPT 你喜欢什么风格等等。

这就是 Agent 和 ChatBot 的区别，ChatBot 是被动的对话伙伴，你问一句它回一句，Agent 是主动的任务执行者：

Agent 由什么组成的

如果把一个 Agent 拆开来看，我们可以发现 Agent 其实由几个核心模块组成：

大模型：提供基础的语言理解和生成能力，负责处理输入信息并输出推理结果
角色与人格：定义Agent的应答风格，身份和行为约束，让输出符合预期场景
记忆：包括短期记忆和长期记忆，用于跟踪任务进度和提供个性化响应
工具：外部功能的接口和函数
规划：将复杂任务分解为可执行的子步骤，用于处理多不推理和流程化的任务
循环：控制Agent反复执行的过程，包含思考，工具执行，观察结果等直到任务完成

这些模块共同构成了 Agent 从接收输入到输出结果的完整流程，下面我们对这些核心模块逐一说明：

大模型

Agent的中枢神经，毫无疑问是大语言模型，无论是GPT、Claude、Gemini，还是国内的DeepSeek、通义千问等，它们在Agent中扮演的都是大脑的角色。

这里有一个很关键的点，很多人把大模型理解成了Agent，这里需要明确一下，大模型不是Agent，它是Agent的一部分，大模型它能思考，它是一个百科全书，知道很多事情，但是无法对外部世界产生任何影响。

大模型在Agent中负责三件事情，

理解：理解用户的指令、外部环境信息
推理：这件事情要怎么做，下一步需要做什么
生成：输出文字，代码，工具调用的指令

我们可以理解成大模型是整个Agent系统的指挥官，但是他不会自己做任何事情

角色与人格

你有想过这个问题吗，都是基于Deepseek模型，我们可以开发出不同的Agent产品，有的Agent用来写代码，有的Agent 做客服，有的Agent当陪聊。

它们最核心的区别就是 System Prompt（系统提示词）

我们可以把System Prompt 当做的Agent的出厂基本配置，它会告诉大模型:

你现在是一个资深的Python工程师你需要保持耐心，永远不要和用户说脏话遇到不会的问题，你应该回答用户 不确定，而不是编造答案

这个设定，决定了Agent的人格，做事风格，能力边界，一个好的 System Prompt，能让同一个底层模型，演变成无数个不同的Agent。

记忆

人们能够高效的完成工作，很大程度上是因为我们拥有记忆，今天的我，记得昨天发生的事情，也记得三年前的承诺，记得童年的味道，这些记忆塑造我们的判断和决策，甚至我们的个性。

Agent也需要记忆，因为大模型是健忘的（无状态），它没有任何持久化的记忆，每一次对话都是一次重新的开始，所以Agent需要一套记忆系统。每次新对话就把对应的记忆一起发送给大模型

我们通常把记忆分为2层

短期记忆对应当前对话或任务执行期间的上下文窗口，用于跟踪当前任务步骤，历史变量，中间推理结果等，一旦对话结束短期记忆通常会被清空
长期记忆把重要的信息保存下来，跨对话、跨任务复用，比如用户偏好，项目的关键决策，失败教训等等

实现长期记忆的方式也是五花八门的

向量数据库做语义检索（如 Chroma、Pinecone）适合存储原文，模糊匹配，能根据语义相似度召回的相关记忆
知识图谱做结构化存储：将记忆表示为实体和关系，能够沿着关系链条一步步查找信息，能够支持精确推理和多跳查询
直接写到文件里面
摘要式记忆：每次交互后让模型自动生成一段简短摘要，只保存要点，节省存储空间，也方便直接放进对话里。

这些方式并不是单独存在，一般都是混合使用。

Agent的记忆设计目前是做活跃的研究方向之一，是因为它从根本上决定了Agent能否实现成长，从经验中持续学习和改进，同时也决定了Agent能否保持行为的一致性、完成跨长时间尺度的复杂任务，以及在与环境或用户的反复交互中真正沉淀出个性化的智能。

工具

我们常常听到一个比喻，就是大模型是Agent的大脑，工具就是Agent的手脚，没有工具的Agent，就是一个Chatbox。

工具的本质，是一组Agent可以调用的函数，每一个工具有名称，描述，参数，有返回值。Agent在思考过程中，会根据工具的名称和描述来选择合适的工具来帮助完成用户的任务。

常见的工具大致可以分为以下几类:

信息获取类：网页搜索、API查询、数据库读取
文件操作类：读文件、写文件、列目录
代码执行类：运行Python、执行SQL、调用Shell
通信类：发邮件、发消息、打电话
专业领域类：调用医疗诊断API、调用财务分析模型

工具的丰富程度，直接决定了Agent的能力边界，如果只有一个搜索工具的Agent，那么Agent还是一个百科全书，只能回答问题。而一个能读写文件，操作浏览器的Agent，就具备实际动手能力，可以自动完成任务。

规划

复杂任务不是一蹴而就的。如果你让Agent 去分析公司去年的财务报表，并给出改进的建议。它不能直接就给你答案，

他需要拆解任务，先要获取财务数据，做关键指标计算，再做同比环比分析，找出问题，再给出建议，最后整理成报告

这种把大任务拆成小步骤，理清先后顺序的能力，我们加它称为规划（Planning），业界探索了很多规划方法，我们把它分为3类

React （Reasoning + Acting）让模型在每一步都先思考再行动，思考和执行交替执行。
Plan-and-Solve 模型先把整个计划写出来，然后再逐步执行
Tree of Thoughts 让模型像下棋一样，同时推演多个可能得路径

每一种方法都各有优劣，也可以把不同的方式组合起来使用，比如可以先用Plan-and-Solve把步骤都先写出来，然后每一步都使用React来进行。核心思想就是：让Agent在行动之前先思考

循环

上面我们讲了Agent的大脑，工具，记忆，规划能力，现在还差最后一步，让它们联动起来，这就是我们常说的感知，思考，行动循环，我们也称它为Agent Loop。

Agent Loop 的循环处理流程是这样的：

1、接收用户输入2、大模型思考，要完成用户的任务要怎么做，调用工具，还是直接回答用户？3、如果大模型决定调用工具，Agent就执行模型返回的工具，把工具结果作为添加到模型的消息数据里面，回到第2步 再次让模型判断4、如果大模型决定输出最终答案，就结束

这个循环可能执行5次就结束了，也有可能会跑500次。它的终止条件可能是任务正常完成，也可能是达到了Agent设置的步数上限，或者Agent自己决定放弃不再执行。

Agent Loop把前面讲将的模型，工具，记忆能力都串联起来，在一个循环中，大模型负责思考推理，决定下一步做什么，如果需要调用工具，则执行工具，将工具结果或者模型的推理输出保存为记忆。

这个看似简单的循环，让Agent从一个回答的工具，变成了一个能持续工作的数字员工。

Agent能干什么

前面我们聊了Agent的实现原理，那么今天，Agent到底能帮我们做些什么呢？

编程Agent

如果要让我们选一个Agent最成熟的应用领域，我觉得毫无疑问就是编程Agent。

Claude Code、Cursor 、CodeX、Trae等工具，从最初的代码补全，逐步发展成能完整完成功能开发的Agent，你只需要给它一个需求，比如:”帮我写一个登录界面，要支持短信验证码登录”，它就会自己读取完整的项目目录，分析技术路径，设计接口，然后写代码，跑测试，自己修改bug。

为什么编程领域的Agent会最先落地

编程任务有大量的高质量训练数据，github上几十亿行代码，给模型提供了足够的学习素材
编程任务有非常清晰的反馈信号，代码能不能跑通，有没有语法错误，测试是否通过，模型自己就可以判断。
程序员天生爱偷懒，自己就会想方设法的搞工具来提高开发效率，只要能完成大部分体力工作，能节省时间，即便部分有错误，他们也愿意接受。
很容易搜集反馈数据，比如接受/拒绝代码，可以反补模型训练

研究助手

模型擅长阅读海量文档、总结要点、生成综述，因此天然适合充当研究助手。无论是文献调研、数据整理，还是竞品分析，Agent都能在几分钟内完成人类数小时的工作。

客服与运营

客服和运营，这类自动化流程，才是Agent商业化最大的战场，智能客服，电商的售前和售后，企业内部工作台，工单系统等。

这些场景过去大量依赖员工，后面大部分的工作都会被Agent接管，这个是真正发生的事情，很多企业都在内部提效，大量使用Agent来提高工作效率。将内部业务系统与Agent打通后，Agent就可以查订单，改地址，发优惠券，审核套餐等。

个人助理

普通人可能更加在乎的是一个个人助理Agent，那种你脑海里想象的，电影里面见过的，帮助你订机票，安排日程，提醒你别忘了女朋友生日的全能助理，就像前段时间爆火的openclaw，目前这种Agent还没有一个真正成熟的产品，但我相信不久的将来它一定会出现：

这个个人Agent我觉得是最难的，如果要表现很亮眼，它需要打通的工具太多了，你的邮箱，日历，微信，支付宝，以及其他各种你经常使用的App，目前这些都没有对应的工具体系，账号和数据都是不通的，虽然技术上可以实现，但是厂商的壁垒挺高的。

未来的 Agent

从文字到全能感知

今天我们说的Agent 大部分都是处理文字的输入和输出，但是人类的工作不都是文字处理，比如医生看片子，设计师看图纸，老师要观察学生的表情

未来的Agent，应该同时具备视觉，听觉，操作图形界面的能力，就像Codex的Computer Use一样，它能看懂屏幕，听懂你的话，操作鼠标完成目标任务。

长任务

目前Agent能够很好处理短期任务，几分钟，几十分钟这种，我们更加希望Agent能够在几小时，几天，几周这种长时间的项目里面，能够很稳的完成任务，这个是Agent接下来较大的技术挑战，它涉及到记忆管理，长程规划，错误回复，信息压缩，人与Agent协作等一系列的难题。

Agent经济的兴起

我个人认为最大的变化，会是Agent经济的形成

我们可以想象一下，人人都拥有一个自己的个人助手Agent。

我们不再需要下载各种App，而是订阅Agent，我们个人的Agent会代替我们跟其他Agent打交道，订机票时，我的Agent会自动跟飞猪的Agent、携程的Agent比价，找到最优方案，人工确认后，它就去下单，并拿到订单编号，再调用支付宝的Agent完成支付。

Agent之间通过统一的协议沟通，按调用次数或效果来收费（具体模式有待探索）。

这可能会重构今天的互联网格局，今天的搜索，广告，电商，saas，都建立在人类使用的基础上，如果未来主要的用户是Agent的话，它们又会迎来什么样的变化呢

挑战和隐忧

Agent确实很好，它帮我完成任务，减轻我们的工作负担，但他同时也带来了一些问题

可靠性：目前Agent的成功率不够稳定，一个号称95%稳定的可靠的Agent，相当于每20步就有可能出错，这对于金融交易，医疗诊断，工业控制场景，这样的错误率是不能接受的
安全性：一个能自主调用工具，执行操作Agent。如果被恶意利用，或者目标偏离，造成的伤害是不可忽视的
就业冲击：Agent最先取代的是哪些重复高，流程化强的信息工作者，客服，程序员，行政，文案等岗位都会收到明显的影响。
信任和责任：这个是法律层面的问题，Agent帮你完成一笔错误的投资，谁来负责，Agent发了一封不当的邮件，谁来负责。

结语

最后总结一下，什么是 Agent？

我觉得 Agent 是人类智能的延伸，它不是来取代我们，而是扩展和放大我们的能力，让普通人也能做专家才能做的事情，让创意的瓶颈不再是执行力，而是想象力。

Agent 是一个与我们协作、共生的智能伙伴。我们不需要害怕它，而是要学会驾驭它、定义它、塑造它。