乐于分享
好东西不私藏

Manus、OpenClaw、Hermes 一路爆火,Agent 到底是什么?

Manus、OpenClaw、Hermes 一路爆火,Agent 到底是什么?

AI训练营10期6月底开班,欢迎咨询

导读:上周去某大学做了一场关于 Agent 的分享,另外比较惊讶的是:大家对于 Agent 是什么是比较陌生的!

另一方面,我也比较惊异于自己居然无法站在小白的角度描述什么是 Agent!所以有些必要的科普还是得捡起来啊:

由此,有了几天这篇 Agent 概述类文章,软硬适中:

研究这么久的 Agent,今天来聊聊我对 Agent 的理解,这里准备说点真话、实话、系统性的话,有兴趣同学可以移步订阅下:

《1/20-第 01 篇 · Agent 的定义与环境搭建》

不知道大家是什么时候开始接触 Agent,我们作为 AI 行业的一线参与者/开发者,最早接触 Agent的 应该是 cursor、windsurf 这类 AI 编程工具,当时我们用它写代码,修 bug,输出接口文档等等。

其实当时我根本不知道它们是 Agent,我们只是把它当成了一个开发工具,我相信行业很多人都是同样认知,直到拐点事件爆发:

2025年3月,Manus AI 在 YouTube 发布了公开视频《Introducing Manus: The General AI Agent》,视频中给出的一些案例简历分析,股票分析,房产分析,云端执行。

这些案例看起来让人兴奋,市场情绪也被点燃,为了抢先体验manus,本来免费的邀请码,一度炒到上万元的价格!

当时我们做的AI应用  还只是一般的知识问答、意图识别,文本分类等,复杂一点的再加上一个 RAG。

Manus 的发布,让我们看到了原来 AI 还可以完全自主运行,完成任务,同时也让 Agent 这个词进入大众的视野,More Context Less Control 的 ReAct 范式逐步为大家所接受:

什么是 Agent

其实在 Manus 之前就已经有很多类似产品了,比如:

  1. 2022 年的论文《ReAct: Synergizing Reasoning and Acting in Language Models》;
  2. 然后早期、又出圈的 Agent 的话是 2023 年 3 月的开源项目 Auto-GPT;

但国内的话,还是 Manus 的发布给我们打开了 AI 应用新的视野。

于是我们团队开始马不停蹄的研究如何实现一个 Manus,经过我们研究和讨论发现,Manus 实现起来好像不难

我们可以预先定义一些工具函数,让模型再做推理的时候选择一个工具,应用层负责执行工具把结果回传给模型,让模型继续推理,直到问题解决:

如果让我们给 Agent 下一个定义,我想可以这么说:

Agent 是一个能够自主感知环境,做出决策,调用工具并执行任务,最终完成目标的任务执行系统

这句话里面的每一个词都很重要(只不过现阶段的要点逐渐变成了构造环境了Harness):

  • 自主:Agent不需要人一步一步的指示,它会根据任务目标自动做决策
  • 感知:意味 Agent可以和外部环境通信,可以观察外部环境
  • 工具:这个是Agent能够做事的前提,它有什么样的工具,就有了什么样的能力
  • 目标:Agent需要围绕用户任务目标而存在,不是在哪里瞎聊天

我们再来看看普通的聊天机器人和 Agent 有什么区别,以 deepseek 来举例 ,在官网网站提供的聊天框里面输入:

帮我整理一下上个月的销售数据,按区域分析一下增长率,做成PPT

Deepseek 会给出一个文本的回答

我没办法直接帮你整理数据或生成PPT文件但我可以教你一步步整理数据、计算增长率、提炼分析结论并给你PPT的结构和内容建议。你需要先提供以下信息......

基座模型更像是一个百科全书,什么都知道,你问它什么,它就回答你什么。

而Agent,我们可以把它比喻成一个数字员工,你给它一个任务,它会自己拆解任务,自己想办法完成任务,比如上面的问题,它会去打开 excel,查看数据,自己写公式 计算增长率,自己做 ppt…

中途它可能回来找你确认一些事情,销售数据的 excel 在哪里,PPT 你喜欢什么风格等等。

这就是 Agent 和 ChatBot 的区别,ChatBot 是被动的对话伙伴,你问一句它回一句,Agent 是主动的任务执行者:

Agent 由什么组成的

如果把一个 Agent 拆开来看,我们可以发现 Agent 其实由几个核心模块组成:

  • 大模型:提供基础的语言理解和生成能力,负责处理输入信息并输出推理结果

  • 角色与人格:定义Agent的应答风格,身份和行为约束,让输出符合预期场景

  • 记忆:包括短期记忆和长期记忆,用于跟踪任务进度和提供个性化响应

  • 工具:外部功能的接口和函数

  • 规划:将复杂任务分解为可执行的子步骤,用于处理多不推理和流程化的任务

  • 循环:控制Agent反复执行的过程,包含思考,工具执行,观察结果等直到任务完成

这些模块共同构成了 Agent 从接收输入到输出结果的完整流程,下面我们对这些核心模块逐一说明:

大模型

Agent的中枢神经,毫无疑问是大语言模型,无论是GPT、Claude、Gemini,还是国内的DeepSeek、通义千问等,它们在Agent中扮演的都是大脑的角色。

这里有一个很关键的点,很多人把大模型理解成了Agent,这里需要明确一下,大模型不是Agent,它是Agent的一部分,大模型它能思考,它是一个百科全书,知道很多事情,但是无法对外部世界产生任何影响。

大模型在Agent中负责三件事情,

  • 理解:理解用户的指令、外部环境信息

  • 推理:这件事情要怎么做,下一步需要做什么

  • 生成:输出文字,代码,工具调用的指令

我们可以理解成大模型是整个Agent系统的指挥官,但是他不会自己做任何事情

角色与人格

你有想过这个问题吗,都是基于Deepseek模型,我们可以开发出不同的Agent产品,有的Agent用来写代码,有的Agent 做客服,有的Agent当陪聊。

它们最核心的区别就是 System Prompt(系统提示词)

我们可以把System Prompt 当做的Agent的出厂基本配置,它会告诉大模型:

你现在是一个资深的Python工程师你需要保持耐心,永远不要和用户说脏话遇到不会的问题,你应该回答用户 不确定,而不是编造答案

这个设定,决定了Agent的人格,做事风格,能力边界,一个好的 System Prompt,能让同一个底层模型,演变成无数个不同的Agent。

记忆

人们能够高效的完成工作,很大程度上 是因为我们拥有记忆,今天的我,记得昨天发生的事情,也记得三年前的承诺,记得童年的味道,这些记忆塑造我们的判断和决策,甚至我们的个性。

Agent也需要记忆,因为大模型是健忘的(无状态),它没有任何持久化的记忆,每一次对话都是一次重新的开始,所以Agent需要一套记忆系统。每次新对话就把对应的记忆一起发送给大模型

我们通常把记忆分为2层

  • 短期记忆 对应当前对话或任务执行期间的上下文窗口,用于跟踪当前任务步骤,历史变量,中间推理结果等,一旦对话结束短期记忆通常会被清空

  • 长期记忆 把重要的信息保存下来,跨对话、跨任务复用,比如用户偏好,项目的关键决策,失败教训等等

实现长期记忆的方式也是五花八门的

  • 向量数据库做语义检索(如 Chroma、Pinecone)适合存储原文,模糊匹配,能根据语义相似度召回的相关记忆

  • 知识图谱做结构化存储:将记忆表示为实体和关系,能够沿着关系链条一步步查找信息,能够支持精确推理和多跳查询

  • 直接写到文件里面

  • 摘要式记忆:每次交互后让模型自动生成一段简短摘要,只保存要点,节省存储空间,也方便直接放进对话里。

这些方式并不是单独存在,一般都是混合使用。

Agent的记忆设计目前是做活跃的研究方向之一,是因为它从根本上决定了Agent能否实现成长,从经验中持续学习和改进,同时也决定了Agent能否保持行为的一致性、完成跨长时间尺度的复杂任务,以及在与环境或用户的反复交互中真正沉淀出个性化的智能。

工具

我们常常听到一个比喻,就是大模型是Agent的大脑,工具就是Agent的手脚,没有工具的Agent,就是一个Chatbox。

工具的本质,是一组Agent可以调用的函数,每一个工具有名称,描述,参数,有返回值。Agent在思考过程中,会根据工具的名称和描述来选择合适的工具来帮助完成用户的任务。

常见的工具大致可以分为以下几类:

  • 信息获取类:网页搜索、API查询、数据库读取

  • 文件操作类:读文件、写文件、列目录

  • 代码执行类:运行Python、执行SQL、调用Shell

  • 通信类:发邮件、发消息、打电话

  • 专业领域类:调用医疗诊断API、调用财务分析模型

工具的丰富程度,直接决定了Agent的能力边界,如果只有一个搜索工具的Agent,那么Agent还是一个百科全书,只能回答问题。而一个能读写文件,操作浏览器的Agent,就具备实际动手能力,可以自动完成任务。

规划

复杂任务不是一蹴而就的。如果你让Agent 去分析 公司去年的财务报表,并给出改进的建议。它不能直接就给你答案,

他需要拆解任务,先要获取财务数据,做关键指标计算,再做同比环比分析,找出问题,再给出建议,最后整理成报告

这种把大任务拆成小步骤,理清先后顺序的能力,我们加它称为规划(Planning),业界探索了很多规划方法,我们把它分为3类

  • React (Reasoning + Acting)让模型在每一步都先思考再行动,思考和执行交替执行。

  • Plan-and-Solve 模型先把整个计划写出来,然后再逐步执行

  • Tree of Thoughts 让模型像下棋一样,同时推演多个可能得路径

每一种方法都各有优劣,也可以把不同的方式组合起来使用,比如 可以先用Plan-and-Solve把步骤都先写出来,然后每一步 都使用React来进行。 核心思想 就是:让Agent在行动之前先思考

循环

上面我们讲了Agent的 大脑,工具,记忆,规划能力,现在还差最后一步,让它们联动起来,这就是我们常说的感知,思考,行动循环,我们也称它为Agent Loop。

Agent Loop 的循环处理流程是这样的:

1、接收用户输入2、大模型思考,要完成用户的任务要怎么做,调用工具,还是直接回答用户?3、如果大模型决定调用工具,Agent就执行模型返回的工具,把工具结果作为添加到模型的消息数据里面,回到第2步 再次让模型判断4、如果大模型决定输出最终答案,就结束

这个循环可能执行5次就结束了,也有可能会跑500次。它的终止条件可能是任务正常完成,也可能是达到了Agent设置的步数上限,或者Agent自己决定放弃不再执行。

Agent Loop把前面讲将的模型,工具,记忆能力都串联起来,在一个循环中,大模型负责思考推理,决定下一步做什么,如果需要调用工具,则执行工具,将工具结果或者模型的推理输出保存为记忆。

这个看似简单的循环,让Agent从一个回答的工具,变成了一个能持续工作的数字员工。

Agent能干什么

前面我们聊了Agent的实现原理,那么今天,Agent到底能帮我们做些什么呢?

编程Agent

如果要让我们选一个Agent最成熟的应用领域,我觉得毫无疑问就是编程Agent。

Claude Code、Cursor 、CodeX、Trae等工具,从最初的代码补全,逐步发展成能完整完成功能开发的Agent,你只需要给它一个需求,比如:”帮我写一个登录界面,要支持短信验证码登录”,它就会自己读取完整的项目目录,分析技术路径,设计接口,然后写代码,跑测试,自己修改bug。

为什么编程领域的Agent会最先落地

  • 编程任务有大量的高质量训练数据,github上几十亿行代码,给模型提供了足够的学习素材

  • 编程任务有非常清晰的反馈信号,代码能不能跑通,有没有语法错误,测试是否通过,模型自己就可以判断。

  • 程序员天生爱偷懒,自己就会想方设法的搞工具来提高开发效率,只要能完成大部分体力工作,能节省时间,即便部分有错误,他们也愿意接受。

  • 很容易搜集反馈数据,比如接受/拒绝代码,可以反补模型训练

研究助手

模型擅长阅读海量文档、总结要点、生成综述,因此天然适合充当研究助手。无论是文献调研、数据整理,还是竞品分析,Agent都能在几分钟内完成人类数小时的工作。

客服与运营

客服和运营,这类自动化流程,才是Agent商业化最大的战场,智能客服,电商的售前和售后,企业内部工作台,工单系统等。

这些场景过去大量依赖员工,后面大部分的工作 都会被Agent接管,这个是真正发生的事情,很多企业都在内部提效,大量使用Agent来提高工作效率。将内部业务系统与Agent打通后,Agent就可以查订单,改地址,发优惠券,审核套餐等。

个人助理

普通人可能更加在乎的是一个个人助理Agent,那种你脑海里想象的,电影里面见过的,帮助你订机票,安排日程,提醒你别忘了 女朋友生日的全能助理,就像前段时间爆火的openclaw,目前这种Agent还没有一个真正成熟的产品,但我相信不久的将来它一定会出现:

这个个人Agent我觉得是最难的,如果要表现很亮眼,它需要打通的工具太多了,你的邮箱,日历,微信,支付宝,以及其他各种你经常使用的App,目前这些都没有对应的工具体系,账号和数据都是不通的,虽然技术上可以实现,但是厂商的壁垒挺高的。

未来的 Agent

从文字到全能感知

今天我们说的Agent 大部分都是处理文字的输入和输出,但是人类的工作不都是文字处理,比如 医生看片子,设计师看图纸,老师要观察学生的表情

未来的Agent,应该同时具备视觉,听觉,操作图形界面的能力,就像Codex的Computer Use一样,它能看懂屏幕,听懂你的话,操作鼠标完成目标任务。

长任务

目前Agent能够很好处理短期任务,几分钟,几十分钟这种,我们更加希望Agent能够在几小时,几天,几周这种长时间的项目里面,能够很稳的完成任务,这个是Agent接下来较大的技术挑战,它涉及到记忆管理,长程规划,错误回复,信息压缩,人与Agent协作等一系列的难题。

Agent经济的兴起

我个人认为最大的变化,会是Agent经济的形成

我们可以想象一下,人人都拥有一个自己的个人助手Agent。

我们不再需要下载各种App,而是订阅Agent,我们个人的Agent会代替我们跟其他Agent打交道,订机票时,我的Agent会自动跟飞猪的Agent、携程的Agent比价,找到最优方案,人工确认后,它就去下单,并拿到订单编号,再调用支付宝的Agent完成支付。

Agent之间通过统一的协议沟通,按调用次数或效果来收费(具体模式有待探索)。

这可能会重构今天的互联网格局,今天的搜索,广告,电商,saas,都建立在人类使用的基础上,如果未来主要的用户是Agent的话,它们又会迎来什么样的变化呢

挑战和隐忧

Agent确实很好,它帮我完成任务,减轻我们的工作负担,但他同时也带来了一些问题

  • 可靠性:目前Agent的成功率不够稳定,一个号称95%稳定的可靠的Agent,相当于每20步就有可能出错,这对于金融交易,医疗诊断,工业控制场景,这样的错误率是不能接受的

  • 安全性:一个能自主调用工具,执行操作Agent。如果被恶意利用,或者目标偏离,造成的伤害是不可忽视的

  • 就业冲击:Agent最先取代的是 哪些重复高,流程化强的信息工作者,客服,程序员,行政,文案等岗位都会收到明显的影响。

  • 信任和责任:这个是法律层面的问题,Agent帮你完成一笔错误的投资,谁来负责,Agent发了一封不当的邮件,谁来负责。

结语

最后总结一下,什么是 Agent?

我觉得 Agent 是人类智能的延伸,它不是来取代我们,而是扩展和放大我们的能力,让普通人也能做专家才能做的事情,让创意的瓶颈不再是执行力,而是想象力。

Agent 是一个与我们协作、共生的智能伙伴。我们不需要害怕它,而是要学会驾驭它、定义它、塑造它。