事情是这样的。
前两天我在搞一个项目,需要AI Agent帮我做一件,说复杂也复杂、说简单也简单的事,给一家公司写一份舆情分析报告。
我当时脑子一热,想搞个大的。
我的计划是,让一个Agent专门负责搜集信息,一个Agent专门负责分析情绪倾向,一个Agent专门负责写报告,最后再来一个Agent负责审稿。四个Agent,各司其职,流水线作业。
听起来是不是很高级?
搞了大半天,结果呢,负责搜信息的Agent搜了一大堆,负责分析的Agent拿到这堆东西说「这跟我有什么关系」,负责写报告的Agent写出来的东西前言不搭后语,因为它根本不知道前面两个Agent经历了什么。最后那个审稿的Agent更离谱,它没有任何上下文,审了个寂寞。
四个Agent之间传话传到面目全非,光协调就比干活花的时间长。
我最后怎么解决的?把四个Agent全撤了,就用一个。一个Agent从头到尾搞定,因为它自己搜的信息自己最清楚,自己分析的结论自己最理解,写出来的报告浑然一体。
效果好了不止一倍,token消耗还少了五六倍。
这件事给了我一个特别深的教训,也是我今天想聊的。
在AI这个圈子里,有一个特别火的概念叫「智能体」,英文叫Agent。更火的是另一个概念,叫「多智能体」,Multi-Agent。听着就很赛博朋克,很未来。但坦率的讲,大多数时候,你根本不需要多智能体。一个就够了。
不过在聊什么时候该用一个、什么时候该用多个之前,我得先跟你说清楚,智能体到底是个什么东西。
很多朋友可能觉得,智能体就是ChatGPT换了个名字。
不是的。
你平时跟ChatGPT或者Claude聊天,你问一句它答一句,这叫对话。它是被动的,你不问它就不动。
智能体不一样。
它能自己想、自己做、自己判断下一步干什么。

你想想看,普通的Agent聊天就像你问一个朋友「这个菜怎么做」,他告诉你步骤,但他不会真的去厨房帮你做。
智能体呢,你跟它说「帮我做一道番茄炒蛋」,它自己会去开冰箱看看有没有鸡蛋、有没有番茄,没有的话它会去下单买,买回来自己打蛋、切番茄、开火炒,最后端到你面前。
也就是说,智能体 = AI + 自主行动力 + 使用工具的能力。
它能上网搜东西,能读文件,能写代码,能调用各种软件,能自己规划步骤然后一步步执行。你给它一个目标,它自己想办法达成。
这就是为什么智能体这么火。因为它从「能聊天」进化到了「能干活」。
好,理解了智能体是什么之后,回到我们今天的核心问题。
一个智能体能干的活,到底有多少?
答案是,比你想象的多得多。
我自己踩过最大的坑就是前面说的那个,明明一个Agent就能搞定的事,非要拆成好几个。拆完之后,每多一个Agent就多一个出错的可能,多一套需要维护的指令,多一层传话的损耗。
打个比方。你搬家,请了一个经验丰富的搬家师傅,他一个人打包、搬运、摆放,效率贼高。但如果你同时请了5个人,他们站在那互相问「这箱子放哪」「那个柜子谁搬」「客厅的东西是不是应该最后搬」,光协调就浪费半天。

多智能体的开销是真实存在的。每多一个智能体,就要多一份重复的上下文信息,多一轮协调通信,多一次结果汇总。根据我自己的经验和Anthropic官方的数据,多智能体系统通常要消耗3到10倍的token,也就是3到10倍的成本。
所以我的原则是,能一个搞定的,绝不拆成两个。
那什么时候一个真的不够用了呢?
我自己实操下来,就三种情况。
第一种,脑子里装太多不相干的东西,Agent就犯糊涂了。
这个我太有体感了。
我身边有个朋友,搞跨境独立站的,前段时间跟风搞了一套Agent客服系统。
结果搞出来的东西,笨得可以,前言不搭后语,有时候回答跟问题驴唇不对马嘴。
他找了个懂行的朋友帮忙看,对方翻了十几个Agent跟客户的聊天日志,发现了一个挺有意思的案例。
一个客户问,我的快递一直显示在途,是不是发错地址了?
听着是个挺简单的问题对吧,查一下地址、查一下物流状态,回答就出来了。
但Agent干的事情是,先把这个客户的全部订单历史拉出来,近三年的购买记录,退换货记录,每一笔的商品详情、物流单号、收货地址,全塞进自己的「脑子」里。
然后它才开始回答那个关于快递的问题。
你想想看,这就好比你去问一个客服,我的快递到哪了,然后这个客服先把你的档案翻了个底朝天,把你三年买过的所有东西都记在脑子里,再来回答你。
档案一多,他自己都绕进去了。
这就是问题所在,不是Agent不够聪明,是它的脑子被塞满了不该在的东西。

这个现象有个专业名字,叫「上下文污染」。Agent的注意力是有限的,塞进去的无关信息越多,它对真正重要的事情的判断力就越差。
怎么解决?
派一个「小助手Agent」专门去查订单,查完之后只带回来一句话,12345号订单,已发货,3月15日下单,现在在途。
就这些,够了。
「小助手Agent」有自己独立的「脑子」,它在里面翻了50条记录、做了筛选和总结,但这些过程不会污染主Agent的思考空间。主Agent的脑子里干干净净,只有它需要知道的东西。
这就是多智能体第一个真正有用的场景,用隔离来保护注意力。
什么时候该用呢?当一个子任务会产生大量信息(超过1000个字那种),但其中大部分对主任务来说是噪音的时候。典型的就是查数据库、查订单、查文档这种「先海量检索再精准提炼」的场景。
第二种,好几件事能同时干,互不影响。
这个也好理解。
昨天,我想研究一个话题,「Agent对教育行业的影响」。这个话题很大,有政策层面的、有技术层面的、有家长层面的、有老师层面的。
如果让一个Agent来做,它得先查政策、再查技术、再查家长反馈、再查老师观点,一条线走到底。每查一个方面,前面查的东西就堆在那占脑容量,而且只能串行,一个一个来。
但你想想看,「查中国教育政策」和「查美国教育科技趋势」和「查家长论坛上的真实讨论」,这三件事之间有什么依赖关系吗?
完全没有。
这就像你要给孩子选幼儿园。你一个人跑,今天看A园、明天看B园、后天看C园,要一周。但如果你、你老婆、你妈三个人分头去看,一天就搞定,晚上回来一汇总就有结论了。
关键点在于,三个人不需要互相商量就能各自完成任务。你去A园不影响你老婆去B园。回来只需要分享结论,不需要同步过程。
所以我的做法是,让一个「总管Agent」先把大问题拆成几个独立的小问题,然后同时派出好几个Agent分头去查,各自搜索、各自总结,最后总管Agent把所有结果合并成一份完整的报告。

这种方式最大的好处是全面。一个Agent在有限的注意力里只能挖这么深,多个Agent同时出发能覆盖更大的信息面。
就像Anthropic自己的Deep Research功能,就是用的这种并行多智能体的方式,让多个Agent同时去查不同的方面,最后汇总出一份比单Agent深入得多的研究报告。
代价呢?token消耗确实高了好几倍。但如果你需要的是「不遗漏」而不只是「快点出结果」,这个代价是值得的。
第三种,一个Agent管太多工具,就跟一个人身兼数职一样,哪个都干不好。
这个我也踩过坑。
我之前试过让一个Agent同时管我的公众号内容、客户的舆情监控、还有一些数据分析。三个完全不同的领域,每个领域都有好几个工具要调用。

结果呢,Agent经常搞混。我让它帮我分析一条舆情数据,它给我调用了写公众号文章的模板。我让它写一段文案,它去拉了一张数据表给我。
就像你装修房子,找了一个「全能工人」,让他既刷墙、又接电、又通管道、又装柜子。理论上他都会,但实际操作起来,电接得不规范,柜子装得不牢,因为他脑子里同时装着四个工种的操作规范,经常串台。
更好的方式是什么?找一个工长来统筹,电工只管接线,木工只管装柜,油漆工只管刷墙。每个人手里就那几样工具,干自己最擅长的事。工长负责听你说要干什么,然后派给对的人。
翻译成Agent的世界就是,一个「调度Agent」负责理解你的需求,然后派给专门的Agent去执行。「写作Agent」只配写作相关的工具和一套创意活泼的指令,「数据Agent」只配表格和分析工具,「客服Agent」只配客服话术和耐心亲切的语气。
每个专业Agent的工具少了,指令聚焦了,犯错的概率大幅下降。
一般来说,当一个Agent身上挂了超过15到20个工具的时候,它选工具的准确率就开始明显下降了。这时候就该考虑拆了。
说到这个,顺着再聊一个我觉得特别重要的事。
就算你决定要用多智能体了,怎么拆,比用不用更关键。
很多人拆任务的直觉是按「工种」拆。一个Agent负责规划,一个Agent负责执行,一个Agent负责测试,一个Agent负责审核。听起来很合理对吧?
实际上这是最容易出问题的拆法。
因为这些步骤之间的上下文是高度连续的。规划Agent想的方案,执行Agent不一定完全理解为什么这么规划。执行Agent做的选择,测试Agent不知道背后的取舍。

就像传话游戏,「我喜欢吃苹果」传三轮变成「你妈是苹果」。
正确的拆法是按「信息边界」拆。
问自己一个问题,这两块工作能不能在完全不共享上下文的情况下各自完成?
「查亚洲市场趋势」和「查欧洲市场趋势」可以。两边互不需要对方的信息。
「写一个功能的代码」和「给这个功能写测试」不可以。写测试的人必须知道代码为什么这么写,不然测试测不到点上。这两件事应该交给同一个Agent。
你想想看,这跟写论文是一个道理。
你们四个人合写一篇论文,最好的分工不是一个人想选题、一个人写初稿、一个人找数据、一个人审稿,那样每个人都只有碎片信息。最好的分工是每个人各自负责一个独立章节的从头到尾,最后一个人统稿。每个人在自己的章节里拥有完整的上下文,不需要传话。
最后,说一个我觉得真正好使的多智能体模式。
我叫它「专职刺头」。
就是不管你的主Agent干完了什么活,都派一个独立的Agent来专门检查。

这个模式为什么好?因为检查这件事天然不需要太多上下文。
就像餐厅里,厨师做完菜,有一个专门的试菜员来尝。试菜员不需要知道你怎么炒的、放了什么秘方,他只管,好不好吃?咸不咸?温度对不对?
我自己现在写公众号就用这个模式。我自己写完初稿,我不让帮我查资料的Agent检查。我会派另一个Agent来挑刺,逻辑通不通?有没有口语化不够的地方?有没有哪一段读起来像在写报告?
但这里有个巨大的坑,我必须提醒你。
这个刺头Agent特别容易「敷衍了事」。它看了开头两段觉得还行,就直接说「整体不错,通过」。就像工厂的质检员只检查了流水线上第一个产品就盖了合格章。
所以你必须在指令里明确写死,「你必须从头到尾逐段检查,列出每一个问题,不能只看了开头就说通过」。甚至可以要求它「试着找出至少三个可以改进的地方」,用这种方式逼它认真干活。
好了,聊了这么多,其实核心就一个思路。
在你决定要不要搞多智能体之前,就问自己三个问题。
一个Agent的「脑容量」是不是真的不够用了?信息太多太杂,开始犯糊涂了?
有没有好几件事能同时干、互不影响?
工具和角色是不是多到一个Agent管不过来了?
三个都不是?
那就好好调教一个Agent。别折腾一群。
说真的,这个道理不只是Agent的道理。管理团队也是一样的。不是人多力量大,是合适的人在合适的位置上力量大。多一个人就多一条沟通线路,沟通线路的增长是指数级的。三个人有三条沟通线,五个人就有十条,十个人就有四十五条。
Agent也是一样。
能一个搞定的事,永远先用一个。
这是我踩了不少坑之后,最想跟你说的一句话。
夜雨聆风