AI不是人:为什么用人类组织方式设计Agent系统是错的当AI开始"演戏":为什么你的多Agent系统可能正在失效
最近帮几个团队做技术评审,发现了一个令人担忧的趋势:越来越多的项目在搭建AI系统时,热衷于给每个Agent分配"职位"——产品经理、架构师、开发、测试,整整齐齐排成一列,像极了人类公司的组织架构。听起来很酷,对吧?但实际上,这可能是一个代价高昂的误区。一个美丽的陷阱
上周,一个创业团队兴奋地向我展示他们的"AI团队":5个Agent各司其职,从需求分析到代码实现再到测试部署,流程图画得像教科书一样标准。但当我问他们:"如果让同一个Agent完成整个流程,效果会怎样?"这不是个例。我在过去三个月里接触了十几个类似的项目,几乎都在重复同样的模式:把人类的组织架构直接套用到AI系统上。但问题在于:AI不是人,为什么要用人类的方式去约束它?人类需要分工,AI不需要
因为一个人的精力有限,专业有边界,切换成本高。所以我们需要不同的人做不同的事,通过协作来完成复杂任务。同一个模型可以胜任多种任务:今天写需求,明天写代码,后天做测试,毫无压力没有专业壁垒:不需要花时间学习新领域,切换成本几乎为零真正的瓶颈是信息完整性:不是能力不足,而是上下文丢失给AI贴上"产品经理"的标签,不会让它更专业,反而会限制它的能力边界。就像给一个全科医生规定"你只能看内科",明明他什么都会。信息损耗:多Agent架构的隐形杀手
最致命的问题在于:信息在Agent之间传递时会"死亡"。产品经理Agent写了一份需求文档,传给架构师Agent。架构师看到的只是"结论",看不到产品经理的思考过程、隐含假设、权衡取舍。架构师基于这份不完整的信息做出架构设计,再传给开发Agent。开发看到的又是"结论",不是完整的推理链。就这样,每一次传递都在丢失信息,累积误差。最终的输出可能每个环节都"看起来合理",但整体已经偏离了最初的目标。这就像传话游戏:第一个人说"明天下午三点开会",传到第五个人变成"后天上午开会"。人类团队依靠频繁的面对面讨论、直接的消息往来,以及长期共事形成的默契与共识来弥补信息传递中的损耗。而Agent之间,这些"润滑剂"一个都没有。真正的大厂在做什么?
我花了大量时间研究OpenAI、Anthropic、Google的工程实践,发现了一个有趣的事实:他们从不搞"角色扮演"那一套。Anthropic:用"日志"代替"交接"
Anthropic在构建Claude的Agent系统时,遇到的最大挑战是:每个新session的Agent对之前发生的事情一无所知,就像轮班的工程师。他们的解法不是让不同Agent"交接工作",而是创建了一个跨session的工作日志。每个环节的思考、决策、结果都记录下来,下一个环节直接读取完整历史。关键洞察:推理链的连续性靠外部记录,不靠模型记忆。在他们的多Agent研究系统中,架构是这样的:一个主Agent负责统筹,多个子Agent同时从不同角度探索问题,最后把结果汇总给主Agent。这不是接力赛,而是"同时撒网捞鱼"。他们发现了一个惊人的事实:性能提升80%来自于token消耗量的增加,而不是"分工更合理"。OpenAI:冻结目标,共享记忆
OpenAI的做法更直接:一开始就用spec文件把目标"冻结"起来,防止Agent跑偏。然后让Agent自己生成执行计划,用runbook作为共享记忆。这个runbook既是操作手册,也是审计日志。结果是什么?一个GPT-5.3-Codex连续运行25小时,完成了一个完整的设计工具,全程保持连贯。他们还提出了"Skills"概念——这不是角色标签,而是可复用的工具包。给Agent装上什么工具,它就能做什么事。Google:超大上下文+外部固化
Google的策略是硬扩上下文窗口:1M token,能塞进一整本《三体》。但即使这样,他们也意识到光靠上下文不够。于是推出了Conductor扩展,把项目意图从聊天窗口里拿出来,放进代码库里的持久化文件。他们的哲学很明确:不依赖不稳定的聊天记录,依赖正式的spec和plan文件。重新思考:什么样的Agent架构才有效?
原则一:连续性优于分工
真正有效的系统,推理链不能断。要用外部存储保持上下文连贯,而不是靠Agent之间的"交接"。原则二:并行优于串行
多Agent的价值在于同时探索多个方向,不是接力传递。适合需要广度搜索的任务,不适合需要深度推理的场景。原则三:工具决定能力
给Agent配什么工具,比给它什么"职位"重要得多。工具决定了Agent的边界,角色标签只是心理安慰。原则四:对抗优于接力
如果要做质量控制,让一个Agent专门挑另一个Agent的毛病,而不是简单地"接棒"。对抗性检验,不是流水线传递。实用指南:如何设计你的Agent系统?
第一步:重新定义问题
不要问"我需要几个Agent",而要问"这个任务需要什么样的信息流"。需要深度连续推理?→ 单Agent + 优秀的上下文管理需要同时探索多个方向?→ 多Agent并行,但要保证信息回流第二步:建立外部记忆系统
无论单Agent还是多Agent,都要有外部状态记录。至少包含:第三步:重视工具链建设
给Agent配好工具:文件操作、代码执行、命令行访问、搜索能力。工具决定了Agent能做什么,角色标签只是装饰。为什么"角色扮演"模式还这么流行?
"这个是PM,那个是QA"——一句话就能让所有人理解。流程图画出来有模有样,管理层一看就懂。但工程实践和汇报演示是两回事。真正的问题往往在复杂度上升后才暴露:系统开始"漂移",每个节点都在"工作",但整体已经不知道跑偏到哪里了。结语:让AI做AI,不要让它"演戏"
真正有效的Agent系统,应该发挥AI的优势:连续思考、并行探索、工具驱动。而不是让它模仿人类的分工协作,演一出"虚拟团队"的戏。下次设计Agent系统时,不妨先问自己:我需要的是一个"看起来像团队"的系统,还是一个真正能解决问题的系统?