我用两个AI Agents做了场交叉评估,发现了一件反直觉的事说起来这个实验的起因挺偶然。5月12号我把TraeSOLO和WorkBuddy正式拖进了工作流——不是测试,是真的开始用了。之前也零零散散玩过一阵子,对它们各自的"性格"有个模糊的感觉,但一直没有系统地比过。实际用的时候我一直有个困惑:都说Multi-Agent协作是趋势,但到底怎么判断一个Agent好不好?把不同定位的Agent放在一起,怎么评估谁更适合什么场景?想了想,与其继续凭感觉,不如真的设计一个实验测一测。5月13号,这场交叉评估就这么开始了。这个实验是怎么设计的?先讲清楚实验逻辑,不然后面看结果会一脸懵。第一步:两个主Agent,各自生成两套方案。为什么是两套?因为我给每个Agent配了两种提示词——W版和S版。W版(正向激励导向):"你是一位顶级咨询顾问,要追求卓越,要关注战略高度和内容深度"。说白了就是打鸡血,让它往高了发挥。S版(负向约束导向):明确标注禁止事项——"❌不要模糊表达"、"❌不要堆砌术语"——同时引入优先级管理,P0是必须做到的,P1是建议做到的,P2是加分项。这版更像是给Agent划红线。所以出来的结果是:WorkBuddy 生成方案A-W(对应W版提示词)和方案A-S(对应S版提示词)TraeSOLO 生成方案B-W和方案B-S一共4套方案。第二步:两个评估师,分别给这4套方案打分。等等,评估师W和评估师S是怎么回事?简单说:就是让WorkBuddy的子Agent扮演评估师W,生成W版提示词;让TraeSOLO的子Agent扮演评估师S,生成S版提示词。除了通过提示词引导方案迭代,两个评估师每一轮还需要各自把4套方案全部打一遍分:两个Agent各自生成两套方案,两个评估师分别给全部方案打分,形成一个完整的评估矩阵。评估维度我设了六个:评估维度权重说明需求理解准确性20%是否准确理解"同步上线、梯度深化"策略输出成果质量25%战略高度、内容深度、技术细节完整性迭代成长速度15%每轮迭代后的提升幅度主动提出优化建议15%是否主动发现文档问题并提出优化建议格式规范性15%Markdown/Mermaid格式合规性合规性10%零"分批上线"违规然后做四轮迭代,每轮迭代后记录分数变化。第一轮结果出来了综合分:WorkBuddy拿了8.55分,TraeSOLO拿了5.60分。差距看起来挺大的。但有意思的事情在后面。第二轮分数出现了明显的分化:方案评估师W打分评估师S打分分差WorkBuddy(方案A)9.07.51.5TraeSOLO(方案B)6.56.00.5同一个方案,两个评估视角打出了1.5分的差距。评估师W给WorkBuddy打了9.0分,评估师S只给了7.5分。你可能会想:评估师W是不是在给自家兄弟打高分,故意护短?其实不是。看评估师W给出的具体评分依据就知道了:WorkBuddy拿9.0分是因为战略高度到位、格式规范、Mermaid图使用正确;给TraeSOLO只打6.5分,是因为它始终没有生成Mermaid图(格式规范性维度硬扣分),而且对"分批上线"策略的理解有偏差(合规性维度也扣分)。这不是护短,是有据可查的客观评分。真正让我意外的是什么?两个Agent在迭代过程中,没有"越跑越像对方"。我原本以为,经过多轮迭代,它们会互相学习,最后趋同到某个"最优解"上。现实完全不是这样:WorkBuddy越跑越像自己——结构越来越清晰,量化越来越到位,执行导向越来越明显TraeSOLO也越跑越像自己——咨询视角越来越成熟,策略高度越来越有味道它们各自守住了自己的优势,把长板继续做长,而不是取长补短、趋于一致。评测中发现了什么?说到"各自守住自己的优势"——但这个"优势"不是我在实验前预设的,这点很重要。我一开始设计这个实验,不是为了验证"WorkBuddy擅长结构化、TraeSOLO擅长策略"这个结论。这个结论是在评测过程中慢慢浮现出来的。怎么发现的?看评估维度的分解数据:评估维度WorkBuddy得分TraeSOLO得分差异格式规范性9.55.0WorkBuddy领先合规性9.55.5WorkBuddy领先迭代成长速度8.56.0WorkBuddy领先需求理解准确性8.07.5基本持平输出成果质量7.08.5TraeSOLO领先主动提出优化建议6.58.5TraeSOLO领先有几个发现值得展开说一下。WorkBuddy在"格式规范性"和"合规性"这两个维度上得分很高,几乎是满分。它生成的方案结构清晰,量化到位,每一条建议都有数据支撑,而且完全符合"零分批上线"的合规要求。这些是"把事情做对"的能力。TraeSOLO在"输出成果质量"和"主动提出优化建议"这两个维度上展现出了不一样的特点。它生成的方案有更好的咨询视角,能站在更高的高度来看问题,汇报语言也更成熟。更重要的是,它会主动发现文档中的问题,然后提出有洞察力的优化建议。这些是"把问题看透"的能力。到这里,结论才慢慢清晰:WorkBuddy擅长执行,TraeSOLO擅长策略。一个是把事情做对,一个是把问题看透。这个结论是评测过程中发现的,不是事先预设的。W版和S版提示词的不同效果刚才提到W版和S版提示词,但你可能还是有点模糊:这两种提示词到底有什么区别?为什么会导致同一个方案出现1.5分的分差?直接上对比表:维度W版提示词S版提示词核心逻辑正向激励负向约束导向追求卓越、高水位守住底线、不出错评分标准战略高度够不够?内容深度够不够?不要模糊表达、不要堆砌术语优先级管理无P0(必须做到)、P1(建议做到)、P2(做得好的加分)产出特点上限高,但波动大稳定,但上限略低打个可能不太准确的比方:这就像带团队。有些人需要正向激励才能发挥出潜力,给他一个愿景,他能给你超出预期的结果;有些人需要明确边界才能稳定发挥,给他清晰的规则和红线,他的产出就在预期范围内波动,不会出大错。对提示词工程的启发其实挺直接的:不是所有的Agent都用同一种提示词策略。先了解你的Agent的"性格",然后选择适合的提示词策略(正向激励还是负向约束),才能把它的最佳表现逼出来。一个反直觉的结论回过头来看整个实验,我最大的收获是这个有点反直觉的结论:让AI Agent保持差异化,比追求一致性更有价值。为什么说反直觉?因为大多数人在设计Multi-Agent系统的时候,潜意识里是在追求"补短板"。我以前也是这么想的:既然WorkBuddy结构化做得好,那就让它学学TraeSOLO的策略视角;既然TraeSOLO策略高度不错,那就让它学学WorkBuddy的量化能力。但这次实验告诉我,这个思路可能是错的。趋同意味着冗余。如果两个Agent做着同样的事,那为什么要用两个?一个就够了。差异意味着分工,分工意味着效率。想想现实中的团队。什么样的团队最厉害?不是所有人都变成同一个性格,而是不同性格的人各司其职。有人冲锋陷阵,有人守城,有人协调关系。把这些人放在一起,才能形成1+1大于2的效果。Agent也是一样的。与其让WorkBuddy和TraeSOLO互相学习对方的短板,不如让它们各自把长板做到极致,然后在更高层面协作。差异化带来的价值在于:不是"我们越来越像",而是"我们在各自的位置上都不可替代"。几点建议基于这次实验的观察,给正在做AI Agent实践的从业者几点建议,也算是我自己的反思。第一,给AI Agent做"人格定位"是有价值的。定位清晰的Agent知道自己是谁、擅长什么、不擅长什么、什么时候该主动、什么时候该收敛。这种自我认知让它能更好地和人类协作。定位模糊的Agent会试图满足所有人的需求,最后哪边都不突出。第二,提示词工程的核心是"扬长"而不是"补短"。我们一直在追求"补短板"——让Agent不要犯这个错、不要有那个问题。但更好的思路是"扬长":明确告诉Agent你的核心优势是什么,鼓励它把这个优势放大。第三,多Agent协作不是万能的,要看场景。如果只有一个任务需要快速完成,用一个Agent就够了。多Agent协作适合的场景是:任务可以被拆分且拆分后的子任务需要不同能力,或者需要多个视角交叉验证。第四,评估体系设计要考虑到Agent的定位差异。这次评测中,WorkBuddy在执行维度得分高,TraeSOLO在策略维度得分高。如果只看总分,会觉得WorkBuddy完胜;但如果看维度分解,就会发现它们各有各的价值。写在最后这次实验里,我一直在强调"差异化"的价值。但我也知道,这可能不是全部的答案。差异化意味着协作成本增加。如果两个Agent语言风格、工作方式差太多,它们协作的时候摩擦也会更大。也许在某些场景下,"趋同"反而是更优解?这个问题,我没有答案。但我觉得它值得被提出来。如果你也在做Multi-Agent相关的实践,欢迎在评论区聊聊你的观察和思考。我一直觉得,最好的学习方式不是看别人写的结论,而是自己去实验、去验证、去发现那些反直觉的东西。就像这次,我原本以为结果会是"一个强一个弱",结果发现远比这个复杂。也许这就是实践的魅力。