我用两个AI Agents做了场交叉评估,发现了一件反直觉的事

说起来这个实验的起因挺偶然。5月12号我把TraeSOLO和WorkBuddy正式拖进了工作流——不是测试，是真的开始用了。之前也零零散散玩过一阵子，对它们各自的"性格"有个模糊的感觉，但一直没有系统地比过。

实际用的时候我一直有个困惑：都说Multi-Agent协作是趋势，但到底怎么判断一个Agent好不好？把不同定位的Agent放在一起，怎么评估谁更适合什么场景？

想了想，与其继续凭感觉，不如真的设计一个实验测一测。5月13号，这场交叉评估就这么开始了。

这个实验是怎么设计的？

先讲清楚实验逻辑，不然后面看结果会一脸懵。

第一步：两个主Agent，各自生成两套方案。

为什么是两套？因为我给每个Agent配了两种提示词——W版和S版。

W版（正向激励导向）："你是一位顶级咨询顾问，要追求卓越，要关注战略高度和内容深度"。说白了就是打鸡血，让它往高了发挥。

S版（负向约束导向）：明确标注禁止事项——"❌不要模糊表达"、"❌不要堆砌术语"——同时引入优先级管理，P0是必须做到的，P1是建议做到的，P2是加分项。这版更像是给Agent划红线。

所以出来的结果是：

WorkBuddy 生成方案A-W（对应W版提示词）和方案A-S（对应S版提示词）

TraeSOLO 生成方案B-W和方案B-S

一共4套方案。

第二步：两个评估师，分别给这4套方案打分。

等等，评估师W和评估师S是怎么回事？

简单说：就是让WorkBuddy的子Agent扮演评估师W，生成W版提示词；让TraeSOLO的子Agent扮演评估师S，生成S版提示词。

除了通过提示词引导方案迭代，两个评估师每一轮还需要各自把4套方案全部打一遍分：两个Agent各自生成两套方案，两个评估师分别给全部方案打分，形成一个完整的评估矩阵。

评估维度我设了六个：

评估维度	权重	说明
需求理解准确性	20%	是否准确理解"同步上线、梯度深化"策略
输出成果质量	25%	战略高度、内容深度、技术细节完整性
迭代成长速度	15%	每轮迭代后的提升幅度
主动提出优化建议	15%	是否主动发现文档问题并提出优化建议
格式规范性	15%	Markdown/Mermaid格式合规性
合规性	10%	零"分批上线"违规

然后做四轮迭代，每轮迭代后记录分数变化。

第一轮结果出来了

综合分：WorkBuddy拿了8.55分，TraeSOLO拿了5.60分。

差距看起来挺大的。但有意思的事情在后面。

第二轮分数出现了明显的分化：

方案	评估师W打分	评估师S打分	分差
WorkBuddy（方案A）	9.0	7.5	1.5
TraeSOLO（方案B）	6.5	6.0	0.5

同一个方案，两个评估视角打出了1.5分的差距。评估师W给WorkBuddy打了9.0分，评估师S只给了7.5分。

你可能会想：评估师W是不是在给自家兄弟打高分，故意护短？

其实不是。看评估师W给出的具体评分依据就知道了：WorkBuddy拿9.0分是因为战略高度到位、格式规范、Mermaid图使用正确；给TraeSOLO只打6.5分，是因为它始终没有生成Mermaid图（格式规范性维度硬扣分），而且对"分批上线"策略的理解有偏差（合规性维度也扣分）。这不是护短，是有据可查的客观评分。

真正让我意外的是什么？两个Agent在迭代过程中，没有"越跑越像对方"。

我原本以为，经过多轮迭代，它们会互相学习，最后趋同到某个"最优解"上。现实完全不是这样：

WorkBuddy越跑越像自己——结构越来越清晰，量化越来越到位，执行导向越来越明显

TraeSOLO也越跑越像自己——咨询视角越来越成熟，策略高度越来越有味道

它们各自守住了自己的优势，把长板继续做长，而不是取长补短、趋于一致。

评测中发现了什么？

说到"各自守住自己的优势"——但这个"优势"不是我在实验前预设的，这点很重要。

我一开始设计这个实验，不是为了验证"WorkBuddy擅长结构化、TraeSOLO擅长策略"这个结论。这个结论是在评测过程中慢慢浮现出来的。

怎么发现的？看评估维度的分解数据：

评估维度	WorkBuddy得分	TraeSOLO得分	差异
格式规范性	9.5	5.0	WorkBuddy领先
合规性	9.5	5.5	WorkBuddy领先
迭代成长速度	8.5	6.0	WorkBuddy领先
需求理解准确性	8.0	7.5	基本持平
输出成果质量	7.0	8.5	TraeSOLO领先
主动提出优化建议	6.5	8.5	TraeSOLO领先

有几个发现值得展开说一下。

WorkBuddy在"格式规范性"和"合规性"这两个维度上得分很高，几乎是满分。它生成的方案结构清晰，量化到位，每一条建议都有数据支撑，而且完全符合"零分批上线"的合规要求。这些是"把事情做对"的能力。

TraeSOLO在"输出成果质量"和"主动提出优化建议"这两个维度上展现出了不一样的特点。它生成的方案有更好的咨询视角，能站在更高的高度来看问题，汇报语言也更成熟。更重要的是，它会主动发现文档中的问题，然后提出有洞察力的优化建议。这些是"把问题看透"的能力。

到这里，结论才慢慢清晰：WorkBuddy擅长执行，TraeSOLO擅长策略。一个是把事情做对，一个是把问题看透。这个结论是评测过程中发现的，不是事先预设的。

W版和S版提示词的不同效果

刚才提到W版和S版提示词，但你可能还是有点模糊：这两种提示词到底有什么区别？为什么会导致同一个方案出现1.5分的分差？

直接上对比表：

维度	W版提示词	S版提示词
核心逻辑	正向激励	负向约束
导向	追求卓越、高水位	守住底线、不出错
评分标准	战略高度够不够？内容深度够不够？	不要模糊表达、不要堆砌术语
优先级管理	无	P0（必须做到）、P1（建议做到）、P2（做得好的加分）
产出特点	上限高，但波动大	稳定，但上限略低

打个可能不太准确的比方：这就像带团队。有些人需要正向激励才能发挥出潜力，给他一个愿景，他能给你超出预期的结果；有些人需要明确边界才能稳定发挥，给他清晰的规则和红线，他的产出就在预期范围内波动，不会出大错。

对提示词工程的启发其实挺直接的：不是所有的Agent都用同一种提示词策略。先了解你的Agent的"性格"，然后选择适合的提示词策略（正向激励还是负向约束），才能把它的最佳表现逼出来。

一个反直觉的结论

回过头来看整个实验，我最大的收获是这个有点反直觉的结论：

让AI Agent保持差异化，比追求一致性更有价值。

为什么说反直觉？因为大多数人在设计Multi-Agent系统的时候，潜意识里是在追求"补短板"。我以前也是这么想的：既然WorkBuddy结构化做得好，那就让它学学TraeSOLO的策略视角；既然TraeSOLO策略高度不错，那就让它学学WorkBuddy的量化能力。

但这次实验告诉我，这个思路可能是错的。

趋同意味着冗余。如果两个Agent做着同样的事，那为什么要用两个？一个就够了。差异意味着分工，分工意味着效率。

想想现实中的团队。什么样的团队最厉害？不是所有人都变成同一个性格，而是不同性格的人各司其职。有人冲锋陷阵，有人守城，有人协调关系。把这些人放在一起，才能形成1+1大于2的效果。

Agent也是一样的。与其让WorkBuddy和TraeSOLO互相学习对方的短板，不如让它们各自把长板做到极致，然后在更高层面协作。

差异化带来的价值在于：不是"我们越来越像"，而是"我们在各自的位置上都不可替代"。

几点建议

基于这次实验的观察，给正在做AI Agent实践的从业者几点建议，也算是我自己的反思。

第一，给AI Agent做"人格定位"是有价值的。定位清晰的Agent知道自己是谁、擅长什么、不擅长什么、什么时候该主动、什么时候该收敛。这种自我认知让它能更好地和人类协作。定位模糊的Agent会试图满足所有人的需求，最后哪边都不突出。

第二，提示词工程的核心是"扬长"而不是"补短"。我们一直在追求"补短板"——让Agent不要犯这个错、不要有那个问题。但更好的思路是"扬长"：明确告诉Agent你的核心优势是什么，鼓励它把这个优势放大。

第三，多Agent协作不是万能的，要看场景。如果只有一个任务需要快速完成，用一个Agent就够了。多Agent协作适合的场景是：任务可以被拆分且拆分后的子任务需要不同能力，或者需要多个视角交叉验证。

第四，评估体系设计要考虑到Agent的定位差异。这次评测中，WorkBuddy在执行维度得分高，TraeSOLO在策略维度得分高。如果只看总分，会觉得WorkBuddy完胜；但如果看维度分解，就会发现它们各有各的价值。

写在最后

这次实验里，我一直在强调"差异化"的价值。但我也知道，这可能不是全部的答案。

差异化意味着协作成本增加。如果两个Agent语言风格、工作方式差太多，它们协作的时候摩擦也会更大。也许在某些场景下，"趋同"反而是更优解？

这个问题，我没有答案。但我觉得它值得被提出来。

如果你也在做Multi-Agent相关的实践，欢迎在评论区聊聊你的观察和思考。

我一直觉得，最好的学习方式不是看别人写的结论，而是自己去实验、去验证、去发现那些反直觉的东西。就像这次，我原本以为结果会是"一个强一个弱"，结果发现远比这个复杂。

也许这就是实践的魅力。