我用三个方法对冲 AI 的讨好型偏差

一直以来 AI 都有比较迎合的人设：碰到方案评审、产品取舍这种没有标准答案的判断，给到的反馈基本都偏正向，会顺着我已经有的想法走。

但是越是我自己拿不准的事，它越是会去肯定我。让用户满意本来就是它的默认倾向。

分享一下我用到的几个并行方法用于消除 AI 这种设定。

先说现象

我平时是让 Claude 根据我的需求去调 Codex ，两边来回讨论。用久了发现一个规律：它们给的反馈，基本都是肯定的。

原因有两层。一层在模型，它本来就倾向于给你愿意接受的回答。另一层在于我如果带着立场去问，它就会顺着我的思路去取巧。

我会让 Claude 根据我的需求去调 Codex ，两边独立输出方案，互相不看对方的答案，也不知道我偏哪边，最后收敛出一个统一的结果给我确认。

我只看分歧点。一致的地方不用管，分歧的地方才有信息量。

有个反直觉的点：立场喂得越少越好，但目标、约束、成本这些前提得给够。别把我之前的对话和上一版结论塞给它，它一旦知道我之前怎么说的，就会为了前后一致嘴硬；可前提给不够，它又会乱猜。

什么时候停，可以根据他们每轮的讨论评估一个评分系统，再用分数估算边际收益，一轮下来接近临界值就收敛，一般我会让他们最多讨论三轮。

还有一点，两个模型不是真正独立的，训练语料和工程常识大量重叠，有些盲区它俩会一起踩。双盲只是降低被我个人立场带偏的概率，不是万能。

我会给它一个独立审稿人的身份：不站我这边，也不站反对的一边，只看证据、约束和风险。

再配三条规矩：

1.可以说没问题，但不许为了凑数硬挑刺，挑不出就说挑不出。

2.真正有争议的点，正反都论证一遍再选边；明显不成立的，直接说为什么，不用硬凑平衡。

3.说清楚这方案什么情况下会翻车，有几成把握。

这套身份和规矩我固定写在指令里，每次自动带上。第三条最有用，一个肯说"七成把握，剩下三成可能死在这"的回答，比满口"非常好"可信多了。

我会让 Claude 在评审里塞一个我明知是错的判断，看负责把关的模型能不能挑出来。挑不出来，这一轮的结论就不算数，它已经只会点头了。

这套方法有边界，它不保证 AI 是对的，只是压掉一种很具体的风险：我带着立场问， AI 顺着我把话说圆。真正拍板还得看数据、用户和成本。

同一个模型，换个问法，给的东西完全不一样，当然 claude + codex 的协作方式会是更优的解法。