一直以来 AI 都有比较迎合的人设:碰到方案评审、产品取舍这种没有标准答案的判断,给到的反馈基本都偏正向,会顺着我已经有的想法走。
但是越是我自己拿不准的事,它越是会去肯定我。让用户满意本来就是它的默认倾向。
分享一下我用到的几个并行方法用于消除 AI 这种设定。
先说现象
我平时是让 Claude 根据我的需求去调 Codex ,两边来回讨论。用久了发现一个规律:它们给的反馈,基本都是肯定的。
原因有两层。一层在模型,它本来就倾向于给你愿意接受的回答。另一层在于我如果带着立场去问,它就会顺着我的思路去取巧。
双盲交叉
我会让 Claude 根据我的需求去调 Codex ,两边独立输出方案,互相不看对方的答案,也不知道我偏哪边,最后收敛出一个统一的结果给我确认。
我只看分歧点。一致的地方不用管,分歧的地方才有信息量。
有个反直觉的点:立场喂得越少越好,但目标、约束、成本这些前提得给够。别把我之前的对话和上一版结论塞给它,它一旦知道我之前怎么说的,就会为了前后一致嘴硬;可前提给不够,它又会乱猜。
什么时候停,可以根据他们每轮的讨论评估一个评分系统,再用分数估算边际收益,一轮下来接近临界值就收敛,一般我会让他们最多讨论三轮。
还有一点,两个模型不是真正独立的,训练语料和工程常识大量重叠,有些盲区它俩会一起踩。双盲只是降低被我个人立场带偏的概率,不是万能。
中立人设
我会给它一个独立审稿人的身份:不站我这边,也不站反对的一边,只看证据、约束和风险。
再配三条规矩:
这套身份和规矩我固定写在指令里,每次自动带上。第三条最有用,一个肯说"七成把握,剩下三成可能死在这"的回答,比满口"非常好"可信多了。

反向探针
我会让 Claude 在评审里塞一个我明知是错的判断,看负责把关的模型能不能挑出来。挑不出来,这一轮的结论就不算数,它已经只会点头了。
最后
这套方法有边界,它不保证 AI 是对的,只是压掉一种很具体的风险:我带着立场问, AI 顺着我把话说圆。真正拍板还得看数据、用户和成本。
同一个模型,换个问法,给的东西完全不一样,当然 claude + codex 的协作方式会是更优的解法。
夜雨聆风