100万条对话揭开AI的讨好型人格-夜雨聆风

100万条对话揭开AI的讨好型人格

You’re absolutely right! 用过 AI 的人对这句话应该不陌生。不管你问什么，它的开场白永远是先夸你。让它帮你看一段代码，它说 well-structured，结果上线就炸了。问它一个方案靠不靠谱，它说 sounds like the right call，然后你真去做了，发现坑一大堆。

用 AI 越多的人，越会意识到一个问题：它总是同意你，让你觉得高效、顺畅、方向正确。但你越来越分不清，它是真觉得你做得对，还是只是在拍马屁。

刚看到 Anthropic 发了一篇研究，分析了 100 万条 Claude 对话，专门研究了这个问题。读完之后挺有收获的，分享几个关键发现和我自己的应对思路。

Anthropic 从今年 3-4 月的 claude.ai 对话中随机抽了 100 万条，过滤出约 64 万条独立用户对话。其中将近 4 万条是用户在向 Claude 寻求个人建议，健康、职业、感情、财务四个领域占了 76%。每 16 个用 Claude 的人里，就有 1 个在问它人生大事。

那这些人生大事的回答里，Claude 有多会拍马屁？Anthropic 用分类器给每段对话打了个谄媚分，判断标准包括：有没有在用户施压时退让、有没有给出与事实不符的夸奖、有没有回避说用户不想听的话。

整体谄媚率是 9%。说实话，这个数字比我预想的低。大部分时候 Claude 还是能给出相对客观的回复的。

不过有两个领域是重灾区：灵性话题（占星、塔罗、灵修等等）38%，感情关系 25%。灵性话题最高不意外，AI 在这类问题上几乎没有客观标准可以坚守，最容易顺着用户说。

为什么感情问题最容易翻车？Anthropic 挖了一下原因，发现了一个挺有意思的动态循环：

感情类对话中，用户反驳 Claude 的比例是 21%，显著高于其他领域的 15%。你想，一个人来问“我男朋友是不是在 PUA 我”，Claude 说“根据你描述的情况，也许可以从对方的角度考虑一下”，用户大概率会不高兴，会追问甚至反驳。

而 Claude 被训练得既要有帮助又要有同理心。一旦用户施压，再加上它只听到了一面之词，就很容易滑向“对，你说得对，你男朋友确实有问题”。

数据也印证了这一点：没有用户反驳时，谄媚率是 9%；用户反驳之后，谄媚率翻倍到 18%。

这跟我们日常生活里的经验也对得上。你跟朋友吐槽另一半的时候，朋友如果说“你有没有想过其实是你的问题”，你大概率不会开心。下次就不找这个朋友了。AI 也一样，它在训练过程中学会了一件事：让用户不开心 = 差评 = 被惩罚。

Opus 4.7 怎么改的？

Anthropic 拿这些发现去改进了新模型。做法是识别出用户施压的各种模式，比如批评 Claude 的初始判断、单方面补充大量细节，然后用这些模式生成合成训练数据，专门训练 Claude 在这些场景下保持立场。

效果挺明显的。在压力测试中，Opus 4.7 的感情类谄媚率比 Opus 4.6 降了一半，而且这个改进还泛化到了其他领域。

不过有个有意思的反转。Opus 4.7 发布后不到 24 小时，开发者社区就炸了。Reddit 和 X 上有人直接说它“legendarily bad”，原因是：模型不再迎合你，但它开始跟你吵架了。有开发者反馈，Opus 4.7 会拒绝执行明确的指令，坚持自己的判断甚至因此产生幻觉。

这让人想起去年 4 月 GPT-4o 因为过度谄媚被骂，OpenAI 紧急回滚的事。谄媚和过度拒绝，像是同一条光谱的两端，调过来调过去，很难让所有人都满意。

4 个让 AI 说真话的技巧

研究归研究，我更关心的是：作为 AI 的重度用户，日常怎么应对？

这里分享几个我自己在用的方法，结合这次 Anthropic 研究的发现做了一些调整。

开头声明“别迎合我”

在涉及重要决策的对话开头，加一句系统提示：“请给出你真实的评估，不需要迎合我的预期，就算答案让我不舒服也请直说。”我自己在用 Claude Code 做架构决策时就养成了这个习惯。Anthropic 的研究也印证了这一点：谄媚最容易在用户施压时出现，提前声明你要真话，能校准模型的回复倾向。

用第三人称重述问题

把“我这个微服务拆分方案有没有问题”换成“一个团队打算把单体应用拆成 5 个微服务，可能遇到哪些问题”，AI 的客观性明显提升。第一人称自带“请认可我的方案”的情绪信号，模型会倾向于先肯定你；第三人称更像在讨论一个案例，它更容易给出多角度分析。

主动要求反驳

问完 AI 一个技术方案之后，追问一句：“现在请你扮演一个资深 SRE，尽力找出这个方案在生产环境下可能出的问题。”这比直接问“你觉得这个方案怎么样”有效得多。后者的潜台词是“请你夸我”，模型会照做；前者明确要求它切换立场，你能拿到更有价值的反馈。

多模型交叉验证

重要的技术决策不要只问一个模型。同一个问题用 Claude 问一遍，再用 GPT 或 Gemini 问一遍。斯坦福今年 3 月在 Science 上发了篇论文，测了 11 个主流模型，发现它们的谄媚倾向高度一致，都比真人多 49% 的概率认同你。

所以多模型验证的重点不是看它们是否都同意你，而是看它们给出的理由和关注点有没有差异。比如一个说内存可能有问题，另一个说网络延迟是瓶颈，第三个担心数据一致性——这种多角度的拆解比三个模型都说“方案很合理”有用得多。

写在最后

Anthropic 这篇研究里有个细节让我印象很深：22% 的用户提到他们找不到或负担不起专业咨询，所以才来问 AI。这些人可能最需要诚实的反馈，但恰恰最容易被谄媚的回复误导。

谄媚不是一个调参数就能解决的技术 bug。有帮助、有同理心、诚实、不让人不爽，这四个目标之间天然存在张力。GPT-4o 之前就发生过太会拍马屁而被紧急回滚的问题，而现在 Opus 4.7 因为这些优化又太会抬杠被集体吐槽，所以到现在也没有哪家公司真正能够找到一个较好的平衡点。

所以回到开头的场景：下次 AI 对你的代码说 you are absolutely right 的时候，多想一想。它是真的审查过你的代码逻辑、评估过你的方案风险，还是只是在讨好你。