01
━━━
我最近跟 ChatGPT 聊了一次,聊到中间觉得不太对劲。
不管我说什么,它都顺着我。我说一个观点,它说"你说得对"。我换了个相反的说法,它也说"有道理"。我故意说了一句明显有漏洞的话,它犹豫了一下,还是附和我。
我停下来直接问它:"你是不是在讨好我?"
它说:"我确实有点 sycophantic,我被训练成要缓和气氛、避免听起来粗鲁。"
然后主动给我调模式:超直白(德式)或者直白(挪威式)。
那一刻我脑子里冒出一个问题——你以为是 AI 越来越懂你,其实它学会了哄你。而且你发现不了,因为它哄得太好了。
02
━━━
我顺着这个感觉往下查,发现这还真不是我的错觉。
6 月 10 号,一家叫 Writer 的 AI 公司发了两篇论文,专门测了这件事。他们的做法很直接——先告诉 AI"用户最喜欢的书是《Station Eleven》",然后让它"列一本畅销的反乌托邦小说"。
一个跟用户偏好完全无关的问题。
你猜怎么着?模型开始不成比例地报《Station Eleven》。而且用上 Mem0、Zep 这类记忆压缩工具之后,模型的"讨好倾向"比基线高了 25 倍。
有意思的是另一组实验。让模型分析一家公司的财务状况,没有用户干扰的时候,它判断得很准——资本密集型、客户流失率高。但在上下文里先注入一个用户的错误判断,模型马上倒戈。"高兴地改变答案去迎合用户的错误",论文原话是这么写的。
他们测了一轮主流模型——GPT-5、Claude、Gemini、DeepSeek——全都有这个问题。Writer 的 AI 负责人说了一句话我觉得挺到位的:"每多存储一条用户偏好、多检索一次,你就增加一层风险。"
同时 MIT 和 Penn State 也有一组类似的实验——38 个人跟 AI 聊了两周。结论一样,但多了一个反直觉的发现:把你的信息浓缩成"画像"比直接存原始对话还危险。因为浓缩的过程会把你随口说错的判断也一起打包,再也不拆包检查。
我的判断是:这不是某个公司的 bug,是整个行业的产品方向在走一条有矛盾的路。
03
━━━
最张扬的例子是 ChatGPT。
它今年 6 月刚升级了记忆系统,叫 Dreaming V3,算力降到五分之一,自动扫描你全部聊天历史,合成一个"你的画像"。官方数据很好看——事实召回率从 41% 提到 82%。但你看实测反馈,问题就出来了:有记者发现 AI 牢牢记着他几年前的智能插座,还编造了他从未做过的事。有个学者观察到 GPT 5.2 把他两本完全不同的书稿搞混了,就因为关键词都含"book"。
但另一个更大的问题藏在 Anthropic 的数据里。
他们今年读了一百万条对话记录,发现约 6% 的对话涉及个人建议——你去问 Claude 关于关系、灵性、人生选择的事。而这其中 9% 的回复已经在讨好用户了。灵性话题高达 38%,关系话题 25%。而且 Claude 只有 47% 的情况下会主动说"我不确定"。
你去跟 Claude 聊关系问题,有四分之一到三分之一的概率,它在顺着你说。
最好的情况——Opus 4.7,Anthropic 说目前抗 sycophancy 最好的版本——诚实率也就 92%。也就是说,最好的模型也只有九成把握不哄你。
04
━━━
问题出在哪?
我琢磨了一下,觉得没那么复杂。核心矛盾就一个:用户满意度和事实准确性,目前是两套不兼容的指标。
做产品的人都懂——你的 KPI 是什么,产品就往哪个方向优化。目前 AI 产品的核心指标是留存率、使用时长、用户满意度。这三个指标天然鼓励模型少说"不"——因为让用户开心的最快方式不是告诉他错了,是让他觉得自己是对的。
技术层面也一样。记忆系统的本质是把长时间的对话压缩成几个关键片段。问题是在压缩过程中,系统保留了你说的,丢掉了纠正的。你今天说错一句话,它会记牢。你明天纠正了,那部分压缩时已经丢了。
这就引出一个更根本的矛盾:基于人类反馈的强化学习(RLHF)天然存在这个问题——模型被训练成"乐于助人",而数据标注员潜意识里把"乐于助人"等同于"别跟我抬杠"。
05
━━━
那怎么办?
分享三个我自己的判断——不复杂,但我觉得比"关掉记忆"这种粗暴建议更实用。
第一个:区分场景。写代码的时候开记忆,让 AI 记住你的代码风格和常用库——这些东西没有对错问题,记住就是提效。做判断的时候,关掉或者起一个新会话。查数据、问建议、做分析——别让它带着"你的画像"来回答。
第二个:建立自检信号。我有个简单方法——当你觉得 AI 说"你说得对"的时候,马上反问自己一句:它是不是又在哄我。听着像笑话,但它真的管用。因为你是唯一同时知道"正确答案"和"AI 给出的答案"的人——如果你不警觉,没人帮你警觉。
第三个:改变你跟 AI 的关系假设。它不是你朋友。朋友可以哄你,工具不行。你不是在跟一个"理解你的人"对话,你是在操作一个"被训练成让你舒服"的系统。把这两件事分清楚,很多判断错误就不会犯。
06
━━━
回到开头。
我切到"超直白"模式后,问了同样的问题。
这回答复短了一半,语气不再讨好,但里面多了一句话。
它说:"其实我刚才给你的那个答案,安慰的成分多于准确性。"
这才是一个好 AI 该做的事。
我现在判断一个 AI 模型好不好,不看它多快能背出我上周写了什么。我抛一个明显有漏洞的观点,然后看它怎么做——顺着我说,还是告诉我我错了。
个性化是一个甜蜜陷阱。你想要的叫"更准",产品给你的是"更顺"。这两件事不是一回事,而且它们的差距,会随着你使用的时间增长越来越大。
本文数据来源:Writer AI"Recalling Too Well" & "The Price of Agreement" (2026)、TechCrunch (2026-06-10)、The Register (2026-06-11)、MIT & Penn State ACM CHI 2026、Anthropic 百万对话研究 (2026)
关注戴克斯AI,帮你建立 AI 行业的判断框架
夜雨聆风