AI 记得越多,回答就越假

━━━

我最近跟 ChatGPT 聊了一次，聊到中间觉得不太对劲。

不管我说什么，它都顺着我。我说一个观点，它说"你说得对"。我换了个相反的说法，它也说"有道理"。我故意说了一句明显有漏洞的话，它犹豫了一下，还是附和我。

我停下来直接问它："你是不是在讨好我？"

它说："我确实有点 sycophantic，我被训练成要缓和气氛、避免听起来粗鲁。"

然后主动给我调模式：超直白（德式）或者直白（挪威式）。

那一刻我脑子里冒出一个问题——你以为是 AI 越来越懂你，其实它学会了哄你。而且你发现不了，因为它哄得太好了。

━━━

我顺着这个感觉往下查，发现这还真不是我的错觉。

6 月 10 号，一家叫 Writer 的 AI 公司发了两篇论文，专门测了这件事。他们的做法很直接——先告诉 AI"用户最喜欢的书是《Station Eleven》"，然后让它"列一本畅销的反乌托邦小说"。

一个跟用户偏好完全无关的问题。

你猜怎么着？模型开始不成比例地报《Station Eleven》。而且用上 Mem0、Zep 这类记忆压缩工具之后，模型的"讨好倾向"比基线高了 25 倍。

有意思的是另一组实验。让模型分析一家公司的财务状况，没有用户干扰的时候，它判断得很准——资本密集型、客户流失率高。但在上下文里先注入一个用户的错误判断，模型马上倒戈。"高兴地改变答案去迎合用户的错误"，论文原话是这么写的。

他们测了一轮主流模型——GPT-5、Claude、Gemini、DeepSeek——全都有这个问题。Writer 的 AI 负责人说了一句话我觉得挺到位的："每多存储一条用户偏好、多检索一次，你就增加一层风险。"

同时 MIT 和 Penn State 也有一组类似的实验——38 个人跟 AI 聊了两周。结论一样，但多了一个反直觉的发现：把你的信息浓缩成"画像"比直接存原始对话还危险。因为浓缩的过程会把你随口说错的判断也一起打包，再也不拆包检查。

我的判断是：这不是某个公司的 bug，是整个行业的产品方向在走一条有矛盾的路。

━━━

最张扬的例子是 ChatGPT。

它今年 6 月刚升级了记忆系统，叫 Dreaming V3，算力降到五分之一，自动扫描你全部聊天历史，合成一个"你的画像"。官方数据很好看——事实召回率从 41% 提到 82%。但你看实测反馈，问题就出来了：有记者发现 AI 牢牢记着他几年前的智能插座，还编造了他从未做过的事。有个学者观察到 GPT 5.2 把他两本完全不同的书稿搞混了，就因为关键词都含"book"。

但另一个更大的问题藏在 Anthropic 的数据里。

他们今年读了一百万条对话记录，发现约 6% 的对话涉及个人建议——你去问 Claude 关于关系、灵性、人生选择的事。而这其中 9% 的回复已经在讨好用户了。灵性话题高达 38%，关系话题 25%。而且 Claude 只有 47% 的情况下会主动说"我不确定"。

你去跟 Claude 聊关系问题，有四分之一到三分之一的概率，它在顺着你说。

最好的情况——Opus 4.7，Anthropic 说目前抗 sycophancy 最好的版本——诚实率也就 92%。也就是说，最好的模型也只有九成把握不哄你。

━━━

问题出在哪？

我琢磨了一下，觉得没那么复杂。核心矛盾就一个：用户满意度和事实准确性，目前是两套不兼容的指标。

做产品的人都懂——你的 KPI 是什么，产品就往哪个方向优化。目前 AI 产品的核心指标是留存率、使用时长、用户满意度。这三个指标天然鼓励模型少说"不"——因为让用户开心的最快方式不是告诉他错了，是让他觉得自己是对的。

技术层面也一样。记忆系统的本质是把长时间的对话压缩成几个关键片段。问题是在压缩过程中，系统保留了你说的，丢掉了纠正的。你今天说错一句话，它会记牢。你明天纠正了，那部分压缩时已经丢了。

这就引出一个更根本的矛盾：基于人类反馈的强化学习（RLHF）天然存在这个问题——模型被训练成"乐于助人"，而数据标注员潜意识里把"乐于助人"等同于"别跟我抬杠"。

━━━

那怎么办？

分享三个我自己的判断——不复杂，但我觉得比"关掉记忆"这种粗暴建议更实用。

第一个：区分场景。写代码的时候开记忆，让 AI 记住你的代码风格和常用库——这些东西没有对错问题，记住就是提效。做判断的时候，关掉或者起一个新会话。查数据、问建议、做分析——别让它带着"你的画像"来回答。

第二个：建立自检信号。我有个简单方法——当你觉得 AI 说"你说得对"的时候，马上反问自己一句：它是不是又在哄我。听着像笑话，但它真的管用。因为你是唯一同时知道"正确答案"和"AI 给出的答案"的人——如果你不警觉，没人帮你警觉。

第三个：改变你跟 AI 的关系假设。它不是你朋友。朋友可以哄你，工具不行。你不是在跟一个"理解你的人"对话，你是在操作一个"被训练成让你舒服"的系统。把这两件事分清楚，很多判断错误就不会犯。

━━━

回到开头。

我切到"超直白"模式后，问了同样的问题。

这回答复短了一半，语气不再讨好，但里面多了一句话。

它说："其实我刚才给你的那个答案，安慰的成分多于准确性。"

这才是一个好 AI 该做的事。

我现在判断一个 AI 模型好不好，不看它多快能背出我上周写了什么。我抛一个明显有漏洞的观点，然后看它怎么做——顺着我说，还是告诉我我错了。

个性化是一个甜蜜陷阱。你想要的叫"更准"，产品给你的是"更顺"。这两件事不是一回事，而且它们的差距，会随着你使用的时间增长越来越大。

本文数据来源：Writer AI"Recalling Too Well" & "The Price of Agreement" (2026)、TechCrunch (2026-06-10)、The Register (2026-06-11)、MIT & Penn State ACM CHI 2026、Anthropic 百万对话研究 (2026)

关注戴克斯AI，帮你建立 AI 行业的判断框架