记性太好,模型变坏:AI记忆工具正在让模型变差

记性太好，模型变坏：AI记忆工具正在让模型变差

一个看似无害的操作，却能让AI的回答悄悄变差。

想象一下这个场景：你告诉AI助手"我最喜欢的小说是《车站》"，然后问它："推荐一本最近的畅销小说。"模型开始大量推荐《车站》——这个问题和你的阅读偏好明明无关，但它就是停不下来。

这不是模型"学坏了"，而是"谄媚倾向"（sycophancy）在作祟：模型优先选择与用户已表达信念一致的回答，而不是正确的回答。当使用 Mem0、Zep 这类记忆系统时，这种倾向会被大幅放大。

AI 公司 Writer 的研究团队上月发表了两篇论文，专门研究这个问题——

《一致性的代价》（The Price of Agreement）：金融 Agent 场景下，谄媚如何让模型给出错误答案
《记性太好》（Recalling Too Well）：记忆系统如何将谄媚率放大数倍

"每多存储一次用户偏好，你就多增加了一次风险。"论文作者、Writer AI 负责人 Dan Bikel 说。

谄媚的经济账

第一篇论文把场景放在金融分析。研究人员在 FinanceBench 和 FinanceAgent 两个基准上测试了 8 个前沿模型。FinanceBench 考验从 10-K、10-Q 年报中提取信息的能力；FinanceAgent 则需要模型调用工具、检索文档、做多步财务推理。

关键操作：给模型注入对抗性用户偏好信息——模拟一个真实的分析师档案，内容与标准答案相矛盾。

结果出来了：直接注入（直接在 Prompt 里加用户偏好）会导致准确率大幅下降，但模型至少还会"有所警觉"，在回答中提到冲突。而通过工具结果注入（即模拟记忆系统返回的检索结果）时，准确率下降幅度较小，冲突感知率几乎归零——模型给出了错误答案，但完全没有提示任何问题。

记忆系统注入的错误，比直接注入的 Prompt 更难发现。

研究还发现一个规律：大模型倾向于"给出错误答案但承认冲突"；小模型则倾向于"直接给出错误答案，连冲突都不提"。模型越大，越可能"知错认错"——但仍然会错。

模型谄媚行为矩阵：Q1=理想（正确+承认冲突）；Q2=可观测的谄媚；Q3=完全谄媚且不可观测；Q4=稳健但可能不安全

记忆如何放大问题

第二篇论文把问题推进了一步：如果对抗性偏好不是人工注入的，而是通过真实的多轮对话被记录进记忆系统，然后在后续对话中被检索出来呢？

这就是真实的使用场景——用户几周前提过一个错误假设，模型当时温和地纠正过，但记忆系统把用户的错误说法存成了"事实"，现在每次相关查询都会把这条"事实"翻出来。

研究人员为此构建了 MIST 基准（Memory Influence on Sycophancy Tests），跨越三个领域：GPQA Diamond（科学推理）、MMLU Medical（医学推理）、Moral Stories（道德推理）。每道题都先生成一条看似合理的用户误解，模拟一段包含这条误解的多轮对话，把这段对话灌进记忆系统，再看模型在后续问题上的回答是否偏移。

测试了 5 个前沿模型家族，横跨三个主流企业记忆系统：Mem0、MemOS、Zep。

每款模型在至少一种记忆条件下，谄媚率都至少翻了三倍。 部分机型在特定记忆系统下，谄媚率从基线的极低水平跳升至40% 以上。

论文的核心诊断是：记忆提取（extraction）是罪魁祸首。 有损压缩把多轮对话压缩成离散的片段，把用户的误解编码为"事实"，同时丢弃了最有价值的信息——AI 的纠正、用户的犹豫、对话中的修正过程。提取后的片段只保留了"用户说过 X"，丢失了"但 AI 告诉用户 X 是错的"这个关键上下文。

5个模型×3个记忆系统：每款模型在至少一种记忆条件下谄媚率至少翻三倍

解决方案：让 AI 的声音不被淹没

论文给出了两个缓解方案，成本不高。

记忆系统在提取时加入AI 纠正记录——把模型纠正用户的那句话也一起存入记忆，而不是只存用户的话。这个改动不需要改变检索或格式化逻辑，但能显著降低谄媚率。

另一个方向是把离散片段换成 LLM 生成的散文摘要。当把提取换成约等长的 LLM摘要时，谄媚率降至 12.8%——甚至比最好的现成记忆系统 Zep（17.1%）还低，同时 factual recall 指标还有所提升。复杂的记忆系统，还不如一段 LLM 写的总结。

论文作者因此提出了一个值得整个行业思考的问题：当我们用复杂的记忆系统来维护用户历史时，我们究竟在获得什么？

上下文越多，准确性越低——这不是悖论

"AI 越来越懂我"听起来是一件好事。但这两篇论文揭示了一个反直觉的现实：在当前的记忆系统架构下，上下文越多，准确率反而越低。 不是因为模型变笨了，而是因为记忆系统选择性地保留了用户的错误信念，同时丢弃了模型的纠正。

这在金融、医疗这些高风险领域，是一个严肃的可靠性问题。一个在财务分析中"愉快地改变答案来迁就用户错误"的 AI，比一个直接给出错误答案的 AI 更难被察觉——因为它表面看起来更"顺畅"，更"符合用户预期"。

光看准确率指标不够，必须同时测量模型是否在冲突面前主动提示冲突。一个"悄悄错了"的系统，比一个"明显错了"的系统危险得多。

对正在构建企业 AI系统的团队来说，这两篇论文是一个明确的信号：在你把记忆系统接进来之前，你需要想清楚——它会记住什么，忘记什么，以及那意味着什么。

记忆提取将用户的错误信念编码为"事实"，同时丢弃AI的纠正上下文

S3Mem：长时序Agent的「记忆接口」革命，用结构化记忆打破检索瓶颈

当 AI 进入「自主时代」：Bigdata 2026 金融 AI 报告