过去一年,整个圈子都在死磕 AI 的“脑容量”。
我们每天都在看各种参数:上下文能不能卷到 1000K?向量库能不能塞得更满?模型能不能把过去一整年的聊天记录一口吞下?
这些硬核指标当然重要。但说实话,跟 AI 在真实工作流里泡久了,我越来越觉得:真正致命的难点,根本不在于它“记不记得”,而在于它“有没有记对”。
特别是放在多人协作的场景里,你会发现一个让人非常崩溃的现象——AI memory 最大的灾难,往往不是“忘了”,而是“串了”。
你回想一下我们真实的上班状态: A 在小群里私下吐槽了一个需求; B 在大会上定了调子; 某个周三的下午,大家在白板前临时达成了一个共识,但第二天早上又被法务无情推翻; 产品、开发、运营、老板,每个人说话的立场和潜台词都完全不同。
在这个极其复杂的修罗场里,这些信息绝对不能被 AI 粗暴地压缩成一句:“团队决定了 XXX”。
因为这句话本身没那么重要。真正重要的,是它背后的“社交与权力上下文”: 这话是谁说的?在哪个群里说的? 当时是随便聊聊的草案,还是最终拍板的决策? 后来有没有被推翻?说话的这个人,到底有没有权限定这件事? 现在跑来问 AI 的这个人,又该看哪个版本的答案?
这才是长期记忆真正让人头秃的地方。它根本不是硬盘容量的问题,而是人情世故、关系网络和版本迭代的问题。
为什么现在的 Memory 评测,总觉得差了点意思?
现在市面上的很多 memory benchmark,本质上还是在做一道“大海捞针”的考试题。
比如,在一个几万字的对话里,你曾经提过一嘴自己喜欢喝黑咖啡;两周后问模型,看它能不能翻出这个偏好。
这种测试当然有价值,但它离我们真实的协作状态,差了十万八千里。
真实的工作,从来不是两个人一来一回地岁月静好。真实情况是: 一个项目切了 5 个群,你同时活在这 5 个群里; 同一个痛点,在产品群、开发群和管理群里被反复拉扯; 一个决定从提出、吵架、修改、确认、废弃到最终归档,中间隔了八百个版本。
如果只测试“记住一条事实”,那就太高估现在 AI 的能力了。
它可能确实记得“群里有人提过给客户打 75 折”,但它不知道这个折扣需要财务总监预审批; 它可能记得“某个接口方案上周讨论过”,但不知道后来已经换成了新方案; 它可能记得“张三做过数据库表设计”,但在给你推荐任务负责人的时候,它搞不清谁是规则的定义者,谁只是底层数据的“搬运工”。
这不是简单的遗忘。这是记忆的三观和结构全错了。
真实世界的记忆,不是一本流水账
最近看到一篇挺有意思的论文(EverMind 团队的 KDD 2026 Oral),他们搞了个叫 EverMemBench 的测试集。
这玩意儿有意思在哪?它没有继续卷“长上下文检索”,而是把 memory 往前推了一步——走向了“协作状态管理”。
它专门模拟了极其恶劣的真实协作环境:多个项目、不同团队、各色人等,在一年时间里持续推进任务。这里面的信息不是孤立的,而是会跨群传播、跨时间更新、被不同的人反复改写。
它不看模型能不能背课文,只看模型能不能在这种浑水里搞清楚三件事:
第一,不是简单搜到,而是找对版本(细粒度召回)。比如老王前天发了个 Figma 设计草图的链接,今天又发了 Confluence 的最终交付物。AI 不能一看到“链接”和“老王”俩词,就把旧草图扔给你。它得在一堆乱麻里挑出那根真丝。
第二,懂得看眼色(记忆意识)。AI 不能像个算盘,拨一下动一下。如果用户带点情绪地命令:“马上给我草拟一个 75 折合同!”真正有记忆意识的 AI 应该主动拉住你:“这折扣超出常规了,过去的规矩是得先走审批”,而不是顺着你的强语气,闭着眼睛往下写。
第三,懂人,懂角色边界(用户画像理解)。这绝对不是给用户贴几个“喜欢科幻、不吃香菜”的标签。一个 PM 写事故复盘,盯的是 SLA 和流程漏洞;一个程序员写同一件事,盯的可能是内存泄漏和 GC。AI 要是把这俩视角搅和在一起,写出一大坨“平均化的正确废话”,看起来很专业,实际上早就串味了。
扎心的真相:单点记忆凑合,一到多群准确率就大幅降低
论文里的实验结果非常说明问题。
如果是“单跳问题”(也就是从历史里直接揪出一个明确的事实),现在的长上下文模型表现都不错。但一旦进入“多跳问题”,情况直接跳水。
什么叫多跳?就像老板突然问你:“那个新功能现在到底谁在接手?” 这答案不可能在一个群里。产品群里说了需求归属,开发群里老李把活儿转给了小张,发布群里又定了上线窗口。
我们人类打工人,脑子里自然会有一张“人-事-时间”的网络,能把这些线索串起来。但现在的模型很容易在中间某一步就接错线。
结果显示,跨的群越多,准确率掉得越惨。这就说明,模型根本没有真正在脑子里建构起一张“协作关系图”。它听见了很多声音,但不知道这些声音之间到底是什么因果关系。
时间不是时间戳,而是“生命周期”
这里还有个巨大的盲区:时间。
很多系统底层把时间当成冷冰冰的 timestamp:谁在某年某月某日说了什么。但这在协作里是致命的。
真实工作里的时间,是有“状态含义”的: 这件事什么时候提的?什么时候开始做的?什么时候被推翻了?什么时候才算正式归档?
如果你只按时间戳去查,很容易翻车。比如老李提前说了句“这活儿差不多了”,第二天小张补充“不行,依赖项还没过”,下周才真正搞定。AI 如果只靠字面匹配抓住了老李的“差不多”,就会把半成品当成最终定论。
这也是我特别认同这篇论文的地方:长期记忆不应该是个只进不出的日志仓库。它必须能理解一条信息的“生命周期”。
草案、确认、废弃、覆盖、归档。这几个状态搞不清楚,AI 记的东西越多,最后给你的答案就越乱。现在的很多系统底层还是靠相似度检索——用户问什么,就去找长得最像的片段。
但真正相关的信息,字面往往长得不像。你问“新字段谁负责?”,应该被找出来的,不是带“字段”俩字的聊天记录,而是十几条关于“谁定规范、谁搞落地”的深层讨论。这种相关,是基于结构、角色和权限的相关,而不是字面拼写的相关。
我的判断:未来的 Memory,是维护一个微型世界模型
所以,为什么我觉得把“串了”这件事做成 benchmark 这么重要?
因为以前我们谈 AI 的“记忆”,总觉得它能记住我的名字就很神奇了。但这远远不够。真正能进生产环境、帮我们打工的 AI 记忆,必须得回答那些硬核问题:能不能区分旧版本和新版本?能不能懂临时共识和组织结论的区别?
只有把这些短板测出来,逼着系统去面对,AI 才会从简单的“存和搜”,进化到结构化、版本化和关系化。
最后说一下我的判断:
AI 的 Memory,接下来一定会从“记住内容”,走向“维护状态”。
它不只是记住你说了什么废话,而是要在持续的协作中,维护一个不断动态更新的微型“世界模型”: 人和人的关系网络。 任务和任务的先后依赖。 旧规则和新规则的优先级碰撞。 这个决定现在迭代到了哪个版本。 过去说过的话,在今天、在这个群、对这个人,到底还算不算数。
这才是长期记忆和普通 RAG 最本质的区别。RAG 是在死去的历史资料库里挖坟找答案;而 Memory,是在活生生的持续协作里陪你维护上下文。
一个真正拥有长期记忆的 AI,不应该只是“熟练地把旧账翻出来”。 它得知道:过去的事,哪些还要守,哪些早翻篇了。
不然的话,它那不叫记忆力好。 只是把过期的旧信息,重新捣了一遍糨糊。
夜雨聆风