聊了100轮,它突然问你「之前讨论过什么」。
这不是段子,是我真干过的事。
我让Claude帮我做一个架构决策,讨论了两周,换了三个方案,吵了无数次。最后结论是「先用PostgreSQL,MongoDB作为长期备选」。两周后新对话,我问Claude「我们当时为什么选了PostgreSQL」,它说「我不记得讨论过这个」。
我第一反应是翻聊天记录。翻了半小时,找到了——在我和它第一百零几轮对话里。
这就是AI失忆的核心问题。
AI失忆有多严重:上下文窗口装不下的半年对话
上下文窗口是LLM每次能处理的最大token数。GPT-4o最大是128k tokens。这听起来很大,但实际上呢?
我算过一笔账。独立开发者每天用AI辅助工作2小时,每小时大约产生5000个tokens的对话。半年180天,总共是180万tokens。
128k上下文窗口,只能装12.8万tokens。差了14倍。
就算把半年对话全部压缩,压缩到每段对话100个tokens的摘要,180天的摘要总量是1.8万tokens,还是可以装进去的。但这个摘要的信息密度太低了,100个tokens能记录多少东西?
真正的灾难是LLM摘要会丢失什么。当LLM提取「用户偏好PostgreSQL」的时候,讨论过的替代方案、被否决的原因、相关的trade-off——这些上下文全部丢失了。「用户偏好PostgreSQL」这个事实很简单,但「为什么偏好」才是真正有价值的部分。LLM摘要把细节丢了,只留下了最表层的信息。
LLM决定什么值得记住,这件事本身就错了。
MemPalace是什么:记忆宫殿的隐喻
MemPalace的思路完全不一样。
名字来自古希腊的「记忆宫殿」Method of Loci。古代演说家把想法「放置」在想象建筑的各个房间里,回忆时在脑中「走过」建筑找到想法。MemPalace把这个隐喻用在了AI记忆上。
记忆的组织结构是层级式的。Wings代表一个项目或者一个人。Halls代表记忆的类型。Rooms代表具体的话题。Closets或者Drawers代表具体的交谈片段。
这不是扁平的搜索索引,是有结构的建筑。你走进Wing,找到Hall,上楼进Room,开抽屉拿具体的交谈片段。这是你在真实建筑里会做的事,MemPalace让你在记忆里做同样的事。
MemPalace的Mining模式支持几种数据源。Projects是代码和文档,convos是导出的对话记录,支持Claude、ChatGPT、Slack,general是自动分类为决策、偏好、里程碑、问题、情感上下文的片段。
Claude Code集成后,安装了MemPalace,Claude Code可以通过MCP协议直接调用MemPalace的19个工具。用户不需要手动搜索,AI自动在后台完成记忆召回。用户只需要问「我们上个月关于auth做了什么决定」,Claude自动调用搜索,返回结果,回答用户。用户永远不需要想「我需要在记忆里搜一下」。
本地化运行是核心特点。ChromaDB在本地运行,AAAK压缩在本地完成,零API调用。数据完全不离开用户机器。
AAAK是MemPalace实验性的压缩模式,把重复实体压缩成更少tokens。但MemPalace团队主动承认了AAAK的得分低于Raw模式。Raw模式是96.6%,AAAK模式是84.2%。团队把这个数字公开写在了README里,还加了honest note承认这个问题。
Raw Verbatim Storage:不做摘要反而效果更好
这是MemPalace最反直觉的地方。
不用LLM摘要,直接把对话原始文本存入ChromaDB。96.6%的R@5成绩来自这个「不做摘要」的原始方案。
为什么不做摘要反而更好?
原始对话500个tokens,讨论了PostgreSQL和MongoDB的选型,包含替代方案、被否决的原因、trade-off分析。LLM摘要后变成50个tokens:「用户选择PostgreSQL作为主数据库」。
丢失了什么?「为什么选PostgreSQL」——因为运维经验、领域模型契合。丢失了。「讨论过什么替代方案」——MongoDB。丢失了。「未来迁移计划」——MVP阶段不做迁移。丢失了。
这不是LLM做错了什么,是摘要这个动作本身就会丢失信息。摘要是有损压缩,压缩率越高损失越大。LLM在摘要时做了主观判断,什么重要什么不重要,但LLM的判断不一定对。
MemPalace选择不判断。存储所有内容,让搜索来找。
ChromaDB提供语义搜索能力。语义相似度检索加上metadata filtering按wing、room、hall过滤,再加上hybrid scoring语义加关键词混合。Top-10召回,无LLM介入的纯向量检索。
为什么这个方案赢?LLM摘要丢失的信息,在检索时全部回来了。你问「为什么选数据库」,完整讨论片段被召回,包含所有trade-off分析。AI基于完整上下文推理,不是基于一个干巴巴的结论推理。
Benchmark真相:以及团队48小时内的公开纠错
LongMemEval基准测试,MemPalace Raw模式得分96.6% R@5。500道题,零API调用。这是在「无需LLM」的记忆系统里最高分。
加入Haiku rerank后是100%。500题全对。这是LongMemEval历史上首个满分成绩。代价是每次查询多消耗大约0.001美元。
这两组数字都是真的,但适用场景不同。96.6%是零成本、纯本地的方案。100%是追求最高准确率、生产级使用的方案。
LoCoMo测试里,MemPalace得分92.9%,Mem0得分30%到45%。差距超过两倍。
Mem0是另一个记忆系统,用LLM提取策略。结果是信息大量丢失。LLM主观判断什么重要的时候,间接表达的信息被忽略了。
但这个故事有个插曲。MemPalace发布后几小时内,社区发现了README里的多个问题。
AAAK token计数用了len除以3,而不是真实tokenizer计算,导致压缩倍数被夸大了30倍。Palace boost的34%其实只是metadata filtering,是ChromaDB的标准功能,不是MemPalace的独特创新。团队在48小时内发了长文,承认所有错误。
这就是开源社区的力量。公开纠错,快速响应,48小时内修正。MemPalace团队把这个纠错过程也写进了文档,叫honest note。承认错误的速度和透明度,反而赢得了更多信任。
与其他方案的本质差异:谁来决定记住什么
记忆系统的根本分歧在这里:谁来决定「记住什么」?
Mem0、Mastra、Supermemory都是让LLM决定。LLM观察对话,提取关键记忆,存入向量库。优点是存储高效,缺点是LLM主观决定什么重要,可能丢失间接表达的信息。
MemPalace是让用户决定。全部存储,搜索找回。
Mem0的方案:用LLM观察对话,提取「记忆」存入向量库。持续API调用,成本高,而且LLM决定什么重要这件事本身就有问题。
Mastra的方案:用GPT-5-mini观察对话并记录。与Mem0类似,需要持续API调用。
Supermemory的方案:用LLM运行agentic search passes。每次查询都是LLM驱动的检索迭代,查询成本高。
MemPalace的方案:对话原始文本存入ChromaDB。查询时向量语义搜索召回相关片段。零信息丢失,零API费用Raw模式。
Benchmark排名LongMemEval R@5:MemPal hybrid加Haiku rerank是100%,Supermemory ASMR约99%研究阶段未量产,MemPal hybrid加rerank是99.4%,Mastra是94.87%,MemPal raw是96.6%最高无LLM分数,Mem0大约70%到85%,BM25基线约70%。
OpenClaw Memory和MemPalace的区别。OpenClaw用SQLite存储加语义搜索跨会话召回,MemPalace用ChromaDB加更复杂的层级结构。MemPalace更侧重对话记忆,OpenClaw更侧重Agent工具调用的记忆。两者都是本地优先,都强调隐私。
记忆系统如何重塑Agent能力边界
记忆是AI从工具走向助手的关键。
没有记忆的AI每次都是新手,有记忆的AI才能理解用户的偏好、上下文、长期目标。这不是锦上添花,是雪中送炭。
MemPalace的开源意义是证明了简单方案可以打败复杂方案。Raw存储加向量搜索,这个组合比复杂的LLM提取策略更有效。这推动了整个领域重新思考记忆系统的基本假设。
记忆系统的未来方向是从问答检索到主动记忆。现在是用户问,AI回答。未来是AI在合适的时机自动调用相关记忆。不会等用户问「上次讨论了什么」,而是在对话中途主动关联。用户不需要记住「我问过什么」,AI替用户记住。
MemPalace的Palace结构为这种主动检索提供了物理类比。Wings、Halls、Rooms不只是存储结构,是AI可以「走进走出」的建筑。
隐私和智能的权衡,MemPalace选择了隐私优先。本地运行、零API调用。这对数据不能上云的企业用户和注重隐私的个人用户有强烈吸引力。
Transformers 5.3加MCP协议的意义是MemPalace通过MCP集成进Claude Code。记忆系统正在成为AI Agent的标准基础设施,就像数据库之于应用程序。
MemPalace证明了「存储一切加语义搜索」是可行路径。简单方法赢,因为它不丢失信息。没人发表这个结果,因为没人尝试简单的方法并正确测量它。
留个问题
MemPalace的核心洞察是不要让AI决定什么值得记住,存储所有内容,让结构化搜索让内容可发现。
这个洞察反直觉,但数据说话。96.6%的无LLM方案存在,让所有人意识到记忆问题的答案可能不是更复杂的AI,而是更简单的存储加更好的搜索。
你们被AI失忆折腾过吗?现在用什么方式处理这个问题?
夜雨聆风