为什么 AI 记忆系统突然成了新战场?MemPalace 41K Star 的技术真相

聊了100轮，它突然问你「之前讨论过什么」。

这不是段子，是我真干过的事。

我让Claude帮我做一个架构决策，讨论了两周，换了三个方案，吵了无数次。最后结论是「先用PostgreSQL，MongoDB作为长期备选」。两周后新对话，我问Claude「我们当时为什么选了PostgreSQL」，它说「我不记得讨论过这个」。

我第一反应是翻聊天记录。翻了半小时，找到了——在我和它第一百零几轮对话里。

这就是AI失忆的核心问题。

AI失忆有多严重：上下文窗口装不下的半年对话

上下文窗口是LLM每次能处理的最大token数。GPT-4o最大是128k tokens。这听起来很大，但实际上呢？

我算过一笔账。独立开发者每天用AI辅助工作2小时，每小时大约产生5000个tokens的对话。半年180天，总共是180万tokens。

128k上下文窗口，只能装12.8万tokens。差了14倍。

就算把半年对话全部压缩，压缩到每段对话100个tokens的摘要，180天的摘要总量是1.8万tokens，还是可以装进去的。但这个摘要的信息密度太低了，100个tokens能记录多少东西？

真正的灾难是LLM摘要会丢失什么。当LLM提取「用户偏好PostgreSQL」的时候，讨论过的替代方案、被否决的原因、相关的trade-off——这些上下文全部丢失了。「用户偏好PostgreSQL」这个事实很简单，但「为什么偏好」才是真正有价值的部分。LLM摘要把细节丢了，只留下了最表层的信息。

LLM决定什么值得记住，这件事本身就错了。

MemPalace是什么：记忆宫殿的隐喻

MemPalace的思路完全不一样。

名字来自古希腊的「记忆宫殿」Method of Loci。古代演说家把想法「放置」在想象建筑的各个房间里，回忆时在脑中「走过」建筑找到想法。MemPalace把这个隐喻用在了AI记忆上。

记忆的组织结构是层级式的。Wings代表一个项目或者一个人。Halls代表记忆的类型。Rooms代表具体的话题。Closets或者Drawers代表具体的交谈片段。

这不是扁平的搜索索引，是有结构的建筑。你走进Wing，找到Hall，上楼进Room，开抽屉拿具体的交谈片段。这是你在真实建筑里会做的事，MemPalace让你在记忆里做同样的事。

MemPalace的Mining模式支持几种数据源。Projects是代码和文档，convos是导出的对话记录，支持Claude、ChatGPT、Slack，general是自动分类为决策、偏好、里程碑、问题、情感上下文的片段。

Claude Code集成后，安装了MemPalace，Claude Code可以通过MCP协议直接调用MemPalace的19个工具。用户不需要手动搜索，AI自动在后台完成记忆召回。用户只需要问「我们上个月关于auth做了什么决定」，Claude自动调用搜索，返回结果，回答用户。用户永远不需要想「我需要在记忆里搜一下」。

本地化运行是核心特点。ChromaDB在本地运行，AAAK压缩在本地完成，零API调用。数据完全不离开用户机器。

AAAK是MemPalace实验性的压缩模式，把重复实体压缩成更少tokens。但MemPalace团队主动承认了AAAK的得分低于Raw模式。Raw模式是96.6%，AAAK模式是84.2%。团队把这个数字公开写在了README里，还加了honest note承认这个问题。

Raw Verbatim Storage：不做摘要反而效果更好

这是MemPalace最反直觉的地方。

不用LLM摘要，直接把对话原始文本存入ChromaDB。96.6%的R@5成绩来自这个「不做摘要」的原始方案。

为什么不做摘要反而更好？

原始对话500个tokens，讨论了PostgreSQL和MongoDB的选型，包含替代方案、被否决的原因、trade-off分析。LLM摘要后变成50个tokens：「用户选择PostgreSQL作为主数据库」。

丢失了什么？「为什么选PostgreSQL」——因为运维经验、领域模型契合。丢失了。「讨论过什么替代方案」——MongoDB。丢失了。「未来迁移计划」——MVP阶段不做迁移。丢失了。

这不是LLM做错了什么，是摘要这个动作本身就会丢失信息。摘要是有损压缩，压缩率越高损失越大。LLM在摘要时做了主观判断，什么重要什么不重要，但LLM的判断不一定对。

MemPalace选择不判断。存储所有内容，让搜索来找。

ChromaDB提供语义搜索能力。语义相似度检索加上metadata filtering按wing、room、hall过滤，再加上hybrid scoring语义加关键词混合。Top-10召回，无LLM介入的纯向量检索。

为什么这个方案赢？LLM摘要丢失的信息，在检索时全部回来了。你问「为什么选数据库」，完整讨论片段被召回，包含所有trade-off分析。AI基于完整上下文推理，不是基于一个干巴巴的结论推理。

Benchmark真相：以及团队48小时内的公开纠错

LongMemEval基准测试，MemPalace Raw模式得分96.6% R@5。500道题，零API调用。这是在「无需LLM」的记忆系统里最高分。

加入Haiku rerank后是100%。500题全对。这是LongMemEval历史上首个满分成绩。代价是每次查询多消耗大约0.001美元。

这两组数字都是真的，但适用场景不同。96.6%是零成本、纯本地的方案。100%是追求最高准确率、生产级使用的方案。

LoCoMo测试里，MemPalace得分92.9%，Mem0得分30%到45%。差距超过两倍。

Mem0是另一个记忆系统，用LLM提取策略。结果是信息大量丢失。LLM主观判断什么重要的时候，间接表达的信息被忽略了。

但这个故事有个插曲。MemPalace发布后几小时内，社区发现了README里的多个问题。

AAAK token计数用了len除以3，而不是真实tokenizer计算，导致压缩倍数被夸大了30倍。Palace boost的34%其实只是metadata filtering，是ChromaDB的标准功能，不是MemPalace的独特创新。团队在48小时内发了长文，承认所有错误。

这就是开源社区的力量。公开纠错，快速响应，48小时内修正。MemPalace团队把这个纠错过程也写进了文档，叫honest note。承认错误的速度和透明度，反而赢得了更多信任。

与其他方案的本质差异：谁来决定记住什么

记忆系统的根本分歧在这里：谁来决定「记住什么」？

Mem0、Mastra、Supermemory都是让LLM决定。LLM观察对话，提取关键记忆，存入向量库。优点是存储高效，缺点是LLM主观决定什么重要，可能丢失间接表达的信息。

MemPalace是让用户决定。全部存储，搜索找回。

Mem0的方案：用LLM观察对话，提取「记忆」存入向量库。持续API调用，成本高，而且LLM决定什么重要这件事本身就有问题。

Mastra的方案：用GPT-5-mini观察对话并记录。与Mem0类似，需要持续API调用。

Supermemory的方案：用LLM运行agentic search passes。每次查询都是LLM驱动的检索迭代，查询成本高。

MemPalace的方案：对话原始文本存入ChromaDB。查询时向量语义搜索召回相关片段。零信息丢失，零API费用Raw模式。

Benchmark排名LongMemEval R@5：MemPal hybrid加Haiku rerank是100%，Supermemory ASMR约99%研究阶段未量产，MemPal hybrid加rerank是99.4%，Mastra是94.87%，MemPal raw是96.6%最高无LLM分数，Mem0大约70%到85%，BM25基线约70%。

OpenClaw Memory和MemPalace的区别。OpenClaw用SQLite存储加语义搜索跨会话召回，MemPalace用ChromaDB加更复杂的层级结构。MemPalace更侧重对话记忆，OpenClaw更侧重Agent工具调用的记忆。两者都是本地优先，都强调隐私。

记忆系统如何重塑Agent能力边界

记忆是AI从工具走向助手的关键。

没有记忆的AI每次都是新手，有记忆的AI才能理解用户的偏好、上下文、长期目标。这不是锦上添花，是雪中送炭。

MemPalace的开源意义是证明了简单方案可以打败复杂方案。Raw存储加向量搜索，这个组合比复杂的LLM提取策略更有效。这推动了整个领域重新思考记忆系统的基本假设。

记忆系统的未来方向是从问答检索到主动记忆。现在是用户问，AI回答。未来是AI在合适的时机自动调用相关记忆。不会等用户问「上次讨论了什么」，而是在对话中途主动关联。用户不需要记住「我问过什么」，AI替用户记住。

MemPalace的Palace结构为这种主动检索提供了物理类比。Wings、Halls、Rooms不只是存储结构，是AI可以「走进走出」的建筑。

隐私和智能的权衡，MemPalace选择了隐私优先。本地运行、零API调用。这对数据不能上云的企业用户和注重隐私的个人用户有强烈吸引力。

Transformers 5.3加MCP协议的意义是MemPalace通过MCP集成进Claude Code。记忆系统正在成为AI Agent的标准基础设施，就像数据库之于应用程序。

MemPalace证明了「存储一切加语义搜索」是可行路径。简单方法赢，因为它不丢失信息。没人发表这个结果，因为没人尝试简单的方法并正确测量它。

留个问题

MemPalace的核心洞察是不要让AI决定什么值得记住，存储所有内容，让结构化搜索让内容可发现。

这个洞察反直觉，但数据说话。96.6%的无LLM方案存在，让所有人意识到记忆问题的答案可能不是更复杂的AI，而是更简单的存储加更好的搜索。

你们被AI失忆折腾过吗？现在用什么方式处理这个问题？