
这不只是烦人。对于把 AI 当作编程搭档、研究助手乃至咨询顾问的人来说,这是一种系统性的能力缺陷:模型再聪明,记不住你的上下文,就只能重复做功。
2026 年 4 月,一个名为 MemPalace 的开源项目在 GitHub 上横空出世——两周内狂揽超过 47,000 颗 star,在 AI 长期记忆基准测试 LongMemEval 上以 96.6% 的 Recall@5 拿下已公开的最高分。
但真正让开发者圈和 AI 社区沸腾的,不是分数本身,而是它解决问题的思路——把一门 2500 年前的古老记忆术,用代码变成大模型的“外脑”。
为什么大语言模型需要“记忆”?
这要从 LLM 的先天限制说起。无论是 Claude、GPT 还是其他主流模型,它们的有效工作窗口就像人的“工作记忆”,容量极其有限。你与 AI 的每一次对话,背后都是在有限 token 的上下文窗口内进行的。一旦对话结束,窗口关闭,聊过的所有内容就“蒸发”了。
行业里当然早就有人在尝试解决这个问题。主流路线大致分为两类:
一是压缩式记忆,像 Claude-Mem 这类工具,通过自动捕捉对话并用 AI 自身进行摘要压缩,把长篇大论变成“小作文”塞回上下文。本质上是在同等窗口内多装一点东西。
二是提取式外挂记忆,像 Mem0 这样的系统,在模型外部建独立记忆仓库,由 LLM 把对话中的关键信息提取出来存入向量数据库,下次通过语义检索调取。
但这两条路线有一个共同的隐含缺陷:它们都依赖 AI 来判断“什么值得记住”。换句话说,是你的 AI 在替你做记忆的筛选和决策——而那个被丢掉/被压缩的部分里,可能恰好藏着你真正在意的东西/细节。
这就是 MemPalace 切入的角度:与其让 AI 替你决定,不如先全部存下来,然后让结构帮你找到它。
项目背后的故事:当“打丧尸女王”被 AI 气到亲自动手
MemPalace 的诞生有一个相当戏剧性的背景。
它的核心作者之一,是曾在《生化危机》系列电影中饰演女主角的好莱坞女星 Milla Jovovich。
2025 年下半年,她频繁使用 AI 辅助商业决策和合同分析,对话记录积累了数千条(笔者注:早已超过绝大多数大模型甚至包括各种Agent智能体记忆能力,深度使用到这个程度,各种幻觉、细节丢失甚至胡说八道就会出现)。
但她很快被一个反复出现的问题激怒了——每次新会话一开,之前的讨论就“人间蒸发”了。更让她恼火的是,有一次 AI 擅自把她精心输入的决策背景判定为“无关信息”然后默默丢弃。

用她自己的话说:“我不想让 AI 决定什么值得被记住,我想要真正的记忆。”
于是 Milla 找来工程师好友 Ben Sigman,两人花了几个月时间,用 Anthropic 的 Claude Code 作为编程工具,联手把心中的“记忆宫殿”写成了代码,并于 2026 年 4 月在 GitHub 上正式开源。项目上线短短几小时就收获近两万颗星,迅速登上 GitHub 热榜。
核心技术原理:把记忆宫殿变成数据结构
MemPalace 这个名字的直接来源,是古希腊演说家使用了 2500 多年的 “记忆宫殿法”(Method of Loci)——在世界记忆锦标赛上,顶尖选手们用的也是同一套技术。

这套古老方法的原理在于:人脑天生擅长空间记忆和视觉联想。古代演说家为了背诵整篇演说,会把每一个论点“放置”到想象中的建筑房间里;演讲时,他只需在心中沿着建筑走一圈,依次推开房门,就能顺畅地取出对应的内容。

MemPalace 把这个隐喻完整地翻译成了数据结构。用户的对话和文档被组织成以下层级:
Wing(翼楼):顶层空间,代表一个人或一个项目,每个翼楼是独立的记忆域
Room(房间):翼楼内的具体主题空间,如“认证”、“计费”、“部署”
Hall(走廊):连接同一翼楼内相关房间的分类通道,定义记忆的类型——是决策、偏好、建议还是发现
Drawer(抽屉):存放原始逐字记录,一字不动,完整封存
Closet(衣柜):存储压缩摘要,为 AI 快速读取而准备
Tunnel(隧道):当不同翼楼中出现同一主题房间时,系统自动打通隧道,实现跨项目知识连接
检索时,AI 不再是平铺式地全局搜索,而是沿着 Wing → Hall/Room → Drawer 的路径精准导航。这就像在一个井然有序的图书馆里查找资料,而不是在一堆散乱的纸箱中翻找——空间结构本身就是索引。
更关键的是,MemPalace 的存储哲学与市面上主流方案截然相反:它采用“逐字优先”的 verbatim storage 策略,把用户的原始交流原封不动存入 ChromaDB,不做摘要,不做提取,不烧 LLM 去判断“什么值得记”——全部保留,靠语义搜索让它被找到。
这种看似“笨拙”的做法,恰恰是它拿下 96.6% Recall@5 的核心原因。后续的独立学术分析也印证了这一点:MemPalace 出色的检索成绩,主要归功于 verbatim 存储策略与 ChromaDB 默认嵌入模型 all-MiniLM-L6-v2 的组合,而非空间隐喻本身——宫殿的层级结构在实际查询中本质上等同于向量数据库的元数据过滤。但这恰好也说明,MemPalace 的 “存储一切 + 结构化导航” 思路是高度可工程化、有复现路径的。
记忆堆栈:用 170 tokens 唤醒一个“记得你”的 AI
存储精准是一回事,怎么加载又是另一回事。如果你把所有历史对话一股脑塞进上下文窗口,成本会飞速膨胀,响应也会变慢。
MemPalace 的解决方案是一套四层记忆堆栈,按重要程度分层加载:
| 层级 | 内容 | Token 消耗 | 加载时机 |
|---|---|---|---|
| Layer 0(Identity) | “我是谁?我的角色是什么?” | 约 170 tokens | 每次对话始终加载 |
| Layer 1(Essential Story) | AAAK 压缩后的核心项目里程碑 | 包含在 L0+L1 中 | 始终加载 |
| Layer 2(On-Demand Rooms) | 按需检索的具体房间内容 | 按需扩展 | 局部补充 |
| Layer 3(Deep Search) | 全局语义搜索 | 按需扩展 | 深度检索 |
逻辑简单而有效:先用最小的成本让 AI 理解你的基本上下文,不够再局部补充,还不够再开启全局深度搜索。
在一项对 6 个月、约 1950 万 tokens 对话数据的实际测试中,MemPalace 日常唤醒仅需约 170 个 tokens,按需扩展也仅消耗约 13,500 个 tokens。与传统总结压缩方案对比,年成本从约 507 美元骤降至约 10 美元——两个数量级的差距。
AAAK:一门 AI 能读懂的缩写语言(以及坦诚的自我纠错)
MemPalace 还有一个技术上非常有趣的实验性组件——AAAK(Asynchronous AI Abbreviated Knowledge)。
这是一种专为大模型设计的压缩方言,把长对话项目历史压缩成高密度格式,目标是节省 token 的同时保留“who、what、why”的核心信息。举个例子,一段描述“Jordan 决定因复杂连接需求把数据库切换为 PostgreSQL,这对后端团队是个重大里程碑”的自然语言,经 AAAK 压缩后可能变成:
PROJ: backend | fierce JOR→switch DB to Postgres (joins) | ★★★★ | MIL: backend-db-switch
人类读起来费劲,但对 LLM 来说却可快速解析。
不过,MemPalace 团队在这个话题上展现了相当难得的诚实。项目发布后几小时内,社区就指出了 AAAK 文档中的问题。Milla 和 Ben 随即在 README 中公开发布勘误:
Token 计数错误:原先用
len(text)//3的粗糙估算代替实际 tokenizer 计数。经 OpenAI 的 tokenizer 重新计算后发现,那个用来展示的英文示例反而是 AAAK 版本 tokens 更多。“30 倍无损压缩”是夸大宣传:AAAK 实际上是有损缩写系统(实体代码、句子截断)。独立基准测试证实,AAAK 模式在 LongMemEval 上 R@5 得分 84.2%,与 raw 模式的 96.6% 有 12.4 个百分点的明显退化。
团队因此明确标注 AAAK 是实验性功能,不作为默认存储方式,目前仍在迭代中。这种上线即公开纠错的态度,在开源社区中反而赢得好感。
深度审视:空间隐喻是魔法还是精致包装?
MemPalace 的爆火也引来了学术界的审视。2026 年 4 月 23 日,一篇题为《Spatial Metaphors for LLM Memory: A Critical Analysis of the MemPalace Architecture》的论文上线 arXiv,对 MemPalace 进行了独立的代码级分析、基准复现和横向对比。
这份分析的核心结论是:MemPalace 确实做出了重要贡献,但其宣传声明被夸大了。 具体来说:
真正的新颖贡献:
逐字优先的存储理念——挑战了整个行业“提取压缩”的主流范式,反其道而行
极低唤醒成本(约 170 tokens)——四层堆栈设计的工程价值实实在在
完全确定性、零 LLM 写入路径——不需要调用任何大模型 API 就能完成记忆存取,意味着零 API 成本、完全可离线运行
首次系统性地将空间记忆隐喻作为 AI 记忆系统的组织原则——这个思想实验本身的启发性就该被正视
宣传过度的部分:
出色的检索性能主要归功于 verbatim 存储和 ChromaDB 嵌入模型,而非空间隐喻本身
宫殿层级(Wings→Rooms→Closets→Drawers)在查询时本质上就是向量数据库的元数据过滤,是成熟技术而非颠覆性创新
这属于开源项目中常见的现象:营销速度跑在科学严谨性前面
这一判断与 MemPalace 团队自身的自我纠错行为形成了呼应:一个好的项目不需要“完美”的人设,坦诚面对技术边界反而更有说服力。
值得注意的是,竞争格局也在快速变化。同一篇论文指出,Mem0 在 2026 年 4 月推出的 token 优化算法将其 LongMemEval 得分从约 49% 提升到 93.4%,大幅缩小了提取式方案与逐字方案之间的差距。AI 记忆这个赛道,还远未定型。
写在最后:当记忆宫殿遇上 AI
MemPalace 的启示,远不止是某个特定工具的好坏。
它让我们重新审视一个问题:当我们在谈论“AI 记忆”时,我们到底在谈论什么?
在学术界,记忆宫殿法的训练已被 fMRI 证实能够在前额叶皮层中形成独特的神经表征,让记忆编码更为“独一无二”且更易提取。人类的大脑天生就是通过空间和叙事来编码记忆的。
而 MemPalace 用一种有趣的方式表明,同样的心智模型或许也适用于给 AI 建造“记忆外挂”——不是让 AI 替你筛选记忆,而是让空间结构替你做导航。
它还提醒我们,开源社区的价值不止于“免费”。项目上线数小时内,社区就找出了文档中的技术问题;项目发布两周后,独立学术团队完成了代码级分析和基准复现。这种透明和协作,是闭源产品永远无法匹敌的。
但 MemPalace 绝非完美。 逐字存储的代价是存储膨胀,空间结构本质上仍是元数据过滤,AAAK 还远未成熟。它的故事不是“屠龙勇士打败所有对手”,而是“一个勇敢的尝试,用一条少有人走的路,推动整个 AI 记忆赛道加速演化”。
值得一试的,永远是那个敢于用 2500 年前的智慧,去碰撞当代最强技术的勇气。

夜雨聆风