一位好莱坞女星,把 AI 长期记忆卷进了开源战场?

最近，一篇 Reddit 帖子在 AI 圈里刷屏。

Milla Jovovich（米拉·乔沃维奇，《生化危机》系列里爱丽丝的扮演者）和开发者一起发布了一个 AI 记忆系统。帖子里把它写成 LongMemEval 上的高分项目，而且免费、可 pip 安装。

如果你在做 Agent、做 AI workflow，或者长期被“AI 一开新会话就失忆”困扰，这条消息确实很抓人。

但顺着仓库 README 和社区讨论往下看，重点还是得回到项目本身。

这条帖子会刷屏，其实也不难理解。
它把几种最容易传播的元素放到了一起：

• 明星参与

• 开源

• 免费

• pip install

• 高跑分

这种组合本来就很容易把注意力快速拉满。

MemPalace 是一个开源的 AI 记忆系统，想解决的是一个很具体的问题：

Agent 能做事，但经常记不住：

• 你是谁

• 团队决定过什么

• 上周为什么改方案

它给出的方向也很清楚：

• 不把所有历史硬塞进 prompt

• 先把原始内容保留下来

• 再做成分层、可检索、可导航的长期记忆结构

这也是它会被迅速放大的原因。
它碰到的是很多 Agent 系统迟早都会撞上的记忆问题。

MemPalace 到底在做什么

README 开头写得很直接：

• 把所有对话原文保留下来

• 不靠模型先决定“什么值得记住”

• 再把这些原始内容做成可搜索、可导航的长期记忆结构

这套方案借用了“记忆宫殿”的思路。

它会先把记忆按层次分开，再在这些层次之间做检索和跳转，不是把所有内容都堆进一个扁平向量索引。

README 里那套层级写得很具体：

• wings

• rooms

• closets

• drawers

• halls

• tunnels

对应关系大概是：

• wing：一个人、一个项目、一个主题

• room：wing 下面的具体话题

• closet：摘要层

• drawer：原始文件本身

• hall：同一 wing 内部的关系

• tunnel：不同 wing 之间的关系

如果只看名字，会觉得它有一点概念包装。
但拆开以后，它想做的事情并不复杂：

• 不把所有记忆扔进一个扁平索引

• 先按人、项目、主题和关系分开

• 再让 agent 检索时知道应该从哪一层开始找

为什么“AI 记忆”突然变成刚需

过去一年，很多团队都开始碰到同样的问题：

• 单次问答可以很聪明

• 跨会话协作却经常断片

• 你不得不反复喂背景、补上下文、重讲需求

当 Agent 还是玩具时，这只是麻烦。
但一旦开始进入真实工作流，记忆就变成了地基。

没有长期记忆，Agent 只是在重复短期聪明。

这个项目里可以先看这几件事

先不急着下结论，这个项目里有几件事可以单独拿出来看。

1. 记忆系统正在产品化

以前很多人谈 memory，还停在概念层。
现在开始出现能安装、能集成、能维护的工程模块。

这意味着“记忆”不再只是研究话题，而开始变成实际系统的一部分。

2. 本地优先会越来越受欢迎

对很多团队来说，更重要的未必是“最强跑分”，而是：

• 数据不出本机

• 成本可控

• 结构可解释

• 行为可维护

如果这些条件成立，本地记忆层的吸引力会越来越强。

3. “会取回信息”比“存了多少信息”更重要

记忆系统真正的竞争力，最后会落在这些事情上：

• 该记住的有没有记住

• 该取回的时候能不能取回

• 取回来的东西是不是对的

• 整个过程值不值得那笔 token 和算力成本

归根结底，记忆系统最后比的是召回质量，不是仓库大小。

也要泼一盆冷水：别被“神级数字”带着跑

最早出现在 README 里的数字，大概有这些：

• 96.6% recall accuracy on LongMemEval

• 100% with a hybrid rerank pass

• +34% palace boost

• 30x lossless compression

也正因为这些数字非常亮眼，社区马上开始追问，质疑主要集中在：

• 跑分能不能稳定复现

• 对比基线是不是公平

• 文案有没有过度营销

这其实是好事。

一个健康的开源生态，不怕被追问。
真正需要担心的，是没人验证。

如果你是团队负责人，先看下面三件事：

• 你自己的业务场景里，召回准确率有没有提升？

• token 成本有没有明显下降？

• 运维复杂度是不是还在可接受范围内？

跑分可以参考，但不能代替场景验证。

README 后来承认了什么问题

如果顺着仓库 README 往下看，会发现项目方后面自己补了一大段说明，专门回应社区质疑。

这里最重要的有三件事。

1. AAAK 那段压缩叙事最初写得不对

他们后来承认：

• token 计数示例有误

• “30x lossless compression” 说法过头

• AAAK 是 lossy abbreviation system，不是无损压缩

• 在 LongMemEval 上，AAAK 模式分数低于 raw mode

README 现在更明确的说法是：

• 96.6% 来自 raw mode

• 不来自 AAAK mode

这点很关键。
因为这说明最早那条最容易传播的“压缩很强 + 还拿高分”的叙事，后来已经被社区纠偏了。

2. “+34% palace boost” 也没有最初看上去那么神

README 里也承认：

• 那个 +34% 对比的是不做 metadata filtering 和做 wing + room metadata filtering

• 这更接近 ChromaDB 的标准能力

• 不是某种完全独家的 retrieval magic

也就是说，宫殿结构是有用的，但“到底有多新、多独特”，要比最早那波宣传保守很多。

3. 100% 的 hybrid rerank 分数是真的，但公开脚本还没完全跟上

README 的说明是：

• 100% with Haiku rerank 这个结果，他们有结果文件

• 但 rerank pipeline 当时还没完整进公开 benchmark scripts

这也解释了为什么社区会一直追着问：

“高分到底能不能复现？”

现在还能信什么

社区挑刺之后，README 还是明确保留了几件他们认为站得住的点：

• 96.6% R@5 的 raw mode 结果

• 本地运行

• 不依赖云端

• 零订阅费用

• 架构层次是真实存在并且有用的

这至少说明了一件事：

这个项目不是假的，也不是只靠明星效应冲上来的。

但同样也要补一句：

它最初那版“最高分 + 压缩神话 + 结构带来巨大提升”的说法，已经被社区现场打磨过一轮。

所以今天再看 MemPalace，更稳的角度是：

• 它有没有把长期记忆系统里几件重要的事放在一起

这套系统最值得看的三件事

1. raw verbatim storage

README 里写得很明确：

• 原始对话原文直接存

• 不先做总结抽取

• 让语义检索去找相关内容

这套思路和很多“先摘要再记忆”的系统是反着来的。

它更像在赌一件事：

原文保留得越完整，后面检索和再解释时就越不容易丢掉细节。

2. 分层 token 预算

README 里把 memory stack 拆成：

• L0

• L1

• L2

• L3

其中：

• L0 / L1 常驻加载

• L2 / L3 按需检索

这部分很像最近很多 agent memory 项目都在收敛的一件事：

不要把所有历史一次性塞进上下文。先给一个很小的“世界模型”，剩下的按需调。

3. 本地优先

仓库反复强调：

• local

• free

• no subscription

• no cloud

这点不只是“省钱”。
对很多想把 memory 放在本地、又不想上托管记忆服务的人来说，这本身就是卖点。

评论区里还有一个更本质的问题

Reddit 和 GitHub 评论区里，除了“你这个分数靠谱吗”，还有下面这个追问：

到底是结构厉害，还是向量检索本身就够强？

如果最后高分主要来自：

• 原文保留

• ChromaDB

• 合理的 metadata filtering

那 MemPalace 的价值就会更接近：

• 一套把 local memory stack 收得比较完整的实现

而不是某种彻底改写 AI memory 范式的新发明。

这两者差别很大。

写给正在做 Agent 的你：现在更值得做什么？

我更建议先别卷“最强记忆系统”这个结论，先把最小可用版本做出来。

可以从三步开始：

1. 先定义“必须记住”的信息
例如身份、偏好、项目决策、失败经验、常见例外。

2. 做分层记忆
常驻摘要 + 按需深查，不要全量硬塞上下文。

3. 用真实任务评估
看召回质量、成本、延迟和维护复杂度，而不是只看宣传数字。

结语

这次热点真正值得关注的，是它再次提醒我们一件事：

下一代 Agent 的竞争，除了模型能力，也会越来越取决于记忆系统能力。

谁先把“记得住、找得到、用得起”这三件事做扎实，谁就更接近真正可用的 AI 助手。

原文链接：
https://www.reddit.com/r/OpenClawInstall/comments/1si8z9l/milla_jovovich_and_a_developer_just_dropped_the/