最近,一篇 Reddit 帖子在 AI 圈里刷屏。
Milla Jovovich(米拉·乔沃维奇,《生化危机》系列里爱丽丝的扮演者)和开发者一起发布了一个 AI 记忆系统。帖子里把它写成 LongMemEval 上的高分项目,而且免费、可 pip 安装。

如果你在做 Agent、做 AI workflow,或者长期被“AI 一开新会话就失忆”困扰,这条消息确实很抓人。
但顺着仓库 README 和社区讨论往下看,重点还是得回到项目本身。
这条帖子会刷屏,其实也不难理解。
它把几种最容易传播的元素放到了一起:
• 明星参与
• 开源
• 免费
• pip install
• 高跑分
这种组合本来就很容易把注意力快速拉满。
MemPalace 是一个开源的 AI 记忆系统,想解决的是一个很具体的问题:
Agent 能做事,但经常记不住:
• 你是谁
• 团队决定过什么
• 上周为什么改方案
它给出的方向也很清楚:
• 不把所有历史硬塞进 prompt
• 先把原始内容保留下来
• 再做成分层、可检索、可导航的长期记忆结构
这也是它会被迅速放大的原因。
它碰到的是很多 Agent 系统迟早都会撞上的记忆问题。
MemPalace 到底在做什么
README 开头写得很直接:
• 把所有对话原文保留下来
• 不靠模型先决定“什么值得记住”
• 再把这些原始内容做成可搜索、可导航的长期记忆结构
这套方案借用了“记忆宫殿”的思路。
它会先把记忆按层次分开,再在这些层次之间做检索和跳转,不是把所有内容都堆进一个扁平向量索引。
README 里那套层级写得很具体:
• wings
• rooms
• closets
• drawers
• halls
• tunnels
对应关系大概是:
• wing:一个人、一个项目、一个主题
• room:wing 下面的具体话题
• closet:摘要层
• drawer:原始文件本身
• hall:同一 wing 内部的关系
• tunnel:不同 wing 之间的关系
如果只看名字,会觉得它有一点概念包装。
但拆开以后,它想做的事情并不复杂:
• 不把所有记忆扔进一个扁平索引
• 先按人、项目、主题和关系分开
• 再让 agent 检索时知道应该从哪一层开始找
为什么“AI 记忆”突然变成刚需
过去一年,很多团队都开始碰到同样的问题:
• 单次问答可以很聪明
• 跨会话协作却经常断片
• 你不得不反复喂背景、补上下文、重讲需求
当 Agent 还是玩具时,这只是麻烦。
但一旦开始进入真实工作流,记忆就变成了地基。
没有长期记忆,Agent 只是在重复短期聪明。
这个项目里可以先看这几件事
先不急着下结论,这个项目里有几件事可以单独拿出来看。
1. 记忆系统正在产品化
以前很多人谈 memory,还停在概念层。
现在开始出现能安装、能集成、能维护的工程模块。
这意味着“记忆”不再只是研究话题,而开始变成实际系统的一部分。
2. 本地优先会越来越受欢迎
对很多团队来说,更重要的未必是“最强跑分”,而是:
• 数据不出本机
• 成本可控
• 结构可解释
• 行为可维护
如果这些条件成立,本地记忆层的吸引力会越来越强。
3. “会取回信息”比“存了多少信息”更重要
记忆系统真正的竞争力,最后会落在这些事情上:
• 该记住的有没有记住
• 该取回的时候能不能取回
• 取回来的东西是不是对的
• 整个过程值不值得那笔 token 和算力成本
归根结底,记忆系统最后比的是召回质量,不是仓库大小。
也要泼一盆冷水:别被“神级数字”带着跑
最早出现在 README 里的数字,大概有这些:
• 96.6% recall accuracy on LongMemEval
• 100% with a hybrid rerank pass
• +34% palace boost
• 30x lossless compression
也正因为这些数字非常亮眼,社区马上开始追问,质疑主要集中在:
• 跑分能不能稳定复现
• 对比基线是不是公平
• 文案有没有过度营销
这其实是好事。
一个健康的开源生态,不怕被追问。
真正需要担心的,是没人验证。
如果你是团队负责人,先看下面三件事:
• 你自己的业务场景里,召回准确率有没有提升?
• token 成本有没有明显下降?
• 运维复杂度是不是还在可接受范围内?
跑分可以参考,但不能代替场景验证。
README 后来承认了什么问题
如果顺着仓库 README 往下看,会发现项目方后面自己补了一大段说明,专门回应社区质疑。
这里最重要的有三件事。
1. AAAK 那段压缩叙事最初写得不对
他们后来承认:
• token 计数示例有误
• “30x lossless compression” 说法过头
• AAAK 是 lossy abbreviation system,不是无损压缩
• 在 LongMemEval 上,AAAK 模式分数低于 raw mode
README 现在更明确的说法是:
• 96.6% 来自 raw mode
• 不来自 AAAK mode
这点很关键。
因为这说明最早那条最容易传播的“压缩很强 + 还拿高分”的叙事,后来已经被社区纠偏了。
2. “+34% palace boost” 也没有最初看上去那么神
README 里也承认:
• 那个 +34% 对比的是不做 metadata filtering 和做 wing + room metadata filtering
• 这更接近 ChromaDB 的标准能力
• 不是某种完全独家的 retrieval magic
也就是说,宫殿结构是有用的,但“到底有多新、多独特”,要比最早那波宣传保守很多。
3. 100% 的 hybrid rerank 分数是真的,但公开脚本还没完全跟上
README 的说明是:
• 100% with Haiku rerank 这个结果,他们有结果文件
• 但 rerank pipeline 当时还没完整进公开 benchmark scripts
这也解释了为什么社区会一直追着问:
“高分到底能不能复现?”
现在还能信什么
社区挑刺之后,README 还是明确保留了几件他们认为站得住的点:
• 96.6% R@5 的 raw mode 结果
• 本地运行
• 不依赖云端
• 零订阅费用
• 架构层次是真实存在并且有用的
这至少说明了一件事:
这个项目不是假的,也不是只靠明星效应冲上来的。
但同样也要补一句:
它最初那版“最高分 + 压缩神话 + 结构带来巨大提升”的说法,已经被社区现场打磨过一轮。
所以今天再看 MemPalace,更稳的角度是:
• 它有没有把长期记忆系统里几件重要的事放在一起
这套系统最值得看的三件事
1. raw verbatim storage
README 里写得很明确:
• 原始对话原文直接存
• 不先做总结抽取
• 让语义检索去找相关内容
这套思路和很多“先摘要再记忆”的系统是反着来的。
它更像在赌一件事:
原文保留得越完整,后面检索和再解释时就越不容易丢掉细节。
2. 分层 token 预算
README 里把 memory stack 拆成:
• L0
• L1
• L2
• L3
其中:
• L0 / L1 常驻加载
• L2 / L3 按需检索
这部分很像最近很多 agent memory 项目都在收敛的一件事:
不要把所有历史一次性塞进上下文。先给一个很小的“世界模型”,剩下的按需调。
3. 本地优先
仓库反复强调:
• local
• free
• no subscription
• no cloud
这点不只是“省钱”。
对很多想把 memory 放在本地、又不想上托管记忆服务的人来说,这本身就是卖点。
评论区里还有一个更本质的问题
Reddit 和 GitHub 评论区里,除了“你这个分数靠谱吗”,还有下面这个追问:
到底是结构厉害,还是向量检索本身就够强?
如果最后高分主要来自:
• 原文保留
• ChromaDB
• 合理的 metadata filtering
那 MemPalace 的价值就会更接近:
• 一套把 local memory stack 收得比较完整的实现
而不是某种彻底改写 AI memory 范式的新发明。
这两者差别很大。
写给正在做 Agent 的你:现在更值得做什么?
我更建议先别卷“最强记忆系统”这个结论,先把最小可用版本做出来。
可以从三步开始:
1. 先定义“必须记住”的信息
例如身份、偏好、项目决策、失败经验、常见例外。
2. 做分层记忆
常驻摘要 + 按需深查,不要全量硬塞上下文。
3. 用真实任务评估
看召回质量、成本、延迟和维护复杂度,而不是只看宣传数字。
结语
这次热点真正值得关注的,是它再次提醒我们一件事:
下一代 Agent 的竞争,除了模型能力,也会越来越取决于记忆系统能力。
谁先把“记得住、找得到、用得起”这三件事做扎实,谁就更接近真正可用的 AI 助手。
原文链接:
https://www.reddit.com/r/OpenClawInstall/comments/1si8z9l/milla_jovovich_and_a_developer_just_dropped_the/
夜雨聆风