女明星开源AI记忆系统,24小时5400星:但真正离谱的不是它-夜雨聆风

女明星开源AI记忆系统,24小时5400星:但真正离谱的不是它

01 这事一开始看起来很魔幻

这事刚冒出来的时候，我第一反应是：啊？

《生化危机》女主 Milla Jovovich，突然和开发者 Ben Sigman 开源了一个 AI 记忆系统，叫 MemPalace。不是拍广告，不是站台，是放到 GitHub 上真开源。

然后更魔幻的来了。

24 小时 5400+ star，相关推文触达 150 万人。一个 AI memory 项目，靠女明星账号直接冲出技术圈。它还打出了一个特别狠的宣传点：LongMemEval 100% 满分，超过一堆付费记忆方案。

这句话太抓人了。

你想想，AI 现在最大的问题之一就是”失忆”。今天聊得好好的，明天换个会话，它又像刚认识你。突然来了个开源项目说：我记忆能力满分，而且免费、本地、MIT。

谁不想点进去看看？

但很快，Penfield Labs 出来拆了这个 benchmark。拆完以后事情就没那么热血了。

我觉得这事真正有意思的地方，不是 MemPalace 到底是不是神项目，而是一个更麻烦的问题：

AI 工具天天喊 benchmark 第一，我们到底还能不能信？

02 MemPalace 是什么：别急着骂，想法不蠢

先别急着把它打成”明星带货开源”。

MemPalace 这个想法本身，不蠢，甚至挺有意思。

它借鉴的是古希腊的”记忆宫殿术”。简单说，就是把记忆放进一个空间结构里。不是一坨文本丢进数据库，而是分层存放：翅膀、大厅、房间、壁橱、隧道。

听起来有点中二，但作为 AI 记忆系统，这个隐喻还挺顺。

因为人的记忆本来就不是一张 Excel 表。我们经常是靠场景、关系、时间线、某个具体句子，把过去的东西串回来。

更关键的是，MemPalace 的核心立场是：不让 AI 替你总结记忆。

很多 AI memory 产品会把对话丢给大模型，让它提取”重要事实”。比如”用户喜欢 Next.js”、”用户在做 SEO 项目”。这看着很聪明，但问题也很明显：AI 觉得重要的，不一定是你真正需要的。

MemPalace 选择保留原始对话的每个 token。SQLite + ChromaDB，本地跑，MIT 协议，不依赖云服务。

说实话，我挺喜欢这个立场。

因为 AI 不该擅自替你决定什么重要。尤其是做内容、做产品、做 SEO 的人，很多价值就藏在一句原话、一个语气、一个当时没被总结出来的小细节里。

如果 AI 一上来就帮你”提炼精华”，emmm，有时候精华没了，只剩鸡汤味。

03 问题在哪：不是项目有 bug，是宣传删了 caveat

但问题也在这里。

MemPalace 不是说完全不能看，它的问题更像是：项目文档里其实挺诚实，营销传播里却把 caveat 删得太干净了。

比如 LoCoMo 100%。

Penfield Labs 指出，它的 top_k 设到了 50，而对话本身才 32 个 session。说白了，这就像考试的时候老师说”从这 32 页里找答案”，你直接把 32 页全塞给 Claude 读。

那这到底是在测记忆系统，还是在测 Claude 的阅读理解？

再看 LongMemEval 满分。项目自己的 BENCHMARKS.md 里承认过，99.4% 到 100% 这一步，是针对 3 个错题写代码修的，还用了 “teaching to the test” 这个说法。

这就很微妙。

不是说不能修 bug。修 bug 当然可以。但如果你是看着标准答案修到满分，再拿”满分”做最大卖点，那味道就变了。

还有一个更尴尬的点：宣传里提到的”矛盾检测”功能，代码里并不存在。

再比如 AAAK 压缩。宣传说是”无损”，但 benchmark 数据显示，压缩后 R@5 从 96.6% 掉到 84.2%，掉了 12.4 个百分点。

这还能叫无损吗？

最反差的是，BENCHMARKS.md 大概 5000 字，写得其实很细，也承认了不少限制。你能看出作者不是完全装傻。

但到了营销推文里，这些 caveat 基本没了。

只剩下最适合传播的那几个词：100%、满分、超越付费方案。

这才是我觉得最值得聊的地方。

04 核心：不是 MemPalace 一家的问题，是整个赛道的问题

如果只骂 MemPalace，其实有点偷懒。

AI 记忆赛道这两年本来就乱。

Zep 质疑 Mem0 的 benchmark 数据，Mem0 反过来说 Zep 实际只有 58.44%。Letta 又出来说，有些结果不可复现，甚至用文件系统存对话都能跑出不错成绩。

你看，这就很尴尬。

每家都说自己记忆好，每家都能拿出一个看起来很硬的数字。但你认真看方法，会发现大家测的东西不一定一样。

有的测 retrieval。

有的测回答准确率。

有的给了很长上下文。

有的让大模型二次 rerank。

有的 benchmark 本身数据量不大，稍微调一调参数，成绩就能很好看。

最后用户看到的是什么？

一个大标题：我们比对手强 20%。

但你不知道它到底强在哪里。是检索强？是模型强？是提示词强？还是测试设计刚好适合它？

我很喜欢一句话：

“大家都在说自己记性好，但很多测试其实是在比谁更会考试。”

这不是阴谋论，这是 AI 产品里越来越常见的情况。

Benchmark 当然有用。没有 benchmark，大家更容易吹到天上去。但如果 benchmark 变成了营销素材，而不是产品理解工具，它就会反过来骗用户。

尤其是 AI memory 这种东西，它不是跑一次题库就完事。

真正难的是：半年后，它还能不能记得你为什么做这个项目；能不能分清你改过的偏好；能不能让你删掉、纠正、追溯一条记忆。

这些东西，很多 benchmark 测不到。

05 新的开源分发渠道

对了，这件事还有一个很现实的启发：开源分发逻辑变了。

一个类似的 AI memory 项目，如果是普通开发者发在 GitHub 上，可能一周 50 star 都不错了。你写 README，发 Hacker News，转 X，求朋友帮忙点一下。

然后 Milla 一条推文，150 万人看到。

这不是一个量级。

过去我们说明星是代言人。品牌做好产品，明星负责曝光。

但在开源这件事上，明星可能已经不只是代言人了，而是分发基础设施。

她不是给项目贴个脸，她直接把项目扔进了一个普通开发者根本碰不到的流量池。

这对独立开发者其实挺刺激的。

技术项目也需要叙事。

不是让你去编故事，也不是让你碰瓷明星。而是你要让别人知道：为什么这个东西现在值得看？它解决了谁的痛？它跟市面上的方案到底有什么立场差异？

很多开发者以为”代码好就会被看见”。

坦白讲，越来越不一定了。

代码要好，但故事也得能传出去。

06 别只骂它：MemPalace 反而提醒了一个真需求

所以我不想把 MemPalace 写成一个翻车故事。

它的营销有问题，但它提醒的需求是真的。

“不让 AI 摘要”这个理念，被低估了。

我们现在太习惯让 AI 总结一切了。网页太长，让 AI 总结。会议太长，让 AI 总结。聊天太多，让 AI 总结。

总结当然有用。

但总结一定会丢信息。更麻烦的是，它丢的时候不会告诉你”我把这个删了”。它会特别自信地给你一段看起来很合理的摘要。

最怕的不是记不住，而是记错了还很自信。

Penfield 的拆解里其实也承认，原始文本 + 默认 embedding，在某些场景下可能比复杂方案更好。

这点我很认同。

因为记忆系统不是越像魔法越好。很多时候，你需要的不是一个会脑补的管家，而是一个可靠的档案柜。

能存原话。

能查来源。

能让你知道它为什么这么回答。

尤其是内容创作者和 SEO 人，原话真的很值钱。用户怎么描述痛点、客户怎么抱怨竞品、你当时为什么改标题，这些东西一旦被 AI 总结成”用户关注效率”，味道就没了。

所以那句我想再说一遍：

“AI 记忆最怕的不是记不住，而是它自信满满地替你记错了。”

07 普通用户怎么判断”benchmark 第一”：看这 6 件事

那怎么办呢？

以后你再看到一个 AI 工具说自己 benchmark 第一，别急着兴奋。先看 6 件事。

第一，测的是记忆系统，还是大模型阅读理解？

如果它把大量候选内容直接塞进长上下文，再让 Claude、GPT、Gemini 读完回答，那成绩好不一定说明 memory 强。可能只是模型阅读理解强。

记忆系统真正该证明的是：它能不能在大量历史里找到该找的东西，并且不给模型塞一堆无关内容。

第二，看 top_k、上下文长度、候选数量合不合理。

top_k 是检索返回多少条。候选总共 32 条，你 top_k=50，那基本就是全给。这个时候说”检索命中率高”，意义就不大。

还要看上下文窗口。现在大模型上下文越来越长，很多 memory benchmark 会被”暴力塞进去”稀释掉难度。

第三，有没有针对测试集修题。

这个很关键。

如果项目公开说：我们发现 3 个错题，然后针对这 3 个 case 改代码，最后 100%。那你就要把这个 100% 打个折。

不是说它造假，而是它更像考试前押题押中了。

第四，benchmark 能不能复现。

有没有脚本？有没有数据？有没有固定参数？有没有告诉你用了哪个模型、哪个版本、哪个 embedding？

如果只给一张截图，或者只给营销页数字，我建议你先别太当真。

第五，敢不敢展示失败案例。

我反而更信那些愿意说”这里我们做得不好”的项目。

因为真实系统一定有失败。尤其是记忆系统，用户改主意、信息冲突、时间线变化、隐私删除，这些都会让系统出错。

如果一个项目从头到尾全是满分、领先、突破，我会有点紧张。

第六，解决的是不是你的真实场景。

这是最容易被忽略的。

你是个人用户，可能在意隐私、本地、可编辑。

你是开发者，可能在意 API、延迟、成本、可观测性。

你是内容创作者，可能在意原话、来源、语气、上下文。

Benchmark 第一，不等于适合你。

说白了，你买的不是奖杯，你买的是少添乱。

08 如果我是普通用户，我会这样选

如果我是个人用户，我会把”可控”放在”满分”前面。

能不能看见它记了什么？能不能删？能不能改？能不能关掉某些记忆？本地数据能不能导出？

这些比 100% 好看多了。

因为记忆越强，出错成本越高。一个聊天机器人忘了你喜欢喝咖啡，问题不大。但它把你某个旧偏好当成现在的需求，一路带偏你的工作流，那就烦了。

如果我是独立开发者，我会从”用户怎么改错”开始设计。

很多 memory 产品一上来就想做自动化：自动提取、自动归档、自动调用。

但我觉得更重要的是纠错入口。

用户说”这个不对”，系统怎么处理？是删掉一条 memory，还是保留冲突记录？它会不会下次又犯？你有没有日志能追？

这才是产品体验。

如果我是内容创作者或者 SEO 人，我会更重视原话。

做内容的人都知道，用户原话比总结值钱。

比如用户说”我不是不会建站，我是不知道该从哪个模板开始”，这句话就比”用户需要建站指导”更有价值。前者能写标题，能做落地页，能做广告文案。后者像废话。

所以对内容和 SEO 场景，我宁愿工具笨一点，也不要它乱总结。

保留原始材料，再给我好的检索和引用。够了。

09 回到 MemPalace：不是神，也不该一棍子打死

回到 MemPalace。

它不是神。

100% 这个宣传有问题，LoCoMo 的测试方式有问题，”无损压缩”这个说法也站不太稳。营销把 BENCHMARKS.md 里的限制删掉，这点确实不应该。

但我也不想一棍子打死它。

因为它的几个方向是有价值的：本地优先，保留原始记忆，不把所有判断权都交给 AI 总结，不强迫用户依赖云服务。

这些都值得继续做。

它更像是一个好想法，加上一次很强的传播，再加上一次有争议的 benchmark 展示。然后刚好撞上了 AI 记忆赛道最混乱的地方。

所以这事才会炸。

如果它只是一个普通项目，大家可能会说：不错，继续迭代。

但当它带着”女明星开源”、”24 小时 5400 星”、”LongMemEval 满分”一起出现，所有人都会拿放大镜看。

这也算公平。

你吃到了传播红利，就得承受更严格的质疑。

看到”benchmark 第一”，先别激动

我觉得这件事最后给普通用户的提醒很简单：

以后看到”benchmark 第一”，先别激动。

不是说 benchmark 没用，而是你要知道它到底在测什么。测题库、测阅读理解、测检索、测 rerank，还是测一套刚好适合它自己的流程。

建立判断标准，比追爆款重要。

尤其是 AI 工具现在更新太快，今天一个 100%，明天又来一个 120%。你如果只跟着数字跑，很容易被营销牵着走。

满分经常只是说明它很会做这张卷子。

你要找的不是考试状元，而是能在你真实工作流里少添乱、多帮忙的工具。