乐于分享
好东西不私藏

女明星开源AI记忆系统,24小时5400星:但真正离谱的不是它

女明星开源AI记忆系统,24小时5400星:但真正离谱的不是它

01 这事一开始看起来很魔幻

这事刚冒出来的时候,我第一反应是:啊?

《生化危机》女主 Milla Jovovich,突然和开发者 Ben Sigman 开源了一个 AI 记忆系统,叫 MemPalace。不是拍广告,不是站台,是放到 GitHub 上真开源。

然后更魔幻的来了。

24 小时 5400+ star,相关推文触达 150 万人。一个 AI memory 项目,靠女明星账号直接冲出技术圈。它还打出了一个特别狠的宣传点:LongMemEval 100% 满分,超过一堆付费记忆方案。

这句话太抓人了。

你想想,AI 现在最大的问题之一就是”失忆”。今天聊得好好的,明天换个会话,它又像刚认识你。突然来了个开源项目说:我记忆能力满分,而且免费、本地、MIT。

谁不想点进去看看?

但很快,Penfield Labs 出来拆了这个 benchmark。拆完以后事情就没那么热血了。

我觉得这事真正有意思的地方,不是 MemPalace 到底是不是神项目,而是一个更麻烦的问题:

AI 工具天天喊 benchmark 第一,我们到底还能不能信?

02 MemPalace 是什么:别急着骂,想法不蠢

先别急着把它打成”明星带货开源”。

MemPalace 这个想法本身,不蠢,甚至挺有意思。

它借鉴的是古希腊的”记忆宫殿术”。简单说,就是把记忆放进一个空间结构里。不是一坨文本丢进数据库,而是分层存放:翅膀、大厅、房间、壁橱、隧道。

听起来有点中二,但作为 AI 记忆系统,这个隐喻还挺顺。

因为人的记忆本来就不是一张 Excel 表。我们经常是靠场景、关系、时间线、某个具体句子,把过去的东西串回来。

更关键的是,MemPalace 的核心立场是:不让 AI 替你总结记忆。

很多 AI memory 产品会把对话丢给大模型,让它提取”重要事实”。比如”用户喜欢 Next.js”、”用户在做 SEO 项目”。这看着很聪明,但问题也很明显:AI 觉得重要的,不一定是你真正需要的。

MemPalace 选择保留原始对话的每个 token。SQLite + ChromaDB,本地跑,MIT 协议,不依赖云服务。

说实话,我挺喜欢这个立场。

因为 AI 不该擅自替你决定什么重要。尤其是做内容、做产品、做 SEO 的人,很多价值就藏在一句原话、一个语气、一个当时没被总结出来的小细节里。

如果 AI 一上来就帮你”提炼精华”,emmm,有时候精华没了,只剩鸡汤味。

03 问题在哪:不是项目有 bug,是宣传删了 caveat

但问题也在这里。

MemPalace 不是说完全不能看,它的问题更像是:项目文档里其实挺诚实,营销传播里却把 caveat 删得太干净了。

比如 LoCoMo 100%。

Penfield Labs 指出,它的 top_k 设到了 50,而对话本身才 32 个 session。说白了,这就像考试的时候老师说”从这 32 页里找答案”,你直接把 32 页全塞给 Claude 读。

那这到底是在测记忆系统,还是在测 Claude 的阅读理解?

再看 LongMemEval 满分。项目自己的 BENCHMARKS.md 里承认过,99.4% 到 100% 这一步,是针对 3 个错题写代码修的,还用了 “teaching to the test” 这个说法。

这就很微妙。

不是说不能修 bug。修 bug 当然可以。但如果你是看着标准答案修到满分,再拿”满分”做最大卖点,那味道就变了。

还有一个更尴尬的点:宣传里提到的”矛盾检测”功能,代码里并不存在。

再比如 AAAK 压缩。宣传说是”无损”,但 benchmark 数据显示,压缩后 R@5 从 96.6% 掉到 84.2%,掉了 12.4 个百分点。

这还能叫无损吗?

最反差的是,BENCHMARKS.md 大概 5000 字,写得其实很细,也承认了不少限制。你能看出作者不是完全装傻。

但到了营销推文里,这些 caveat 基本没了。

只剩下最适合传播的那几个词:100%、满分、超越付费方案。

这才是我觉得最值得聊的地方。 

04 核心:不是 MemPalace 一家的问题,是整个赛道的问题

如果只骂 MemPalace,其实有点偷懒。

AI 记忆赛道这两年本来就乱。

Zep 质疑 Mem0 的 benchmark 数据,Mem0 反过来说 Zep 实际只有 58.44%。Letta 又出来说,有些结果不可复现,甚至用文件系统存对话都能跑出不错成绩。

你看,这就很尴尬。

每家都说自己记忆好,每家都能拿出一个看起来很硬的数字。但你认真看方法,会发现大家测的东西不一定一样。

有的测 retrieval。

有的测回答准确率。

有的给了很长上下文。

有的让大模型二次 rerank。

有的 benchmark 本身数据量不大,稍微调一调参数,成绩就能很好看。

最后用户看到的是什么?

一个大标题:我们比对手强 20%。

但你不知道它到底强在哪里。是检索强?是模型强?是提示词强?还是测试设计刚好适合它?

我很喜欢一句话:

“大家都在说自己记性好,但很多测试其实是在比谁更会考试。”

这不是阴谋论,这是 AI 产品里越来越常见的情况。

Benchmark 当然有用。没有 benchmark,大家更容易吹到天上去。但如果 benchmark 变成了营销素材,而不是产品理解工具,它就会反过来骗用户。

尤其是 AI memory 这种东西,它不是跑一次题库就完事。

真正难的是:半年后,它还能不能记得你为什么做这个项目;能不能分清你改过的偏好;能不能让你删掉、纠正、追溯一条记忆。

这些东西,很多 benchmark 测不到。

05 新的开源分发渠道

对了,这件事还有一个很现实的启发:开源分发逻辑变了。

一个类似的 AI memory 项目,如果是普通开发者发在 GitHub 上,可能一周 50 star 都不错了。你写 README,发 Hacker News,转 X,求朋友帮忙点一下。

然后 Milla 一条推文,150 万人看到。

这不是一个量级。

过去我们说明星是代言人。品牌做好产品,明星负责曝光。

但在开源这件事上,明星可能已经不只是代言人了,而是分发基础设施。

她不是给项目贴个脸,她直接把项目扔进了一个普通开发者根本碰不到的流量池。

这对独立开发者其实挺刺激的。

技术项目也需要叙事。

不是让你去编故事,也不是让你碰瓷明星。而是你要让别人知道:为什么这个东西现在值得看?它解决了谁的痛?它跟市面上的方案到底有什么立场差异?

很多开发者以为”代码好就会被看见”。

坦白讲,越来越不一定了。

代码要好,但故事也得能传出去。 

06 别只骂它:MemPalace 反而提醒了一个真需求

所以我不想把 MemPalace 写成一个翻车故事。

它的营销有问题,但它提醒的需求是真的。

“不让 AI 摘要”这个理念,被低估了。

我们现在太习惯让 AI 总结一切了。网页太长,让 AI 总结。会议太长,让 AI 总结。聊天太多,让 AI 总结。

总结当然有用。

但总结一定会丢信息。更麻烦的是,它丢的时候不会告诉你”我把这个删了”。它会特别自信地给你一段看起来很合理的摘要。

最怕的不是记不住,而是记错了还很自信。

Penfield 的拆解里其实也承认,原始文本 + 默认 embedding,在某些场景下可能比复杂方案更好。

这点我很认同。

因为记忆系统不是越像魔法越好。很多时候,你需要的不是一个会脑补的管家,而是一个可靠的档案柜。

能存原话。

能查来源。

能让你知道它为什么这么回答。

尤其是内容创作者和 SEO 人,原话真的很值钱。用户怎么描述痛点、客户怎么抱怨竞品、你当时为什么改标题,这些东西一旦被 AI 总结成”用户关注效率”,味道就没了。

所以那句我想再说一遍:

“AI 记忆最怕的不是记不住,而是它自信满满地替你记错了。”

07 普通用户怎么判断”benchmark 第一”:看这 6 件事

那怎么办呢?

以后你再看到一个 AI 工具说自己 benchmark 第一,别急着兴奋。先看 6 件事。

第一,测的是记忆系统,还是大模型阅读理解?

如果它把大量候选内容直接塞进长上下文,再让 Claude、GPT、Gemini 读完回答,那成绩好不一定说明 memory 强。可能只是模型阅读理解强。

记忆系统真正该证明的是:它能不能在大量历史里找到该找的东西,并且不给模型塞一堆无关内容。

第二,看 top_k、上下文长度、候选数量合不合理。

top_k 是检索返回多少条。候选总共 32 条,你 top_k=50,那基本就是全给。这个时候说”检索命中率高”,意义就不大。

还要看上下文窗口。现在大模型上下文越来越长,很多 memory benchmark 会被”暴力塞进去”稀释掉难度。

第三,有没有针对测试集修题。

这个很关键。

如果项目公开说:我们发现 3 个错题,然后针对这 3 个 case 改代码,最后 100%。那你就要把这个 100% 打个折。

不是说它造假,而是它更像考试前押题押中了。

第四,benchmark 能不能复现。

有没有脚本?有没有数据?有没有固定参数?有没有告诉你用了哪个模型、哪个版本、哪个 embedding?

如果只给一张截图,或者只给营销页数字,我建议你先别太当真。

第五,敢不敢展示失败案例。

我反而更信那些愿意说”这里我们做得不好”的项目。

因为真实系统一定有失败。尤其是记忆系统,用户改主意、信息冲突、时间线变化、隐私删除,这些都会让系统出错。

如果一个项目从头到尾全是满分、领先、突破,我会有点紧张。

第六,解决的是不是你的真实场景。

这是最容易被忽略的。

你是个人用户,可能在意隐私、本地、可编辑。

你是开发者,可能在意 API、延迟、成本、可观测性。

你是内容创作者,可能在意原话、来源、语气、上下文。

Benchmark 第一,不等于适合你。

说白了,你买的不是奖杯,你买的是少添乱。

08 如果我是普通用户,我会这样选

如果我是个人用户,我会把”可控”放在”满分”前面。

能不能看见它记了什么?能不能删?能不能改?能不能关掉某些记忆?本地数据能不能导出?

这些比 100% 好看多了。

因为记忆越强,出错成本越高。一个聊天机器人忘了你喜欢喝咖啡,问题不大。但它把你某个旧偏好当成现在的需求,一路带偏你的工作流,那就烦了。

如果我是独立开发者,我会从”用户怎么改错”开始设计。

很多 memory 产品一上来就想做自动化:自动提取、自动归档、自动调用。

但我觉得更重要的是纠错入口。

用户说”这个不对”,系统怎么处理?是删掉一条 memory,还是保留冲突记录?它会不会下次又犯?你有没有日志能追?

这才是产品体验。

如果我是内容创作者或者 SEO 人,我会更重视原话。

做内容的人都知道,用户原话比总结值钱。

比如用户说”我不是不会建站,我是不知道该从哪个模板开始”,这句话就比”用户需要建站指导”更有价值。前者能写标题,能做落地页,能做广告文案。后者像废话。

所以对内容和 SEO 场景,我宁愿工具笨一点,也不要它乱总结。

保留原始材料,再给我好的检索和引用。够了。 

09 回到 MemPalace:不是神,也不该一棍子打死

回到 MemPalace。

它不是神。

100% 这个宣传有问题,LoCoMo 的测试方式有问题,”无损压缩”这个说法也站不太稳。营销把 BENCHMARKS.md 里的限制删掉,这点确实不应该。

但我也不想一棍子打死它。

因为它的几个方向是有价值的:本地优先,保留原始记忆,不把所有判断权都交给 AI 总结,不强迫用户依赖云服务。

这些都值得继续做。

它更像是一个好想法,加上一次很强的传播,再加上一次有争议的 benchmark 展示。然后刚好撞上了 AI 记忆赛道最混乱的地方。

所以这事才会炸。

如果它只是一个普通项目,大家可能会说:不错,继续迭代。

但当它带着”女明星开源”、”24 小时 5400 星”、”LongMemEval 满分”一起出现,所有人都会拿放大镜看。

这也算公平。

你吃到了传播红利,就得承受更严格的质疑。

看到”benchmark 第一”,先别激动

我觉得这件事最后给普通用户的提醒很简单:

以后看到”benchmark 第一”,先别激动。

不是说 benchmark 没用,而是你要知道它到底在测什么。测题库、测阅读理解、测检索、测 rerank,还是测一套刚好适合它自己的流程。

建立判断标准,比追爆款重要。

尤其是 AI 工具现在更新太快,今天一个 100%,明天又来一个 120%。你如果只跟着数字跑,很容易被营销牵着走。

满分经常只是说明它很会做这张卷子。

你要找的不是考试状元,而是能在你真实工作流里少添乱、多帮忙的工具。