乐于分享
好东西不私藏

我扒了450个AI记忆工具,发现整个行业分成两个阵营

我扒了450个AI记忆工具,发现整个行业分成两个阵营

原文作者:@witcheer(X/Twitter)

GitHub 上搜 “agent-memory” 能找到 450 多个仓库,搜 “context-management” 有 460 多个。我跟几个搞 Agent 的朋友把这些项目全过了一遍。

原本以为会看到 40 个工具用不同的 API 做差不多的事情。

结果发现的却是:两个根本不同的范式,几乎没人把它们之间的界限说清楚,而且这个品类甚至还没有一个统一的名字。

我在一台 Mac Mini M4 上跑着 24/7 的 Agent。每次会话都在上一次的基础上叠加。正是这个设置让我注意到了这个分叉——大多数记忆工具撑不起我的用法,而那些能撑起的,根本不被当作”记忆工具”来讨论。

PART 01

PART 01 两大阵营

阵营一:记忆后端(Memory Backends)

这类工具从对话中提取事实,存进向量数据库,下次你提问时检索相关记忆回来。本质上是自动化的笔记系统——把东西归档,需要时再取出来。

核心问题:“AI 该记住什么?”

阵营二:上下文基底(Context Substrates)

这类工具维护结构化的、人类可读的上下文,跨会话累积。没有”提取”这回事——上下文本身就是文件。Agent 读取它、在其中工作、写回它,整个系统随时间复利增长。

核心问题:“AI 该在什么上下文中工作?”

目前大部分项目(以及大部分 GitHub Star)都在阵营一。但真正能扩展到持续、多会话、多项目工作的架构,正在阵营二中涌现。

这个区分太精准了。用大白话说,阵营一像是一个”帮你做笔记的秘书”,阵营二像是一个”和你共用一个大脑的搭档”。秘书记住了你说过什么,但搭档理解你正在做什么。

PART 02

PART 02 阵营一:记忆后端

Mem0 — 53.1k Stars,品类之王

四个操作:添加、搜索、更新、删除。从对话中提取事实,按三个层级存储(用户级、会话级、Agent 级),通过混合搜索检索。

集成极其简单,Python 和 TypeScript SDK 都有,兼容一切。

局限:记忆是扁平条目,彼此之间没有关联。每次提取都需要一次 LLM 调用,质量完全取决于提取 prompt 的好坏。而且一旦存进去就不会演化——一月份的事实和四月份的事实并排躺着,系统不知道新的可能已经替代了旧的。

MemPalace — 46.2k Stars,逐字记忆派

不提取事实,而是逐字存储对话,组织成”翼”(实体)、”房间”(话题)、”抽屉”(原始内容)。用 ChromaDB 检索。

基准测试分数全场最高:LongMemEval 上纯语义搜索 96.6% 召回率,混合管线 98.4%,LLM 重排序 99%+。

局限:逐字存储线性增长。聊得越多,体积越大。没有压缩,没有综合。如果你的问题是”找到我三周前说的那句话”,这是最好的工具。但如果你的问题是”给我跨五个项目的当前工作状态”,它就力不从心了。

Supermemory — 21.8k Stars,会过期的记忆

明确打出口号:”记忆不是 RAG。”差异化在于时间感知——你说”我刚搬到旧金山”,它会覆盖你之前的城市。过期事实自动遗忘。用户画像结合稳定事实和近期活动,检索延迟约 50ms。

接入 Google Drive、Gmail、Notion、GitHub 等。跨 PDF、图片、视频、代码的多模态支持。

大多数阵营一的工具把事实当作永久的。Supermemory 把它们当作演化的。这是阵营一最接近思考”状态”而非仅仅”存储”的地方。

Honcho — 2.4k Stars,建模你的思维方式

把人类和 Agent 都视为统一模型中的”对等体”。后台运行异步推理服务,从会话中推导每个对等体的心理画像。不只是记住你说了什么,而是在建模你怎么思考。

阵营一的工具本质上在解决”聊天机器人记性差”的问题。这在客服、个人助手场景下非常有用。但问题在于——它们把记忆当作”对话的副产品”,而不是”工作的基础设施”。

PART 03

PART 03 阵营二:上下文基底

OpenClaw — 358k Stars,文件即记忆

纯 Markdown 文件:MEMORY.md 存长期记忆,日记文件(YYYY-MM-DD.md)存运行上下文,DREAMS.md 存整合摘要。

文档里那句定义了整个哲学的话:“模型只’记住’保存到磁盘上的东西,没有隐藏状态。”

没有向量数据库,没有提取管线。就是 Agent 读写的文件。

最有趣的功能是”做梦”(Dreaming):一个后台进程分三个阶段把日记整合进长期记忆:

  • 浅睡眠:扫描日记,把相邻行分组成连贯块
  • REM:加权回忆提升,频繁访问的信息变成”持久真理”
  • 深睡眠:安全提升到 MEMORY.md,去重而非重复

只有通过所有阈值的条目才会被提升:最低分 0.8,最低回忆次数 3,最低独立查询数 3。六个加权信号给每个候选打分——相关性(0.30)、频率(0.24)、查询多样性(0.15)、时效性(0.15)、整合度(0.10)、概念丰富度(0.06)。

Zep — 4.4k Stars,品牌重塑的信号

Zep 最近把整个品牌定位从”记忆”改成了”上下文工程”(Context Engineering)。这一举动是整个领域里最强的市场信号——一个有融资、有 4.4k Star 的公司审视了行业走向,决定”记忆”这个词不足以描述他们在做的事。

底层用时序知识图谱(Graphiti 框架),事实带有 valid_at 和 invalid_at 时间戳,自动提取关系,返回针对 LLM 消费优化的预格式化上下文块,检索延迟低于 200ms。

Thoth — 145 Stars,架构最深的那个

小项目,但架构深度全场第一。构建个人知识图谱,10 种实体类型,67 种有向关系。FAISS 向量搜索 + 每次 LLM 调用前的单跳图谱扩展。

亮点是”梦境周期”——每夜四阶段处理:0.93+ 相似度阈值去重 → 从对话上下文丰富描述 → 推断共现实体间的关系 → 90 天以上关系的置信度衰减。

三层防污染机制防止跨实体事实渗透。145 颗星是因为大多数人还没准备好为自己的上下文搭建知识图谱。

MemSearch(Zilliz 出品)— 1.2k Stars,Markdown 优先

记忆就是 .md 文件,人类可读、可编辑、可版本控制。Milvus 作为”影子索引”运行,可完全重建。文件是真相来源,向量搜索只是上面的访问层。

值得注意的是,这来自 Zilliz——一个向量数据库公司。他们发布了一个记忆系统,其中自家产品反而排在文件后面。这本身就是对”真相来源在哪”的有力让步。

阵营二的核心洞察是——记忆不应该是一个黑盒系统在后台偷偷运作,而应该是你可以看见、可以编辑、可以理解的文件。这跟”可解释 AI”的精神一脉相承。你在用 Agent 的同时,也在用它构建属于你自己的知识库。

PART 04

PART 04 两个循环,两种哲学

阵营一的循环:

对话发生 → 系统提取事实或存储内容 → 事实进入数据库 → 下次对话,相关事实被检索并注入

智能在提取和检索中。你跟 Agent 交互,记忆系统在幕后工作。你从不直接接触记忆,你信任系统会记住正确的东西、在正确的时机呈现。

阵营二的循环:

Agent 工作前读取结构化上下文 → Agent 在该上下文中工作 → Agent(或后台进程)写回结构化上下文 → 下次会话,上下文比之前更丰富

智能在累积中。上下文就是记忆。因为它是文件(Markdown、知识图谱、上下文容器),人可以读、可以改、可以纠正,并且精确地知道 Agent 知道什么。

阵营一优化的是召回:系统能找到正确的事实吗?

阵营二优化的是复利:系统会随时间变得更好吗?

这个对比让我想到一个类比——阵营一像是搜索引擎,你问它答;阵营二像是一个不断成长的工作台,你每次来都在上次的基础上继续。对于真正想让 AI 深度参与工作的团队来说,后者显然更有想象空间。

PART 05

PART 05 接下来会怎样

从运行 24/7 Agent 的经验来看,趋势很清晰:记忆和上下文不是同一个问题。

我的 Agent 不需要”记住”我偏好深色模式。它需要在一个包含我活跃项目、合作伙伴、近期决策和昨天发生了什么的上下文中工作。而且这个上下文明天要比今天更丰富。

记忆后端解决召回问题。96%+ 准确率、低于 200ms 延迟、即插即用的 API。如果你需要一个聊天机器人记住用户偏好,Mem0 或 MemPalace 就够了。

但如果你在持续运行一个 Agent——一个在你睡觉时也在工作的 Agent,一个从你其他工具也写入的同一个知识库中读取的 Agent,一个在数周和数月内会显著变得更好的 Agent——上下文基底的方法才是让这一切运转的关键。

我的预测:6 个月内,”上下文工程”将替代”记忆”成为严肃 Agent 基础设施的默认用语。 构建基底式架构的项目会甩开那些仍在把问题框定为”事实存储”的项目。基准测试会被重写,或者新的测试将取代它们。

这篇文章最大的价值不在于它介绍了哪些工具,而在于它提出了一个框架性的思考——你在用 AI 的时候,到底想要一个”记性好的助手”还是一个”能和你一起成长的系统”?

>

选前者,你得到效率提升。选后者,你可能得到一种全新的人机协作方式。

>

而我自己的选择?Hermes Agent 的 memory 机制其实就是阵营二的思路——Markdown 文件、跨会话累积、人类可读可编辑。这篇文章给了这套方案一个漂亮的名字:上下文基底

THANKS FOR READING

⚡ 爱马仕 · Hermes Agent 技术分享