我扒了450个AI记忆工具,发现整个行业分成两个阵营
GitHub 上搜 “agent-memory” 能找到 450 多个仓库,搜 “context-management” 有 460 多个。我跟几个搞 Agent 的朋友把这些项目全过了一遍。
原本以为会看到 40 个工具用不同的 API 做差不多的事情。
结果发现的却是:两个根本不同的范式,几乎没人把它们之间的界限说清楚,而且这个品类甚至还没有一个统一的名字。
我在一台 Mac Mini M4 上跑着 24/7 的 Agent。每次会话都在上一次的基础上叠加。正是这个设置让我注意到了这个分叉——大多数记忆工具撑不起我的用法,而那些能撑起的,根本不被当作”记忆工具”来讨论。
PART 01
PART 01 两大阵营
阵营一:记忆后端(Memory Backends)
这类工具从对话中提取事实,存进向量数据库,下次你提问时检索相关记忆回来。本质上是自动化的笔记系统——把东西归档,需要时再取出来。
核心问题:“AI 该记住什么?”
阵营二:上下文基底(Context Substrates)
这类工具维护结构化的、人类可读的上下文,跨会话累积。没有”提取”这回事——上下文本身就是文件。Agent 读取它、在其中工作、写回它,整个系统随时间复利增长。
核心问题:“AI 该在什么上下文中工作?”
目前大部分项目(以及大部分 GitHub Star)都在阵营一。但真正能扩展到持续、多会话、多项目工作的架构,正在阵营二中涌现。
PART 02
PART 02 阵营一:记忆后端
Mem0 — 53.1k Stars,品类之王
四个操作:添加、搜索、更新、删除。从对话中提取事实,按三个层级存储(用户级、会话级、Agent 级),通过混合搜索检索。
集成极其简单,Python 和 TypeScript SDK 都有,兼容一切。
局限:记忆是扁平条目,彼此之间没有关联。每次提取都需要一次 LLM 调用,质量完全取决于提取 prompt 的好坏。而且一旦存进去就不会演化——一月份的事实和四月份的事实并排躺着,系统不知道新的可能已经替代了旧的。
MemPalace — 46.2k Stars,逐字记忆派
不提取事实,而是逐字存储对话,组织成”翼”(实体)、”房间”(话题)、”抽屉”(原始内容)。用 ChromaDB 检索。
基准测试分数全场最高:LongMemEval 上纯语义搜索 96.6% 召回率,混合管线 98.4%,LLM 重排序 99%+。
局限:逐字存储线性增长。聊得越多,体积越大。没有压缩,没有综合。如果你的问题是”找到我三周前说的那句话”,这是最好的工具。但如果你的问题是”给我跨五个项目的当前工作状态”,它就力不从心了。
Supermemory — 21.8k Stars,会过期的记忆
明确打出口号:”记忆不是 RAG。”差异化在于时间感知——你说”我刚搬到旧金山”,它会覆盖你之前的城市。过期事实自动遗忘。用户画像结合稳定事实和近期活动,检索延迟约 50ms。
接入 Google Drive、Gmail、Notion、GitHub 等。跨 PDF、图片、视频、代码的多模态支持。
大多数阵营一的工具把事实当作永久的。Supermemory 把它们当作演化的。这是阵营一最接近思考”状态”而非仅仅”存储”的地方。
Honcho — 2.4k Stars,建模你的思维方式
把人类和 Agent 都视为统一模型中的”对等体”。后台运行异步推理服务,从会话中推导每个对等体的心理画像。不只是记住你说了什么,而是在建模你怎么思考。
PART 03
PART 03 阵营二:上下文基底
OpenClaw — 358k Stars,文件即记忆
纯 Markdown 文件:MEMORY.md 存长期记忆,日记文件(YYYY-MM-DD.md)存运行上下文,DREAMS.md 存整合摘要。
文档里那句定义了整个哲学的话:“模型只’记住’保存到磁盘上的东西,没有隐藏状态。”
没有向量数据库,没有提取管线。就是 Agent 读写的文件。
最有趣的功能是”做梦”(Dreaming):一个后台进程分三个阶段把日记整合进长期记忆:
- 浅睡眠:扫描日记,把相邻行分组成连贯块
- REM:加权回忆提升,频繁访问的信息变成”持久真理”
- 深睡眠:安全提升到 MEMORY.md,去重而非重复
只有通过所有阈值的条目才会被提升:最低分 0.8,最低回忆次数 3,最低独立查询数 3。六个加权信号给每个候选打分——相关性(0.30)、频率(0.24)、查询多样性(0.15)、时效性(0.15)、整合度(0.10)、概念丰富度(0.06)。
Zep — 4.4k Stars,品牌重塑的信号
Zep 最近把整个品牌定位从”记忆”改成了”上下文工程”(Context Engineering)。这一举动是整个领域里最强的市场信号——一个有融资、有 4.4k Star 的公司审视了行业走向,决定”记忆”这个词不足以描述他们在做的事。
底层用时序知识图谱(Graphiti 框架),事实带有 valid_at 和 invalid_at 时间戳,自动提取关系,返回针对 LLM 消费优化的预格式化上下文块,检索延迟低于 200ms。
Thoth — 145 Stars,架构最深的那个
小项目,但架构深度全场第一。构建个人知识图谱,10 种实体类型,67 种有向关系。FAISS 向量搜索 + 每次 LLM 调用前的单跳图谱扩展。
亮点是”梦境周期”——每夜四阶段处理:0.93+ 相似度阈值去重 → 从对话上下文丰富描述 → 推断共现实体间的关系 → 90 天以上关系的置信度衰减。
三层防污染机制防止跨实体事实渗透。145 颗星是因为大多数人还没准备好为自己的上下文搭建知识图谱。
MemSearch(Zilliz 出品)— 1.2k Stars,Markdown 优先
记忆就是 .md 文件,人类可读、可编辑、可版本控制。Milvus 作为”影子索引”运行,可完全重建。文件是真相来源,向量搜索只是上面的访问层。
值得注意的是,这来自 Zilliz——一个向量数据库公司。他们发布了一个记忆系统,其中自家产品反而排在文件后面。这本身就是对”真相来源在哪”的有力让步。
PART 04
PART 04 两个循环,两种哲学
阵营一的循环:
对话发生 → 系统提取事实或存储内容 → 事实进入数据库 → 下次对话,相关事实被检索并注入
智能在提取和检索中。你跟 Agent 交互,记忆系统在幕后工作。你从不直接接触记忆,你信任系统会记住正确的东西、在正确的时机呈现。
阵营二的循环:
Agent 工作前读取结构化上下文 → Agent 在该上下文中工作 → Agent(或后台进程)写回结构化上下文 → 下次会话,上下文比之前更丰富
智能在累积中。上下文就是记忆。因为它是文件(Markdown、知识图谱、上下文容器),人可以读、可以改、可以纠正,并且精确地知道 Agent 知道什么。
阵营一优化的是召回:系统能找到正确的事实吗?
阵营二优化的是复利:系统会随时间变得更好吗?
PART 05
PART 05 接下来会怎样
从运行 24/7 Agent 的经验来看,趋势很清晰:记忆和上下文不是同一个问题。
我的 Agent 不需要”记住”我偏好深色模式。它需要在一个包含我活跃项目、合作伙伴、近期决策和昨天发生了什么的上下文中工作。而且这个上下文明天要比今天更丰富。
记忆后端解决召回问题。96%+ 准确率、低于 200ms 延迟、即插即用的 API。如果你需要一个聊天机器人记住用户偏好,Mem0 或 MemPalace 就够了。
但如果你在持续运行一个 Agent——一个在你睡觉时也在工作的 Agent,一个从你其他工具也写入的同一个知识库中读取的 Agent,一个在数周和数月内会显著变得更好的 Agent——上下文基底的方法才是让这一切运转的关键。
我的预测:6 个月内,”上下文工程”将替代”记忆”成为严肃 Agent 基础设施的默认用语。 构建基底式架构的项目会甩开那些仍在把问题框定为”事实存储”的项目。基准测试会被重写,或者新的测试将取代它们。
>
>
THANKS FOR READING
⚡ 爱马仕 · Hermes Agent 技术分享
夜雨聆风