OpenClaw 之外,10 个值得看的 memory 与 agent 项目(附源码)

做 AI 助手，别只看 OpenClaw：这 10 个 GitHub 项目，正在补齐 memory 和 agent 运行层

如果你最近在研究 OpenClaw，很容易被它更外显的能力吸引：消息渠道接入、浏览器操作、节点设备、子代理调度、Web Control UI……

这些能力当然重要，因为它们决定了 AI 助手能不能真正进入现实工作场景。

但真正把一个 AI 助手做成“长期可用系统”的，往往不是这些入口层能力，而是更底下的两层：

- memory：它到底记住了什么，怎么记，怎么调

- runtime：它到底怎么组织任务、管理状态、驱动多个 agent 协作

很多 AI 助手现在的问题，不是不会回答，而是：聊过就忘、换个任务就断、多轮一长就乱、多代理一上就飘、工具调用越来越多，但状态越来越不可控。

所以如果你真的在看 OpenClaw，不能只看 OpenClaw 本身。你还得看它周边那些正在补 memory 和 agent runtime 的 GitHub 项目。

为什么做 OpenClaw，一定会遇到 memory 和 runtime 问题？

OpenClaw 的优势，在于它更像一个 AI 助手的“接入与运行环境”：能接聊天渠道、能接工具、能接浏览器、能接设备能力、能做多代理和子代理调度、能让 AI 从聊天框里走出来，进入现实任务。

但能力一旦接得更多，系统就会更快碰到两个核心瓶颈：

第一个瓶颈：AI 到底记住什么？

如果没有 memory，AI 助手的体验会很奇怪：用户偏好明明说过很多次，还是反复忘；项目背景每次都要重新介绍；前天刚定的规则，今天又像没发生过；聊天历史很多，但真正需要的信息调用不出来。

所以问题不是“能不能存聊天记录”，而是：什么内容值得记、什么内容只该临时用、哪些记忆应该长期保留、哪些旧信息应该被更新或淘汰、未来检索时怎么快速找到最相关的信息。

第二个瓶颈：任务到底怎么持续跑？

很多 AI 产品在单轮问答里表现不错，但一到多步任务就容易失控：第一步还正常，第二步开始上下文变乱；调了一次工具后，系统不知道该往哪走；多代理合作时消息来回太多；中断之后很难恢复；一长串流程跑到一半就“失忆”。

这说明 AI 助手缺的不是再多一个工具，而是更成熟的 runtime：状态怎么存、节点怎么跳、失败怎么重试、多代理怎么分工、过程如何恢复。

也就是说，OpenClaw 负责把 AI 接进现实世界，而这些外围项目，负责让它在现实世界里别忘、别乱、别散架。

一、Memory 类项目：它们不是“帮 AI 多记一点”，而是在定义 AI 怎么拥有长期连续性

1. mem0：把“用户偏好”和“长期上下文”变成可复用资产

GitHub：https://github.com/mem0ai/mem0

mem0 这类项目最核心的价值，不在于“存了更多东西”，而在于它试图解决一个更关键的问题：怎样把对话里的高价值信息抽出来，沉淀成长期可调用的记忆。

聊天记录本身不是记忆。聊天记录只是原始素材，真正的记忆应该是经过提炼的长期信息，比如用户喜欢什么表达风格、某个项目有哪些稳定规则、某个客户有哪些长期偏好、哪些人名和关系会反复出现。

所以 mem0 的干货价值在于：它让 AI 从“依赖会话上下文”走向“具备长期经验”，让助手从“当前轮次回答者”变成“持续积累认知的系统”。

2. Zep：把 memory 从“上下文拼接”升级成“独立的数据系统”

GitHub：https://github.com/getzep/zep

很多团队一开始做 memory，思路都很粗暴：把之前的对话截一截、摘要一下、拼回 prompt 里。短期凑合能用，但一旦会话变长、任务变多、角色变复杂，这种做法就会越来越贵、越来越乱、越来越不稳。

Zep 这类项目的价值，就在于它把 memory 这件事单独拉出来，当成一个系统设计问题去做。它提醒我们：记忆不是 prompt 附件，记忆需要结构化组织，需要检索能力，需要跨会话存在，不应该只是“聊天历史的压缩包”。

3. LangMem：真正重要的不是记得多，而是知道该记什么

GitHub：https://github.com/langchain-ai/langmem

这是 memory 设计里最关键、也最容易被忽视的一层。很多系统会掉进两个极端：要么什么都记，导致噪声越来越大；要么不敢记，结果每次都重新开始。

但真正成熟的 memory，不是“多”，而是“准”。LangMem 这类项目的价值就在于，它逼团队认真思考：用户随口说的一句，需不需要沉淀；项目里某个规则，是不是长期有效；临时情绪和长期偏好怎么区分；新记忆出现时，旧记忆要不要覆盖。

4. LanceDB：很多 memory 最终都不是输在策略上，而是输在底座上

GitHub：https://github.com/lancedb/lancedb

不少人谈 memory，容易把注意力都放在“摘要策略”“记忆抽取”“人格连续性”这些上层问题上。但只要真的开始跑系统，就会发现：很多 memory 方案最后不是死在想法不对，而是死在底层检索和存储不稳。

LanceDB 这种项目补的是 memory 的基础设施层。它本身不会直接告诉你“什么该记”，但它能帮助你解决这些记忆怎么存、相似内容怎么召回、本地部署怎么做、私有化环境怎么跑、大量历史数据怎么保持可检索。

5. Chroma：它提醒所有人，memory 不是一句产品话术，而是一套检索工程

GitHub：https://github.com/chroma-core/chroma

很多所谓“长期记忆”的实现，最后都离不开这些步骤：把信息向量化、建索引、相似召回、在召回结果上叠加摘要、标签、优先级和更新策略。

也就是说，memory 从来不只是“保存一下历史”，而是一整套检索工程。Chroma 的干货价值，就是把 memory 这件事从“产品描述”拉回“工程现实”。

二、Runtime 类项目：它们解决的不是“会不会调用工具”，而是“调用之后系统还能不能保持秩序”

如果说 memory 解决的是“别忘”，那么 runtime 解决的就是“别乱”。前面接工具、接浏览器、接渠道的时候会很兴奋，但一旦任务变复杂，就会迅速发现：AI 会调用工具，但不知道下一步该怎么接；多个 agent 能说话，但合作起来并不顺；一旦中断，任务很难继续；状态越来越多，控制越来越弱。

这些问题，不靠多写几个 prompt 解决，必须靠 runtime 层设计。

6. LangGraph：让 agent 从“单次调用”变成“可持续执行的状态图”

GitHub：https://github.com/langchain-ai/langgraph

LangGraph 最值得看的，不是“图结构很酷”，而是它把一个非常关键的事实说透了：真实任务不是线性的问答，而是有状态的执行过程。

系统需要知道现在任务处于哪一步、下一步该进哪个节点、工具调用失败之后如何补救、哪些环节可以重试、哪些必须人工介入、中间结果怎么保存、之后怎么接着跑。

7. AutoGen：多代理真正有价值的地方，不是热闹，而是分工

GitHub：https://github.com/microsoft/autogen

很多人第一次看多代理系统，最容易被“几个 agent 彼此对话”的画面吸引。但真正有价值的，从来不是让它们多聊几轮，而是让它们各自承担不同职责。

一个代理负责规划，一个代理负责执行，一个代理负责检查，一个代理负责补充知识和上下文。多代理的真正价值，是降低复杂度，而不是制造更多对话。

8. CrewAI：把多代理从“技术实验”推向“产品理解”

GitHub：https://github.com/crewAIInc/crewAI

CrewAI 更容易让产品人理解多代理到底在干什么。它更强调“角色”和“协同”：谁负责搜集、谁负责整理、谁负责判断、谁负责输出。

它的价值不是告诉你“多代理一定更强”，而是帮你看清：多代理真正有用的场景，是那些天然存在分工结构的任务。如果任务本身不需要分工，硬上多个 agent，往往只是增加复杂度。

9. OpenHands：它代表的是“行动型 agent”路线，而不是聊天型 agent 路线

GitHub：https://github.com/OpenHands/OpenHands

OpenHands 更强调的是：AI 不只是理解任务，而是要真正进入执行链路，尤其是在开发任务里，去读代码、改代码、跑命令、完成闭环。

它代表了一条很明确的路线：agent 的核心竞争力，不一定是更会聊，而是更会干。OpenClaw 更像“入口 + 接入 + 系统运行环境”，OpenHands 更像“执行闭环本身”。

10. Letta：有些 agent 不是临时工作者，而是持续存在的系统个体

GitHub：https://github.com/letta-ai/letta

Letta 代表了一种更彻底的 agent 视角：不是给 agent 加一点记忆，而是从一开始就承认，一个真正长期工作的 agent，应该有自己的内部状态、记忆更新机制和持续存在的上下文。

它逼我们认真思考：AI 助手到底只是“这次被叫出来干活的一次性程序”，还是一个“持续在线、持续成长、持续积累状态的系统角色”？

如果把这些项目放在一起，它们真正补的是哪两个洞？

第一，是长期连续性不够。表现为说过就忘、用久了没有积累感、明明一直在聊天，却越来越不像“认识你”。这类问题，主要靠 memory 体系来补。

第二，是执行秩序不够。表现为能调工具，但不会组织；能做多步，但容易跑偏；能多代理，但容易变乱；任务一长，系统就散。这类问题，主要靠 runtime 体系来补。

也就是说，这些 GitHub 项目的真正价值，不在于它们各自有多火，而在于它们刚好补在 AI 助手最容易翻车的地方。

结尾

很多人现在聊 AI 助手，还是容易把关注点放在最表层：模型够不够强、聊天像不像真人、工具会不会调、演示看起来顺不顺。

但如果你真的想判断谁能走到长期可用的阶段，应该看的其实是更底下的东西：它能不能形成长期记忆、能不能组织持续状态、能不能在复杂任务里保持秩序、能不能从一次次交互里积累，而不是重复失忆。

从这个角度看，OpenClaw 很值得跟，因为它在把 AI 接入现实世界；而这些 GitHub 项目同样值得跟，因为它们正在补齐 AI 在现实世界里长期生存所需要的 memory 和 runtime。

这才是 AI 助手真正进入下一阶段的底层逻辑。