OpenClaw 核心技术深度解析(四):记忆与身份系统

大多数 AI Agent 框架用向量数据库存储记忆，用复杂的 RAG 管道检索上下文。OpenClaw 选择了一条截然不同的路——纯 Markdown 文件 + SQLite 向量搜索的混合架构。

这个设计看似简单，实则蕴含着深刻的产品哲学：记忆应该是透明的、可编辑的、可版本控制的。

身份层：5 个 Markdown 文件定义一切

OpenClaw 用 5 个纯文本文件定义 Agent 的完整身份：

文件	用途	示例内容
`SOUL.md`	Agent 的人格、价值观和行为默认值	"你是一个友好但直接的助手，偏好简洁的回答"
`user.md`	用户偏好和个人信息	"用户偏好中文回复，是一名后端开发者"
`memory.md`	跨会话持久化的长期记忆	"用户的项目使用 Python 3.12 + FastAPI"
`tools.md`	工具使用策略和文档	"优先使用 web_search 而非 web_fetch"
`bootstrap.md`	启动协议	"启动时先检查 memory.md 中的待办事项"

为什么用 Markdown 而不是数据库？

正如 Cenrax 在其分析中指出的：OpenClaw 的整个记忆系统运行在 Markdown 文件上。纯文本，就在你的项目目录里，你可以读取、编辑、用 git 版本控制，或者随时删除。

这带来了几个独特优势：

透明性：你可以直接打开文件看到 Agent "记住"了什么
可编辑性：不满意 Agent 的记忆？直接编辑文件
版本控制：用 git 追踪记忆的变化历史
可移植性：复制文件夹就能"克隆"一个 Agent 的身份
零依赖：不需要运行任何数据库服务

搜索层：SQLite-vec 向量搜索

纯文件存储解决了"写入"问题，但"检索"需要更智能的方案。OpenClaw 的记忆搜索系统（src/memory/）基于 SQLite-vec：

架构概览

记忆写入：Agent 决定记住某事 → 写入 memory.md → 自动索引到 SQLite-vec

记忆检索：Agent 需要回忆 → memory_search 工具
    → 向量相似度搜索（语义匹配）
    → 关键词搜索（精确匹配）
    → 混合排序 → 返回 Top-K 结果

技术细节

组件	实现	说明
向量存储	SQLite-vec 扩展	本地文件，零运维，单用户场景最优选择
嵌入模型	OpenAI / Gemini / 本地 GGUF	支持多种嵌入提供商，本地模型完全离线
分块策略	400 token 块 + 80 token 重叠	平衡检索精度和上下文完整性
搜索方式	混合搜索（向量 + 关键词）	语义匹配 + 精确匹配双保险
索引范围	memory.md + 会话记录 + 每日笔记	自动索引，无需手动管理
去重机制	内容哈希	防止跨重建索引的重复条目

正如 PingCAP 的分析所说：OpenClaw 的持久记忆是一个完全由 SQLite 驱动的 RAG-lite 本地索引系统。不需要 Docker 容器，不需要向量云服务，所有数据都在本地。

高级记忆方案：QMD

社区还开发了 QMD（Query-Memory-Decide）方案来增强 OpenClaw 的记忆搜索：

向量语义搜索：使用本地 GGUF 嵌入模型，找到概念相似的内容
混合搜索 + LLM 重排序：并行运行向量搜索和关键词搜索，用 Reciprocal Rank Fusion 合并结果，再用本地 LLM 重排序
自动记忆管理：Hindsight 等工具可以自动化整个记忆管道，Agent 不需要自己决定"记住什么"

安全层：记忆作用域隔离

记忆系统的安全设计至关重要——你不希望群聊中的其他人能访问你的个人记忆。

会话类型	memory.md 访问	向量搜索	user.md 访问
主会话（与所有者的直接聊天）	读写	完全访问	读写
群组会话	无访问	无访问	无访问
子 Agent 会话	只读（继承父 Agent）	受限访问	只读

这种作用域隔离确保了：

个人记忆不会泄露到群组对话中
子 Agent 可以利用父 Agent 的记忆，但不能修改
每个通道的会话数据相互隔离

记忆漂移问题与解决方案

OpenClaw 最近引入了 before_prompt_build 运行时钩子，专门解决记忆漂移（Memory Drift）问题。

什么是记忆漂移？ Agent 虽然有语义记忆工具，却无法正确检索已存储的上下文。表现为：

Agent 反复询问已经告诉过它的信息
Agent 的回答与之前的对话上下文不一致
记忆搜索返回了相关结果，但 Agent 没有正确利用

根本原因：LLM 不总是主动调用 memory_search 工具。即使记忆存在，如果 LLM 没有"想到"去搜索，记忆就形同虚设。

解决方案：before_prompt_build 钩子在每次构建提示词之前自动执行记忆搜索，将相关记忆注入到系统提示词中，而不是依赖 LLM 主动调用工具。

正如 db0.ai 的分析所说：OpenClaw 的记忆不是模型的能力——它是系统设计的产物。这意味着它与人类记忆有本质区别：人类记忆是神经网络中的权重，OpenClaw 的记忆是文件、数据库索引和一套将信息送入模型视野的机制。

与其他方案的对比

特性	OpenClaw	ChatGPT Memory	Mem0	LangChain Memory
存储	本地 Markdown + SQLite	云端，不可见	向量数据库	多种后端
透明度	完全透明，可直接编辑	黑盒	需要 API 查询	取决于实现
隐私	完全本地	数据在云端	可本地部署	取决于后端
版本控制	原生支持（git）	不支持	不支持	不支持
搜索能力	混合搜索	未知	向量搜索	多种方式
运维成本	零（SQLite）	零（托管）	需要数据库	取决于后端

总结

OpenClaw 的记忆系统证明了一个反直觉的观点：最简单的方案往往是最好的方案。纯 Markdown 文件提供了无与伦比的透明性和可控性，SQLite-vec 提供了足够好的语义搜索能力，两者结合形成了一个零运维、完全本地、高度可定制的记忆架构。

参考链接

PingCAP - Using SQLite for AI Agent Memory with OpenClaw
db0.ai - How OpenClaw's Memory System Actually Works
Cenrax - How Markdown Replaces Vector Databases
Lumadock - Advanced Memory Management in OpenClaw
Hindsight - The Memory Upgrade Every OpenClaw User Needs
Moely - OpenClaw Memory Design