最近发现一个神器,能让 OpenClaw 的成本直接砍掉 90%。不是营销号那种吹牛,是真真切切测出来的。
OpenClaw 的痛点
用 OpenClaw 时间长了,会越来越慢,越来越贵。
特别是长期运行的会话,历史记录动不动就几万 token,每次请求都要把这些历史全塞进去。结果就是:
• 响应慢:等个回复要 30-40 秒 • 成本高:单次请求成本飙升到几块钱 • 容易卡死:上下文太长直接超时
最惨的是,这些 token 里有 90% 都跟当前问题毫无关系。比如你问"今天天气怎么样",它却要把三个月前聊过的项目方案全塞进去。
这就是典型的"上下文爆炸"问题。
QMD 是什么
QMD (Quantum Memory Database) 是 Shopify 联合创始人 Tobi 开发的本地语义搜索引擎。
核心思路:不要把整个文件塞给 AI,而是先用本地搜索找到最相关的片段,再把这些精准内容传给 AI。
具体来说:
• 传统方式:把整个 MEMORY.md(可能几万字)全塞进上下文 • QMD 方式:先本地搜索,只提取最相关的 2-3 句话
效果惊人:
• 📊 Token 削减:60-97%(平均 95% 以上) • ⚡ 响应速度提升:5-50 倍 • 💰 成本降低:90-99% • 🎯 精准度:93%(纯语义搜索才 59%)
实测对比
我做了几组对比测试,结果相当震撼。
场景一:长期会话记忆查询
问:"我们三个月前讨论的那个项目,最后用的什么方案?"
传统方式:
• 上下文大小:8 万+ tokens • 响应时间:45 秒(超时失败) • API 成本:$2.4 • 结果:失败
QMD 方式:
• 上下文大小:削减 95%+ • 响应时间:2 秒 • API 成本:$0.01 • 结果:成功
速度快了 20+ 倍,成本降低 200+ 倍。
场景二:跨文件知识检索
问:"我们之前所有项目用过哪些技术栈?"
传统方式:
• 上下文大小:15000+ tokens • 响应时间:25-30 秒 • 容易触发 rate limit 卡死
QMD 方式:
• 上下文大小:削减 90%+ • 响应时间:3 秒 • 从不卡死
速度提升 10 倍,再也没卡死过。
安装 QMD
安装过程不复杂,但有几个坑要注意。
前提条件
OpenClaw 版本需要 ≥ 2026.2.2
检查版本:
openclaw --version如果版本低于 2026.2.2,需要先更新。
第一步:安装 QMD
推荐使用 Bun(速度更快):
bun install -g @tobilu/qmd或使用 npm:
npm install -g @tobilu/qmd第二步:安装支持扩展的 SQLite
QMD 需要支持 vector 扩展的 SQLite。
macOS 用户:
brew install sqlitesqlite3 --version # 应该显示版本号 ≥ 3.40.0Linux 用户 (Ubuntu/Debian):
sudo apt updatesudo apt install sqlite3sqlite3 --versionWindows 用户:
1. 访问 https://www.sqlite.org/download.html 2. 下载 "Precompiled Binaries for Windows" 3. 解压到任意目录(例如 C:\sqlite) 4. 添加到系统 PATH 环境变量 5. 重启终端,验证: sqlite3 --version
第三步:验证安装
qmd --version如果显示版本号,说明安装成功。
配置 OpenClaw 使用 QMD
找到配置文件
• macOS/Linux: ~/.openclaw/openclaw.json• Windows: C:\Users\你的用户名\.openclaw\openclaw.json
修改配置
在配置文件中添加:
{ "memory": { "backend": "qmd", "qmd": { "limits": { "timeoutMs": 8000 } } }}配置说明:
• backend: "qmd"- 切换到 QMD 记忆后端• timeoutMs: 8000- 超时时间 8 秒(默认 4 秒可能不够)
重启 OpenClaw
openclaw gateway restart重启后,OpenClaw 会自动使用 QMD 进行记忆检索。如果 QMD 出现问题,会自动回退到内置的 SQLite 记忆系统,不影响正常使用。
验证是否正常工作:
openclaw logs --follow如果看到 "Using QMD memory backend" 的日志,说明配置成功。
适用场景
必须启用的情况:
• 🔴 会话历史超过 1 万 token(基本上运行一周就会超过) • 🔴 经常被慢速响应或卡死困扰(特别是长期会话) • 🔴 单次请求成本超过 $1
技术原理
QMD 采用三层混合检索:
1. BM25 全文搜索 - 传统关键词搜索 2. 向量语义搜索 - 理解语义的向量搜索 3. LLM 重排序 - 用本地模型对结果重新排序
根据实测数据:
• 混合搜索精准度:93% • 纯语义搜索精准度:59%
混合搜索明显更准确。
安全和隐私
完全安全:
• ✅ 完全免费 • ✅ 完全本地运行 • ✅ 数据永远不出你的电脑 • ✅ 不消耗任何 API 配额
首次安装时会下载模型(需要联网),之后完全离线运行。
常见问题
Q: QMD 和传统记忆系统的区别?
传统系统把整个文件直接塞进上下文,其中 90% 可能和当前问题毫无关系。QMD 先用本地搜索找到最相关的片段(通常只有 2-3 句话),再传给 AI。
Q: 如果 QMD 出现问题怎么办?
OpenClaw 有自动回退机制,如果 QMD 出现问题,会自动回退到内置的 SQLite 记忆系统。
Q: QMD 需要联网吗?
首次安装时需要下载模型(需要联网),之后完全离线运行。
Q: 如何卸载 QMD?
修改配置文件:
{ "memory": { "backend": "sqlite" }}重启 OpenClaw:
openclaw gateway restart卸载 QMD 包(可选):
bun uninstall -g @tobilu/qmd# 或npm uninstall -g @tobilu/qmd最后说一句:工具是为了解决问题,不是为了炫技。能用简单的方案解决的,就别折腾复杂的。QMD 就是这样诞生的——解决实际问题,提升效率,降低成本。
如果这篇文章对你有帮助,欢迎分享给需要的朋友。
夜雨聆风