月烧3600降到20: OpenClaw 省Token完全指南,亲测省97%

有人2小时花了100美元，有人月账单3600。但也有人从$600降到了$20——用的都是同一个OpenClaw，区别在哪？

先说结论：OpenClaw 本身不费钱，费钱的是默认配置和错误用法。用对方法，成本可以砍掉 90%~97%。

"2小时消耗100美元""月账单3600美元"这不是夸张——这是大量 OpenClaw 用户真实踩过的坑。

一、你的 Token 钱都去哪了？

先搞清楚一个问题：OpenClaw 每次调用模型，真正烧钱的不是它"回答了什么"，而是你"喂给它什么"。

一次典型请求的 Token 构成长这样：

组成部分	Token量	占比	能否优化
上下文历史（旧对话重发）	9,000~185,000+	40%~50% ❌	可压缩 95% ✅
工具输出（Shell/网页/文件）	3,000~8,000	20%~30% ❌	可精简 ✅
System Prompt + Skill定义	8,000~15,000	10%~15%	可缓存（便宜10倍）✅
Workspace 文件	2,000~5,000	5%~8%	可控制 ≤2000 ✅
心跳/保活 ping	1,000~10,000	5%~10% ❌	可隔离到廉价模型 ✅
模型实际回复	500~4,000	8%~12%	可设上限

看到了吗？你花钱买的"智能回答"，其实只占不到 15% 的费用。剩下 85% 以上都在为"上下文""系统提示""工具输出"这些隐形成本买单。

更恐怖的是：随着对话轮数增加，历史消息会每轮重复发送。聊了 50 轮之后，单次请求轻松突破 10 万 Token。有用户实测会话累积到 185K tokens——相当于每次提问都把整本《哈利波特》重新发给模型读一遍。

二、三套方案，按需取用

根据你的使用强度和时间投入，我整理了三级优化路线：

默认配置（不优化）

$300~600/月

重度用户超 $1000

→ ↓ →

全套优化后

$6~20/月

节省 97% 🔥

方案 A · 5 分钟速效（省 50%）

零门槛，改几个配置立竿见影

适合刚入门、不想折腾太多的人。三件事做完就能看到效果。

① 切换默认模型：Opus → Haiku / MiniMax

这是最直接的一刀。Claude Opus 输入 $15/MTok，Haiku 只要 $1/MTok，差 15 倍。日常任务根本不需要 Opus 级别的智力。在聊天里直接发：/model haiku-4.5或者在 openclaw.json 里改默认模型即可。

② 设置输出 Token 上限

模型喜欢"滔滔不绝"。不限制的话，一个简单问题它能给你写 4000 字的小论文。设置 max_output_tokens: 2048，输出成本直接减半。

③ 用好斜杠命令（零成本）

/new 清空对话上下文（任务切换后必做）/compact 压缩记忆文件（体积缩减 60%）/status 查看当前上下文占用比例（超过 50% 就该 /new 了）这三个命令不花一分钱 Token，纯靠操作习惯省钱。

💡

方案 A 预期效果：月费从 $300~600 降到 $150~300。轻度用户甚至能砍掉 60%。唯一代价是日常问答的"聪明程度"几乎无感知下降。

方案 B · 30 分钟进阶（省 80%）

配置模型路由 + 子代理独立 + 会话管理

核心思路：不同的任务，用不同价位的模型。不是所有问题都值得请"教授"回答。

④ 配置 Fallback 模型链（自动降级）

让 OpenClaw 根据任务复杂度自动选择模型——简单问题用便宜的，遇到难题才升级贵的。在 openclaw.json 中配置 fallbacks 链：主模型 Sonnet（日常）→ 复杂度 > 0.7 升级 Haiku → 复杂度 > 0.9 升级 Opus效果：整体 API 成本降低约 70%，关键时刻不掉链子。

⑤ 子代理用廉价模型

OpenClaw 的子 Agent（Sub-Agent）默认继承主模型。但实际上子任务大多是搜索、分类、格式化这类"苦力活"，完全可以用 Haiku 或 GPT-4o-mini。配置示例：搜索 agent 用 gpt-4o-mini，代码运行 agent 用 haiku，只有主决策层保留 Sonnet。实测：仅此一项就能省 40~60%。

⑥ 心跳任务隔离（隐藏的大头）

这是一个很多人不知道的超级黑洞！OpenClaw 的心跳保活（Heartbeat）功能，默认用的是主模型（比如 Opus）。每隔 55 分钟一次 ping，每次消耗约 1500 tokens。一天下来光心跳就烧掉 ~650 tokens × $15 = 将近 $10。解决方案：把心跳隔离到廉价模型 + isolatedSession: true这一项改动就能省 95%~98% 的心跳开销。

📊

方案 B 预期效果：月费从 $300 降到 $60~120。核心收益来自"让合适的模型干合适的事"，而不是一刀切地用最贵的。

方案 C · 深度优化（省 97%）

QMD 记忆后端 + Prompt 缓存 + 本地模型

如果你是重度用户（日均 200+ 次交互），这套组合拳能把成本打到地板上。

⑦ 启用 QMD 记忆后端（最大杀手锏）

这是所有优化中效果最猛的一个——单独就能省 90%+。原理：默认情况下 OpenClaw 每次请求都会把整个 MEMORY.md 塞进上下文（可能 15000+ tokens）。启用 QMD 后，改为混合搜索只提取相关的 2~3 句话（通常 1500 tokens）。QMD 采用三层检索：BM25 关键词匹配 + 向量语义搜索 + LLM 重排序，精准率高达 93%。实测数据：• 记忆检索：15000 → 1500 tokens（省 90%）• 长会话：80000 → 4000 tokens（省 95%）• 响应时间：20~40秒 → 2~3秒（快了 10 倍！）

安装并配置 QMD 记忆后端

# 第一步：安装 bun 和 QMDnpm i -g bun bun install -g github:tobi/qmd# 第二步：修改 openclaw.json{  "memory": {    "backend": "qmd",    "qmd": {      "limits": {        "timeoutMs": 8000       }     }   } }# 第三步：重启服务openclaw gateway restart# 日志中看到 "Using QMD memory backend" 就成功了

⑧ 启用 Prompt Caching（Anthropic 用户必做）

System Prompt 和 Skill 定义每次请求都会重新发送——但这些内容基本不变。开启 Prompt Caching 后，缓存命中的部分计费便宜 10 倍。配置 "cacheRetention": "long" 即可生效。配合 Heartbeat 每 55 分钟 keep-alive 一次保持缓存活跃。效果：系统提示词相关费用降低 84%（$36/月 → $5.67/月）。

⑨ Ollama 本地模型（零成本处理简单任务）

对于分类、路由、简单问答这类不需要强推理的任务，直接跑本地模型，API 成本归零。只需要电费 ~$2~3/月。部署 Ollama + Llama 3.2 3B，然后在 Failover 链中把本地模型作为第一选择，云端模型作为兜底。适合场景：心跳保活、简单查询、文本分类、路由分发。

⑩ 精简 Workspace 文件 + 技能审计

AGENTS.md、SOUL.md、MEMORY.md 这些文件每次请求都会加载。如果写得像百科全书一样，白白消耗几千 tokens。建议上限：• AGENTS.md ≤ 800 tokens• SOUL.md ≤ 500 tokens• MEMORY.md ≤ 2000 tokens另外：openclaw skill list --active 检查已启用的技能，停用那些"装了但很少用"的技能。每个多装的 Skill 都会增加 Tool Schema 的 token 开销。

🔥

三套方案叠加效果：• 只做方案 A（5分钟）→ 省 50%• A + B（30分钟）→ 省 80%• A + B + C 全套 → 省 97%+• 企业级用户实测：月费从 $几千 降至 $几百以下

三、模型怎么选？一张表说清楚

省 Token 不是"只用最便宜的模型"，而是给每个任务匹配最合适的模型。以下是主流模型的性价比实测对比：

模型	输入价格	输出价格	工具调用	推理能力	推荐场景
Gemini 2.5 Flash-Lite	$0.10	$0.40	一般 ⚠️	基础	心跳、简单查询
GPT-4o-mini	$0.15	$0.60	不错	尚可	子Agent、批量任务
MiniMax M2.5/M2.7	$0.28	$1.10	不错	不错	中文场景推荐 ✅
Claude Haiku 4.5	$1.00	$5.00	很好 ✅	不错	日常主力模型
Claude Sonnet 4.6	$3.00	$15.00	很好 ✅	很强 ✅	编码主力、复杂任务
Claude Opus 4.6	$5.00	$15.00	很好 ✅	最强 ✅	仅限最难的难题
Ollama 本地 (Llama 3.2)	免费（仅电费）✅	一般	基础	心跳、路由、分类

⚠️

两个坑提前说：① DeepSeek V3.2 工具调用不稳定（已知 6 个问题），别用于关键流程；② Gemini Flash 容易陷入循环调用死胡同，只用于最简单的任务；③ OpenRouter 部分标签（如 :exacto）可能静默切换提供商导致成本激增，注意核对账单。

四、真实用户省了多少？

理论说得再多不如数据说话。以下是社区用户公开的优化前后对比：

$630 → $63

开发者 Praney Behl节省 90%

$600 → $20

LaoZhang 博主节省 97%

$100 → $12

轻度用户（10次/天）节省 88%

$1750 → $220

重度用户（200+次/天）节省 87%

有一个数据特别值得玩味：轻度用户省的比例反而比重度用户更高（88% vs 87%）。这说明什么？说明 OpenClaw 的 Token 消耗中有很大一部分是固定开销（System Prompt、Skill Schema、心跳），不管你用得多还是少都得交。优化掉这部分固定开销之后，所有人都能获得近乎线性的成本下降。

五、现在就开始：行动清单

按优先级排序，做完前 3 项就能看到明显效果：

切默认模型 + 设输出上限（2分钟）
/model haiku-4.5 + 配置 max_output_tokens: 2048
养成 /new 和 /compact 习惯（0分钟）
每次任务切换后发 /new，每周发一次 /compact
安装 QMD 记忆后端（5分钟）
bun install -g github:tobi/qmd → 改 openclaw.json → 重启
配置 Fallback 模型链（10分钟）
Sonnet 主力 → Haiku 兜底 → Flash-Lite 心跳隔离
开启 Prompt Caching（2分钟）
加一行 "cacheRetention": "long"（Anthropic 用户必做）
审计 Workspace 文件 + 技能清单（10分钟）
精简 AGENTS.md/SOUL.md/MEMORY.md，停用多余 Skill

六、四个常见误区

❌

误区1："只怪模型贵"→ 真正贵的是无意义输入。Opus 是贵，但你每次请求往里面塞 15 万 tokens 的历史对话才是真正的元凶。先瘦身输入，再考虑换便宜模型。

❌

误区2："少聊天就能省钱"→ 对长期 Agent 不现实。正确的做法不是减少使用频率，而是让每次调用的效率最大化。QMD + 缓存就是让你"多用还少花"的组合。

❌

误区3："压缩文本就够了"→ 必须结合搜索+缓存+动态加载。单纯压缩 MEMORY.md 只是治标，下次又会长回去。QMD 的语义搜索才是根治之策——只提取相关内容，不管文件多大都不怕。

💡

核心原则：避免默认使用 Opus，隔离低价值任务到廉价模型，严格监控 Token 流向，定期执行 /compact 和 /new。

✦ ✦ ✦

OpenClaw 给了你一把瑞士军刀，但大多数人只用了其中一把刀，而且用的那把是最贵的那把。学会根据任务换刀，才是从"烧钱"到"省钱"的关键。

工具的上限，决定了你能做事情的边界。但用对工具的方式，决定了你要为此付出多少代价。

💰

现在就去检查你的 OpenClaw 账单

先发个 /status 看看当前上下文占了多少比例。如果超过 50%，立刻 /new 开新会话——这是免费的第一步。

切默认模型 + 设输出上限（2分钟）

养成 /new 和 /compact 习惯（0分钟）

安装 QMD 记忆后端（5分钟）

配置 Fallback 模型链（10分钟）

开启 Prompt Caching（2分钟）

审计 Workspace 文件 + 技能清单（10分钟）