一周烧掉 14 亿 token:OpenClaw 省钱五件套

先看几个真实账单。
一个开发者在文章里讲到:自己用 OpenClaw 跑了一周,烧掉 14 亿 token,账单到手那一刻”心电图都直了”。
3 月疯传一篇万字长文,讲了31 分钟花掉108 万 token的故事——作者把让 OpenClaw 处理一组任务,半小时不到账户就空了。
还有一个广为流传的说法:第一批「养虾人」已经在悄悄撤退,理由不是 OpenClaw 不好用,是太好用,好用到一夜醒来账单数字让人心头一紧。
这些故事多到已经有了固定标题模板——”一夜烧光””一周翻车””天价账单”。
但讲真,OpenClaw 烧 token 这件事,不是 bug,是它的工作方式。
把这件事搞明白了,你会发现 90% 的账单是可以砍掉的。剩下 10% 是它干活的合理成本。再剩下的那部分,要靠对「上下文」这件事的认知升级。
下面分三层讲清楚。
1
为什么 OpenClaw 比聊天机器人贵十倍?
很多人是从 ChatGPT 那样的聊天工具过渡到 OpenClaw 的,所以会本能地用同一种计费直觉来估算成本——「我让它干个活,撑死也就几毛钱吧」。
错就错在这里。
聊天机器人是「你问一句,它答一句」。一次对话,就是一次 API 调用,一次 token 计费。
OpenClaw 是 Agent。它干活的方式完全不一样:你说一句「帮我整理一下这个文件夹」,它不会直接干,它会先想——这个文件夹里有什么?我要怎么分类?分类完要不要重命名?要不要写个总结?想完它去读文件、调工具、看结果、再想下一步、再调工具……一个看起来简单的任务,底下可能跑了 5 到 15 次 API 调用,每一次都把完整的上下文重新发一遍。
这就是为什么社区里有句话:OpenClaw 默认配置下就是个 token 燃烧炉。
更隐蔽的是几件你看不见的事:
心跳(Heartbeat)。 OpenClaw 为了让自己”看起来还活着、还在工作”,会定时触发后台调用,去检查任务状态、刷新上下文。这个机制默认是开着的。一台机器挂着不操作,它自己也在烧。
系统提示词。 每一次 API 调用,OpenClaw 都要把一份很长的系统提示词、人格设定、技能说明、对话历史一起塞进请求里。一个 OpenClaw 用户在社区做过一次实测——他打开请求详情,发现单次系统提示词占了 8000 token,比真正的任务内容长 10 倍。
模型默认容易烧贵模型。OpenClaw 推荐把 primary 配成当前可用的强模型;如果没有额外配置内容路由、会话模型切换或低价模型策略,很多请求都会先打到这个主模型。简单分类、摘要、改写这类低风险任务,也可能消耗旗舰模型预算。结果就是拿屠龙刀切水果,账单按调用累积。
把这三件事叠在一起,一个跑了一晚上的 OpenClaw 烧掉一两百块 API 费用,是非常正常的。
理解了这套机制,下面五个配置才有意义。它们不是「抠门技巧」,是把 OpenClaw 调回它本来该有的工作方式。
2
五个一次性配置,砍掉大部分账单
① 给「心跳」配一个便宜的小模型
OpenClaw 的心跳任务只是在做”看看现在有什么要做的、有没有新消息进来”——一句话的判断,根本不需要旗舰模型。
打开 ~/.openclaw/openclaw.json,找到 heartbeat 字段,把心跳模型单独指定成一个便宜模型。如果你接的是腾讯云混元 API,可以把心跳模型指向混元家族里轻量档位的模型——和旗舰档相比,调用单价能有数量级的差别。具体当前可用的模型列表,可以在腾讯云控制台「大模型服务平台 TokenHub」里查到最新一档。
更狠一点的玩法:用 Ollama 在本地跑一个小模型(比如 Qwen-7B 或 Llama 3.1-8B),把心跳指向本地。心跳那部分的 API 费用直接归零。
注意一个细节:OpenClaw 的源码 src/auto-reply/heartbeat.ts 里有一个 isHeartbeatContentEffectivelyEmpty() 检测——如果你的 HEARTBEAT.md 文件只剩标题或空 checkbox,心跳会直接返回,连模型都不调。这意味着把 HEARTBEAT.md 写得干净一点,本身就是一种省钱。
② 给「主任务」和「子任务」分级派模型
这是 Token 优化里最有效的一招,叫 Model Router——简单说就是不同任务用不同价位的模型。
打开 openclaw.json 里的 models 配置,做一个三层分级:
L1 简单任务(文件读写、字段提取、格式转换)→ 便宜模型
L2 中等任务(写文档、整理资料、调用工具)→ 中端模型
L3 复杂任务(代码生成、深度推理、跨步骤规划)→ 旗舰模型
腾讯云在 4 月底上线了一个面向 Agent 工作负载设计的订阅套餐,叫 Token Plan,分通用版和 Hy 版两个系列,各有四档可选。混元系列模型支持 OpenAI 兼容协议,可以直接接到 OpenClaw 里。对中小用户来说这种”先包一个量”的计费模式,比按次计费更可控——账单上限提前锁死,跑飞了也只是用完套餐,不会出现”一夜数万”那种事故。
③ 给上下文窗口配一个上限和压缩点
OpenClaw 的上下文压缩机制需要两个参数配合:contextWindow 和 reserveTokensFloor。
contextWindow 是模型能装下的最大上下文。reserveTokensFloor 是给输出预留的最小空间。
关键点:当 reserveTokensFloor ≥ contextWindow 时,压缩机制会直接失效——系统没法在预留缓冲的同时塞下任何对话历史,结果就是它放弃压缩,每次把全量历史一股脑发出去。
合理的配置大概是这样的:
{"contextWindow": 128000,"reserveTokensFloor": 16000}
128k 的窗口减去 16k 的预留输出,剩下 112k 给你装历史。当历史快塞满的时候,OpenClaw 会自动触发压缩,把早期对话折叠成摘要,再继续往下跑。
这是单参数收益最大的一个配置——很多人 token 失控的根本原因,就是这两个数没配对。
④ 关掉用不上的 Skill 和 MCP
OpenClaw 的 Skill 生态已经超过 1700 个,MCP 也接了一大堆。问题是:每个被加载的 Skill 和 MCP,它们的说明文档都会被默默塞进系统提示词里。装得越多,每次请求的 token 起步价就越高。
打开你的 OpenClaw,把过去三个月没用过的 Skill 全部卸载,把不需要的 MCP 服务器禁用。系统提示词能瘦下 30%-50%,所有调用的输入费用同步下降。
怎么判断要不要留:如果你想不起来这个 Skill 上次什么时候用的,就是不需要。
⑤ 设一个日预算上限
这一条是 OpenClaw 的”保险丝”。打开配置文件,OpenClaw 支持配置每日 token 或费用的上限。具体字段名可以在官方文档 docs.openclaw.ai 搜索 “budget” 查到最新写法,配好后再启动 OpenClaw,跑到上限它会自动暂停等你确认,不会闷头继续烧。
很多账单事故是凌晨两点 OpenClaw 自己卡进一个死循环,等你早上醒来已经烧了五位数。预算上限不省钱,但它保证你不会在睡觉的时候被 token 偷家。
3
靠的不是配置,是「上下文工程」
上面五件套做完,账单已经能砍下来一大半。如果你想再省一层,得把视角从「调参数」抬到「设计上下文」。
最近半年,AI 圈一个新词在悄悄取代「Prompt Engineering」——叫「Context Engineering」,上下文工程。
简单说:Prompt 时代我们关心的是「我怎么问 AI」;Agent 时代我们关心的是「我应该让 AI 在每一次决策时,看到什么、看不到什么」。
为什么这件事和省钱有关?因为 OpenClaw 每一次 API 调用的费用,80% 不来自你输入的那句指令,来自它”为了完成这个任务”携带的整个上下文——对话历史、文件内容、工具调用结果、Skill 说明、人格设定、RAG 检索注入的资料。
腾讯云智能体开发平台(ADP)有一份《企业 Token 经济学》指南里有一句话讲得很清楚:「多数团队只算了输入加输出,却忽略了系统提示词、对话历史和 RAG 检索注入这些隐性开销」。
落到 OpenClaw 上的实操:
该塞的塞,不该塞的别塞。 Agent 任务里,与当前这一步无关的上下文,要主动从对话历史里剔除。OpenClaw 支持手动 Session 重置——一个新任务开始前,敲一下 /reset,比任何配置都管用。
工具结果要裁剪。 让 OpenClaw 调用一个工具去读 10MB 的 CSV,它会傻乎乎地把 10MB 全塞回上下文里。给工具加个 head/tail 参数,或者写个预处理 Skill 把结果先压缩成 1KB 的摘要——单次任务能省 80% 以上。
RAG 不是越多越准。 很多人以为给 Agent 多检索几条资料质量就更好,结果是每条都被塞进上下文,token 翻倍。合理的做法是用更小但更准的 Top-K,配合重排(rerank)拿到最相关的 3-5 条就够了。
这一层做好了,你会发现 OpenClaw 不再是「token 燃烧炉」——它变成一个真的会算账的 Agent。
4
最后
OpenClaw 烧 token 这件事,本质上不是 OpenClaw 的问题。它是 Agent 这一代 AI 应用都会面临的共同课题——一个会自己干活的 AI,必然要比一个回答问题的 AI 复杂得多、调用频繁得多、上下文也长得多。
但贵不等于失控。
如果你正打算开始用 OpenClaw,或者已经被账单咬过一口,腾讯云开发者社区里有几篇内容可以直接对照着改:
《优化 OpenClaw Heartbeat,大幅减少 Token 消耗》——心跳机制的完整拆解
《玩转 OpenClaw:主配置文件参数详解指南手册》——所有可调参数的官方解释
腾讯云 ADP 团队的《企业 Token 经济学》——上下文工程的方法论
腾讯混元 API 文档 + Token Plan 套餐——把”按量”换成”包量”,账单提前锁死
最后说一句更大的话——
Agent 时代的成本控制,正在变成一项基本的工程能力。不是因为我们要省钱,是因为只有把成本搞清楚的人,才知道这项技术真正能用在哪里、不能用在哪里、什么时候值得花钱、什么时候应该停。
学会跟 token 算账,是用好 Agent 的第一课。

欢迎关注「OpenClaw 腾讯云社区」,期待你的「在看」哦~👇
夜雨聆风