一周烧掉 14 亿 token:OpenClaw 省钱五件套-夜雨聆风

一周烧掉 14 亿 token:OpenClaw 省钱五件套

先看几个真实账单。

一个开发者在文章里讲到：自己用 OpenClaw 跑了一周，烧掉 14 亿 token，账单到手那一刻”心电图都直了”。

3 月疯传一篇万字长文，讲了31 分钟花掉108 万 token的故事——作者把让 OpenClaw 处理一组任务，半小时不到账户就空了。

还有一个广为流传的说法：第一批「养虾人」已经在悄悄撤退，理由不是 OpenClaw 不好用，是太好用，好用到一夜醒来账单数字让人心头一紧。

这些故事多到已经有了固定标题模板——”一夜烧光””一周翻车””天价账单”。

但讲真，OpenClaw 烧 token 这件事，不是 bug，是它的工作方式。

把这件事搞明白了，你会发现 90% 的账单是可以砍掉的。剩下 10% 是它干活的合理成本。再剩下的那部分，要靠对「上下文」这件事的认知升级。

下面分三层讲清楚。

为什么 OpenClaw 比聊天机器人贵十倍？

很多人是从 ChatGPT 那样的聊天工具过渡到 OpenClaw 的，所以会本能地用同一种计费直觉来估算成本——「我让它干个活，撑死也就几毛钱吧」。

错就错在这里。

聊天机器人是「你问一句，它答一句」。一次对话，就是一次 API 调用，一次 token 计费。

OpenClaw 是 Agent。它干活的方式完全不一样：你说一句「帮我整理一下这个文件夹」，它不会直接干，它会先想——这个文件夹里有什么？我要怎么分类？分类完要不要重命名？要不要写个总结？想完它去读文件、调工具、看结果、再想下一步、再调工具……一个看起来简单的任务，底下可能跑了 5 到 15 次 API 调用，每一次都把完整的上下文重新发一遍。

这就是为什么社区里有句话：OpenClaw 默认配置下就是个 token 燃烧炉。

更隐蔽的是几件你看不见的事：

心跳（Heartbeat）。 OpenClaw 为了让自己”看起来还活着、还在工作”，会定时触发后台调用，去检查任务状态、刷新上下文。这个机制默认是开着的。一台机器挂着不操作，它自己也在烧。

系统提示词。每一次 API 调用，OpenClaw 都要把一份很长的系统提示词、人格设定、技能说明、对话历史一起塞进请求里。一个 OpenClaw 用户在社区做过一次实测——他打开请求详情，发现单次系统提示词占了 8000 token，比真正的任务内容长 10 倍。

模型默认容易烧贵模型。OpenClaw 推荐把 primary 配成当前可用的强模型；如果没有额外配置内容路由、会话模型切换或低价模型策略，很多请求都会先打到这个主模型。简单分类、摘要、改写这类低风险任务，也可能消耗旗舰模型预算。结果就是拿屠龙刀切水果，账单按调用累积。

把这三件事叠在一起，一个跑了一晚上的 OpenClaw 烧掉一两百块 API 费用，是非常正常的。

理解了这套机制，下面五个配置才有意义。它们不是「抠门技巧」，是把 OpenClaw 调回它本来该有的工作方式。

五个一次性配置，砍掉大部分账单

① 给「心跳」配一个便宜的小模型

OpenClaw 的心跳任务只是在做”看看现在有什么要做的、有没有新消息进来”——一句话的判断，根本不需要旗舰模型。

打开 ~/.openclaw/openclaw.json，找到 heartbeat 字段，把心跳模型单独指定成一个便宜模型。如果你接的是腾讯云混元 API，可以把心跳模型指向混元家族里轻量档位的模型——和旗舰档相比，调用单价能有数量级的差别。具体当前可用的模型列表，可以在腾讯云控制台「大模型服务平台 TokenHub」里查到最新一档。

更狠一点的玩法：用 Ollama 在本地跑一个小模型（比如 Qwen-7B 或 Llama 3.1-8B），把心跳指向本地。心跳那部分的 API 费用直接归零。

注意一个细节：OpenClaw 的源码 src/auto-reply/heartbeat.ts 里有一个 isHeartbeatContentEffectivelyEmpty() 检测——如果你的 HEARTBEAT.md 文件只剩标题或空 checkbox，心跳会直接返回，连模型都不调。这意味着把 HEARTBEAT.md 写得干净一点，本身就是一种省钱。

② 给「主任务」和「子任务」分级派模型

这是 Token 优化里最有效的一招，叫 Model Router——简单说就是不同任务用不同价位的模型。

打开 openclaw.json 里的 models 配置，做一个三层分级：

L1 简单任务（文件读写、字段提取、格式转换）→ 便宜模型

L2 中等任务（写文档、整理资料、调用工具）→ 中端模型

L3 复杂任务（代码生成、深度推理、跨步骤规划）→ 旗舰模型

腾讯云在 4 月底上线了一个面向 Agent 工作负载设计的订阅套餐，叫 Token Plan，分通用版和 Hy 版两个系列，各有四档可选。混元系列模型支持 OpenAI 兼容协议，可以直接接到 OpenClaw 里。对中小用户来说这种”先包一个量”的计费模式，比按次计费更可控——账单上限提前锁死，跑飞了也只是用完套餐，不会出现”一夜数万”那种事故。

③ 给上下文窗口配一个上限和压缩点

OpenClaw 的上下文压缩机制需要两个参数配合：contextWindow 和 reserveTokensFloor。

contextWindow 是模型能装下的最大上下文。reserveTokensFloor 是给输出预留的最小空间。

关键点：当 reserveTokensFloor ≥ contextWindow 时，压缩机制会直接失效——系统没法在预留缓冲的同时塞下任何对话历史，结果就是它放弃压缩，每次把全量历史一股脑发出去。

合理的配置大概是这样的：

{"contextWindow": 128000,"reserveTokensFloor": 16000}

128k 的窗口减去 16k 的预留输出，剩下 112k 给你装历史。当历史快塞满的时候，OpenClaw 会自动触发压缩，把早期对话折叠成摘要，再继续往下跑。

这是单参数收益最大的一个配置——很多人 token 失控的根本原因，就是这两个数没配对。

④ 关掉用不上的 Skill 和 MCP

OpenClaw 的 Skill 生态已经超过 1700 个，MCP 也接了一大堆。问题是：每个被加载的 Skill 和 MCP，它们的说明文档都会被默默塞进系统提示词里。装得越多，每次请求的 token 起步价就越高。

打开你的 OpenClaw，把过去三个月没用过的 Skill 全部卸载，把不需要的 MCP 服务器禁用。系统提示词能瘦下 30%-50%，所有调用的输入费用同步下降。

怎么判断要不要留：如果你想不起来这个 Skill 上次什么时候用的，就是不需要。

⑤ 设一个日预算上限

这一条是 OpenClaw 的”保险丝”。打开配置文件，OpenClaw 支持配置每日 token 或费用的上限。具体字段名可以在官方文档 docs.openclaw.ai 搜索 “budget” 查到最新写法，配好后再启动 OpenClaw，跑到上限它会自动暂停等你确认，不会闷头继续烧。

很多账单事故是凌晨两点 OpenClaw 自己卡进一个死循环，等你早上醒来已经烧了五位数。预算上限不省钱，但它保证你不会在睡觉的时候被 token 偷家。

靠的不是配置，是「上下文工程」

上面五件套做完，账单已经能砍下来一大半。如果你想再省一层，得把视角从「调参数」抬到「设计上下文」。

最近半年，AI 圈一个新词在悄悄取代「Prompt Engineering」——叫「Context Engineering」，上下文工程。

简单说：Prompt 时代我们关心的是「我怎么问 AI」；Agent 时代我们关心的是「我应该让 AI 在每一次决策时，看到什么、看不到什么」。

为什么这件事和省钱有关？因为 OpenClaw 每一次 API 调用的费用，80% 不来自你输入的那句指令，来自它”为了完成这个任务”携带的整个上下文——对话历史、文件内容、工具调用结果、Skill 说明、人格设定、RAG 检索注入的资料。

腾讯云智能体开发平台（ADP）有一份《企业 Token 经济学》指南里有一句话讲得很清楚：「多数团队只算了输入加输出，却忽略了系统提示词、对话历史和 RAG 检索注入这些隐性开销」。

落到 OpenClaw 上的实操：

该塞的塞，不该塞的别塞。 Agent 任务里，与当前这一步无关的上下文，要主动从对话历史里剔除。OpenClaw 支持手动 Session 重置——一个新任务开始前，敲一下 /reset，比任何配置都管用。

工具结果要裁剪。让 OpenClaw 调用一个工具去读 10MB 的 CSV，它会傻乎乎地把 10MB 全塞回上下文里。给工具加个 head/tail 参数，或者写个预处理 Skill 把结果先压缩成 1KB 的摘要——单次任务能省 80% 以上。

RAG 不是越多越准。很多人以为给 Agent 多检索几条资料质量就更好，结果是每条都被塞进上下文，token 翻倍。合理的做法是用更小但更准的 Top-K，配合重排（rerank）拿到最相关的 3-5 条就够了。

这一层做好了，你会发现 OpenClaw 不再是「token 燃烧炉」——它变成一个真的会算账的 Agent。

最后

OpenClaw 烧 token 这件事，本质上不是 OpenClaw 的问题。它是 Agent 这一代 AI 应用都会面临的共同课题——一个会自己干活的 AI，必然要比一个回答问题的 AI 复杂得多、调用频繁得多、上下文也长得多。

但贵不等于失控。

如果你正打算开始用 OpenClaw，或者已经被账单咬过一口，腾讯云开发者社区里有几篇内容可以直接对照着改：

《优化 OpenClaw Heartbeat，大幅减少 Token 消耗》——心跳机制的完整拆解

《玩转 OpenClaw：主配置文件参数详解指南手册》——所有可调参数的官方解释

腾讯云 ADP 团队的《企业 Token 经济学》——上下文工程的方法论

腾讯混元 API 文档 + Token Plan 套餐——把”按量”换成”包量”，账单提前锁死

最后说一句更大的话——

Agent 时代的成本控制，正在变成一项基本的工程能力。不是因为我们要省钱，是因为只有把成本搞清楚的人，才知道这项技术真正能用在哪里、不能用在哪里、什么时候值得花钱、什么时候应该停。

学会跟 token 算账，是用好 Agent 的第一课。

欢迎关注「OpenClaw 腾讯云社区」，期待你的「在看」哦～👇