如果你已经把 OpenClaw 跑起来了,大概率也经历过同一件事:
功能越用越爽,Token 越烧越猛。
尤其是:长对话、多工具 ReAct 循环、技能一多、系统提示词一长——账单会“稳稳上升”。
这篇文章给你一套可落地的开源降本方案,目标很明确:
• 日常任务尽量 0 成本(本地模型) • 复杂任务再 自动回退云端 • 长对话别靠“塞上下文硬扛”,而是用 上下文引擎/记忆插件把输入 Token 压下来
你会得到:
• 一键安装/部署脚本 • openclaw.json配置片段(可直接复制)• 排坑建议(哪些环节最“吞 Token”) • 参考链接(方便深挖)
很多人以为 Token 大头来自“回答很长”。其实在 Agent 框架里,常见的隐形吞金点是:
• 系统提示词 + 工具 schema:每轮都要带,技能越多越重 • 多轮历史对话:越聊越长,输入 Token 爆炸 • ReAct 循环:一次任务可能多次 Thought→Action→Observation • 长程记忆/上下文管理不当:为了“不丢信息”,把一切都塞进 prompt
对应的“降本杠杆”也就清晰了:
本地模型 / 模型路由 / 上下文压缩引擎(插件化) / 记忆体系。
2)降本第一刀:把“日常脑力活”切到本地 Ollama(输入输出 0 Token)
这一步的核心思路是:
让 OpenClaw 对“日常低风险任务”(查资料、整理、写小段代码、格式转换、跑脚本前的规划)优先走本地模型;只有在质量不够或任务复杂时再切云端。
2.1 安装 Ollama(Linux/macOS)
# Linux 一键安装(官方脚本)curl -fsSL https://ollama.com/install.sh | sh# macOS(Homebrew)brew install ollama# 启动服务(macOS/Linux 通用)ollama serve2.2 拉一个本地模型(示例:Qwen 7B 级别)
ollama pull qwen2.5:7b# 或者先 run,会自动下载ollama run qwen2.5:7b2.3 配置 OpenClaw 对接 Ollama(openclaw.json 示例)
编辑:~/.openclaw/openclaw.json
{ "models": { "providers": { "ollama": { "baseUrl": "http://127.0.0.1:11434", "apiKey": "ollama-local", "api": "openai-completions", "models": [ { "id": "qwen2.5:7b", "name": "Qwen2.5 7B (local)", "reasoning":false, "contextWindow": 128000, "maxTokens": 4096 } ] } } }, "agents": { "defaults": { "model": { "primary": "ollama/qwen2.5:7b" } } }}重启网关:
openclaw gateway restart经验:本地模型怎么选?
• 能跑起来优先:7B/8B 通常是“能用、便宜(0)”的甜点 • 代码任务:优先 coder 版本(如 Qwen Coder 系列) • 别迷信大参数:你要的是“省钱+够用”,不是“把电脑当数据中心”
3)降本第二刀:多模型“路由”——便宜模型打底,贵模型兜底
一句话:
每个任务用“能胜任的最便宜模型”。
你可以把它理解成 OpenClaw 变成“模型路由器”:
轻任务 → 本地/低价;重任务 → 云端强模型。
实践上你至少要做到两层:
• local / cheap:Ollama / DeepSeek / Flash 系列 • strong:Claude/GPT/高端推理模型
(不同资料里都有类似建议与成本对比表述,核心一致。)
4)降本第三刀(最容易被忽视):上「可插拔 ContextEngine」,把长对话输入 Token 压下去
OpenClaw 生态里一个关键变化是:上下文管理开始插件化,你不必再被“固定滑窗压缩”绑死。
社区中讨论最多的是 lossless-claw 这类 DAG/分层摘要思路的上下文引擎插件:
• 不简单丢历史 • 用结构化摘要维持信息密度 • 在长对话里显著降低“为了记忆而付出的输入 token”
4.1 安装 lossless-claw(示例)
openclaw plugins install @martian-engineering/lossless-claw4.2 确保 slots 指向它(openclaw.json 关键片段)
{ "plugins": { "slots": { "contextEngine": "lossless-claw" } }}然后重启:
openclaw gateway restart这类插件的本质价值:把“上下文长度问题”工程化,让你不用靠“少聊点”“勤 reset”来省钱。
5)一份“能直接抄”的部署脚本(本地 Ollama + OpenClaw + 插件)
下面以 Linux 为例(macOS 思路相同):
set -e# 1) 安装 Ollamacurl -fsSL https://ollama.com/install.sh | shnohup ollama serve >/tmp/ollama.log 2>&1 &# 2) 拉本地模型(示例)ollama pull qwen2.5:7b# 3) 安装 OpenClaw(示例:npm)npm i -g openclaw@latest# 4) 安装上下文引擎插件openclaw plugins install @martian-engineering/lossless-claw# 5) 重启 OpenClaw 网关openclaw gateway restartecho "Done. Now edit ~/.openclaw/openclaw.json to set ollama baseUrl & primary model."6)最后:给你一张“降本优先级清单”(按 ROI 排序)
1. 日常任务切本地 Ollama(立竿见影:大量调用直接 0 成本) 2. 多模型路由(避免“所有任务都用最贵模型”的资源错配) 3. ContextEngine 插件(如 lossless-claw)(长对话成本的结构性下降) 4. 精简不必要的技能、控制系统提示词体积(固定开销优化)
参考链接(素材来源)
• Hello Claw:多模型与成本优化(章节页) • https://datawhalechina.github.io/hello-claw/cn/adopt/chapter8/ • OpenClaw 插件 / slots / contextEngine 文档 • https://docs.openclaw.ai/tools/plugin • lossless-claw 项目(ContextEngine 插件) • https://github.com/Martian-Engineering/lossless-claw • OpenClaw 对接 Ollama 配置示例讨论/教程(含 openclaw.json 片段) • https://www.cnblogs.com/informatics/p/19623140
夜雨聆风