把 OpenClaw 变成省钱怪兽:Token 成本直线塌方(本地 Ollama + ContextEngine 实战)

如果你已经把 OpenClaw 跑起来了，大概率也经历过同一件事：

功能越用越爽，Token 越烧越猛。

尤其是：长对话、多工具 ReAct 循环、技能一多、系统提示词一长——账单会“稳稳上升”。

这篇文章给你一套可落地的开源降本方案，目标很明确：

• 日常任务尽量 0 成本（本地模型）
• 复杂任务再 自动回退云端
• 长对话别靠“塞上下文硬扛”，而是用 上下文引擎/记忆插件把输入 Token 压下来

你会得到：

• 一键安装/部署脚本
• openclaw.json 配置片段（可直接复制）
• 排坑建议（哪些环节最“吞 Token”）
• 参考链接（方便深挖）

很多人以为 Token 大头来自“回答很长”。其实在 Agent 框架里，常见的隐形吞金点是：

• 系统提示词 + 工具 schema：每轮都要带，技能越多越重
• 多轮历史对话：越聊越长，输入 Token 爆炸
• ReAct 循环：一次任务可能多次 Thought→Action→Observation
• 长程记忆/上下文管理不当：为了“不丢信息”，把一切都塞进 prompt

对应的“降本杠杆”也就清晰了：

本地模型 / 模型路由 / 上下文压缩引擎（插件化） / 记忆体系。

2）降本第一刀：把“日常脑力活”切到本地 Ollama（输入输出 0 Token）

这一步的核心思路是：

让 OpenClaw 对“日常低风险任务”（查资料、整理、写小段代码、格式转换、跑脚本前的规划）优先走本地模型；只有在质量不够或任务复杂时再切云端。

2.1 安装 Ollama（Linux/macOS）

# Linux 一键安装（官方脚本）curl -fsSL https://ollama.com/install.sh | sh# macOS（Homebrew）brew install ollama# 启动服务（macOS/Linux 通用）ollama serve

2.2 拉一个本地模型（示例：Qwen 7B 级别）

ollama pull qwen2.5:7b# 或者先 run，会自动下载ollama run qwen2.5:7b

2.3 配置 OpenClaw 对接 Ollama（openclaw.json 示例）

编辑：~/.openclaw/openclaw.json

{  "models": {    "providers": {      "ollama": {        "baseUrl": "http://127.0.0.1:11434",        "apiKey": "ollama-local",        "api": "openai-completions",        "models": [          {            "id": "qwen2.5:7b",            "name": "Qwen2.5 7B (local)",            "reasoning":false,            "contextWindow": 128000,            "maxTokens": 4096          }        ]      }    }  },  "agents": {    "defaults": {      "model": {        "primary": "ollama/qwen2.5:7b"      }    }  }}

重启网关：

openclaw gateway restart

经验：本地模型怎么选？

• 能跑起来优先：7B/8B 通常是“能用、便宜（0）”的甜点
• 代码任务：优先 coder 版本（如 Qwen Coder 系列）
• 别迷信大参数：你要的是“省钱+够用”，不是“把电脑当数据中心”

3）降本第二刀：多模型“路由”——便宜模型打底，贵模型兜底

一句话：

每个任务用“能胜任的最便宜模型”。

你可以把它理解成 OpenClaw 变成“模型路由器”：

轻任务 → 本地/低价；重任务 → 云端强模型。

实践上你至少要做到两层：

• local / cheap：Ollama / DeepSeek / Flash 系列
• strong：Claude/GPT/高端推理模型

（不同资料里都有类似建议与成本对比表述，核心一致。）

4）降本第三刀（最容易被忽视）：上「可插拔 ContextEngine」，把长对话输入 Token 压下去

OpenClaw 生态里一个关键变化是：上下文管理开始插件化，你不必再被“固定滑窗压缩”绑死。

社区中讨论最多的是 lossless-claw 这类 DAG/分层摘要思路的上下文引擎插件：

• 不简单丢历史
• 用结构化摘要维持信息密度
• 在长对话里显著降低“为了记忆而付出的输入 token”

4.1 安装 lossless-claw（示例）

openclaw plugins install @martian-engineering/lossless-claw

4.2 确保 slots 指向它（openclaw.json 关键片段）

{  "plugins": {    "slots": {      "contextEngine": "lossless-claw"    }  }}

然后重启：

openclaw gateway restart

这类插件的本质价值：把“上下文长度问题”工程化，让你不用靠“少聊点”“勤 reset”来省钱。

5）一份“能直接抄”的部署脚本（本地 Ollama + OpenClaw + 插件）

下面以 Linux 为例（macOS 思路相同）：

set -e# 1) 安装 Ollamacurl -fsSL https://ollama.com/install.sh | shnohup ollama serve >/tmp/ollama.log 2>&1 &# 2) 拉本地模型（示例）ollama pull qwen2.5:7b# 3) 安装 OpenClaw（示例：npm）npm i -g openclaw@latest# 4) 安装上下文引擎插件openclaw plugins install @martian-engineering/lossless-claw# 5) 重启 OpenClaw 网关openclaw gateway restartecho "Done. Now edit ~/.openclaw/openclaw.json to set ollama baseUrl & primary model."

6）最后：给你一张“降本优先级清单”（按 ROI 排序）

1. 日常任务切本地 Ollama（立竿见影：大量调用直接 0 成本）
2. 多模型路由（避免“所有任务都用最贵模型”的资源错配）
3. ContextEngine 插件（如 lossless-claw）（长对话成本的结构性下降）
4. 精简不必要的技能、控制系统提示词体积（固定开销优化）

参考链接（素材来源）

• Hello Claw：多模型与成本优化（章节页）

• https://datawhalechina.github.io/hello-claw/cn/adopt/chapter8/

• OpenClaw 插件 / slots / contextEngine 文档

• https://docs.openclaw.ai/tools/plugin

• lossless-claw 项目（ContextEngine 插件）

• https://github.com/Martian-Engineering/lossless-claw

• OpenClaw 对接 Ollama 配置示例讨论/教程（含 openclaw.json 片段）

• https://www.cnblogs.com/informatics/p/19623140