用 Kimi K2.5 跑 OpenClaw,Token 账单直降 40%

OpenClaw 好用，但烧钱。

如果你全程用 Claude Sonnet 跑，一个月下来 Token 账单轻松破百美元。复杂任务开几个子 Agent 并行，一天就能烧掉十几美元。

但大多数任务其实不需要最强的模型。

查个文档、总结段内容、跑个简单检索——这些活交给一个便宜但够用的模型就行。把贵的模型留给真正需要深度推理的复杂任务。

Kimi K2.5 就是那个「便宜但够用」的选择。

月之暗面出品，万亿参数 MoE 架构，256K 上下文，输入价格只有 Claude Sonnet 的五分之一。配置好之后，你的 OpenClaw 会自动把简单任务分流到 K2.5，复杂任务留给 Claude。一周下来，Token 账单降 40% 左右。

这篇文章手把手教你配好这套省钱方案。

Kimi K2.5 是什么

Kimi K2.5 是月之暗面（Moonshot AI）在 2026 年 1 月发布的大模型。几个关键参数：

•万亿参数级 MoE 架构：总参数约 1 万亿，每次推理激活 320 亿参数•256K 上下文窗口：比 GPT-5.4 的 128K 多一倍•原生多模态：支持文本、图片、视频输入•API 兼容 OpenAI 格式：改一下 base URL 就能用，不需要额外适配

跑分方面，K2.5 在浏览搜索（BrowseComp 74.9%）和文档提取（OmniDocBench 88.8%）上甚至超过了 GPT-5.2。编码能力（SWE-bench 76.8%）略低于 Claude Opus（80.9%），但对于日常任务绰绰有余。

最关键的是价格：

模型	输入/百万 token	输出/百万 token
Kimi K2.5（OpenRouter）	$0.45	$2.20
Kimi K2.5（直连）	$0.60	$2.50
Claude Sonnet 4.6	$3.00	$15.00
Claude Opus 4.6	$5.00	$25.00
GPT-5.4	$2.50	$10.00

K2.5 的输入价格是 Claude Sonnet 的六分之一，输出价格是七分之一。输入端省得尤其多——带长上下文的代码分析、文档总结这类任务，输入 token 往往是输出的 5-10 倍，价格差距在这里被放大。

怎么配？3 种方式

不需要你手动编辑 JSON 文件。OpenClaw 本身就是 AI，你可以直接让它帮你改配置。

方式一：通过 OpenRouter 接入（最简单最稳定）

OpenRouter 是一个模型聚合平台，一个 API Key 就能调用几十个模型，包括 Kimi K2.5。价格最低（输入 $0.45/百万 token），稳定性也最好。

第 1 步：去 openrouter.ai 注册账号，在后台生成 API Key（格式是 sk-or- 开头）。

第 2 步：打开 OpenClaw，直接说：

"帮我在配置文件里添加 OpenRouter 提供商，API Key 是 sk-or-xxx，默认模型设为 kimi-k2.5"

OpenClaw 会自动帮你改好配置文件，重启后生效。

如果你更习惯手动操作，配置文件的位置是 ~/.openclaw/openclaw.json，在终端输入 open ~/.openclaw/openclaw.json 就能打开。

方式二：直连月之暗面 API

月之暗面是国内公司，直连延迟更低，但价格比 OpenRouter 贵一点（输入 $0.60/百万 token）。

第 1 步：去 platform.moonshot.ai 注册，充值最低 $1 激活账号，生成 API Key。

第 2 步：跟 OpenClaw 说：

"帮我在配置文件里添加 kimi-coding 提供商，API Key 是 xxx，默认模型设为 k2p5"

方式三：NVIDIA NIM 免费接入（零成本兜底）

NVIDIA NIM 提供 Kimi K2.5 的免费调用额度，限制 40 次/分钟。适合做兜底，不适合做主力。

跟 OpenClaw 说：

"帮我在配置文件里添加 NVIDIA NIM 作为 fallback 提供商，模型用 nvidia/moonshotai/kimi-k2.5，接口地址是 https://integrate.api.nvidia.com/v1"

省钱的核心：多模型路由

只用 K2.5 跑所有任务不现实——复杂推理和关键代码任务，它确实不如 Claude。

真正省钱的方式是多模型路由：简单任务走便宜模型，复杂任务走贵模型。

什么任务走 K2.5，什么任务留给 Claude

任务类型	走 Kimi K2.5	走 Claude
长文档总结	✓ 256K 上下文，成本低
搜索和信息检索	✓ BrowseComp 得分最高
中文内容生成	✓ 原生中文能力
代码审查（简单）	✓ 够用
UI/前端代码生成	✓ 强项
复杂架构设计		✓ 推理能力更强
关键 Bug 修复		✓ SWE-bench 更高
多文件重构		✓ 准确性更好
数学/形式逻辑		✓ 更可靠

简单说：日常活交给 K2.5，关键活留给 Claude。

实际能省多少钱

假设你每月消耗 1 亿 token（中度使用），来算一笔账：

全用 Claude Sonnet：输入 $3.00 × 80M + 输出 $15.00 × 20M = $240 + $300 = $540/月

60% 任务分流到 K2.5：

•K2.5 部分：输入 $0.45 × 48M + 输出 $2.20 × 12M = $21.6 + $26.4 = $48•Claude 部分：输入 $3.00 × 32M + 输出 $15.00 × 8M = $96 + $120 = $216•合计：$264/月

节省 $276/月，降幅 51%。

即使只分流 40% 的简单任务到 K2.5，也能省掉 30-40%。

还有两个额外省钱技巧：

技巧一：利用缓存自动折扣。 K2.5 的 API 有自动上下文缓存，重复输入的 token 只收 $0.10-$0.15/百万。如果你的 Agent 跑循环任务（比如反复查表、监控状态），缓存命中率高的情况下实际输入成本能再降 75%。

技巧二：批处理模式半价。 不急的任务可以走批处理接口，价格直接打五折（输入 $0.30、输出 $1.00/百万 token）。适合夜间跑的定时分析任务。

踩坑提醒

实测下来，有几个坑你要注意：

坑一：不要随意覆盖 kimi-coding 提供商的默认设置。 OpenClaw 内置的 kimi-coding 配置是调优过的（reasoning: true、maxTokens: 32768、api: "anthropic-messages"）。如果你自己改了这些参数，可能导致工具调用失败——模型会输出纯文本而不是结构化的工具调用指令。

坑二：版本敏感。 kimi-coding 提供商在 OpenClaw 的不同版本之间出现过多次回归 Bug。升级 OpenClaw 后一定要测试一下 K2.5 的工具调用是否正常。如果不正常，用 OpenRouter 接入是最稳的替代方案。

坑三：Swarm 模式会放大成本。 K2.5 有个 Agent Swarm 功能，能同时开 100 个子 Agent。但子 Agent 越多，Token 消耗越快。一定要设好并发上限（maxConcurrent），否则一个任务可能烧掉 10 倍的预期成本。

坑四：别把 K2.5 用在关键决策上。 K2.5 在日常任务上够用，但复杂推理和关键代码修改还是交给 Claude。省钱的前提是不出错——一个 Bug 导致的返工成本远超省下的 Token 费。

最后

省钱这件事，核心逻辑很简单：不是用更差的模型，而是用对的模型做对的事。

K2.5 不是 Claude 的替代品，而是 Claude 的补充。让它处理 Claude 能做但没必要用 Claude 做的任务——长文档、简单搜索、中文内容、UI 代码。

配置好多模型路由之后，你的 OpenClaw 会自动做这个分流。你感受不到差异，但月底账单会告诉你省了多少。

试试看，有效果记得回来告诉我。

OpenRouter 注册：openrouter.ai
月之暗面 API：platform.moonshot.ai
OpenClaw 配置文档：docs.openclaw.com

觉得有用的话，点个「赞」能被系统推荐更多此类文章。