��聊连载:Openclaw从认知到实践(C9):模型路由的艺术 — 从 $380 到 $95

2026 年 2 月，我打开当月的 API 账单，看到一个数字：$380。

我盯着它看了大概十秒钟。

不是因为这个数字太高，而是因为我完全不记得自己用了这么多。

那个月，OpenClaw 在我桌上跑了整整二十八天。Heartbeat 每小时触发一次，子代理每天要出几份报告，复杂任务一拆就是五六个步骤……每一个动作背后，都是一次模型调用，都是一笔费用。

我算了一下：如果每件事都用顶配模型——Opus、GPT-4o——像那个月一样跑下去，一年的账单会是多少。

然后我把计算器关掉了，因为我不想知道答案。

一、问题不是”用了多少”，是”每一分钱用在了什么地方”

之后我做了一件我早该做的事：翻日志。

我把那个月所有的模型调用按类型拆开来看：

有三成是查询类——”帮我搜一下这个”、”今天天气怎么样”、”这个词的意思是什么”。有两成是格式化处理——”把这段文字整理成表格”、”翻译一下这句话”。有一成是简单文案——”帮我拟一个会议提醒”、”起草一封感谢邮件”。

剩下不到三成，才是真正需要模型深度推理的任务——复杂分析、技术判断、策略规划。

我当时用的是同一个模型处理所有事情。

也就是说，70% 的任务，我用了大炮打蚊子。

二、每个大脑都有它最擅长的事

我在金融行业做了二十年，一直有一个习惯：按岗位分工，不让高价值的人做低价值的事。

一个资深策略顾问，你不会让他去整理会议室的椅子。

但在 AI 系统里，我居然默认让最贵的模型，处理所有请求。

这个错误，我在职场里绝对不会犯。但在 AI 系统里，我犯了整整一个月。

后来我拆出来三个池子：

高速池——用来处理那些需要快、不需要深度推理的事情。查询、翻译、格式化、简单摘要。模型是 Claude Haiku 或 Gemini Flash，响应快，成本低，够用。

智能池——用来处理需要推理、判断、规划的事情。复杂任务分析、代码架构、策略权衡。模型是 Claude Sonnet 或 GPT-Codex，能力强，按需用。

人文池——用来处理写作、创意、叙事类的事情。书稿续写、文风统一、情感判断。Gemini3或者GPT 4o模型是擅长语言质感的那类，不一定是最贵的，但一定是最顺手的。

把请求按性质分流之后，三月的账单，从 $380 降到了$95。

同样的工作量。不到三分之一的成本。

三、分流不是省钱，是让每个模型干对的事

我说这件事，不是要帮谁算账。

我真正想说的是：当你把不同类型的请求交给不同类型的模型时，你会发现一件事——

很多时候，廉价的模型做出来的结果，比贵的还好。

因为它更快，更直接，没有多余的”思考痕迹”。

你问它今天的天气，它会用一句话回答你。你问贵的模型，它可能还会附上一段气候背景和建议穿什么。你不需要那些。你只需要那句话。

任务性质匹配模型性格，这才是真正的效率。

四、语义路由，不是配置，是判断

当然，分池容易，路由难。

你不可能每次发消息前，先想一下”这是查询类还是分析类”，然后手动切换。那比不分还烦。

真正的路由，应该是自动的。

OpenClaw 的 semantic-router，做的就是这件事：它在你发出消息之前，先判断这条消息属于哪类任务，然后把它分配到对应的模型池。

判断依据是关键词、意图结构、上下文关联度。

第一次配置的时候，我花了大概两个下午。

不是因为它复杂，而是因为我一边配，一边在想一件事：

我到底怎么区分”一件事需要快答”和”一件事需要想透”？

这个问题，在我脑子里想得很清楚。但写成规则，却反复改了七八遍。

因为语言和判断之间，永远有一条缝隙。

五、它降的不只是成本，是决策密度

账单从 $380 降到$95 之后，我以为这件事就结束了。

后来我发现，它带来的改变不止在账单上。

当低价值任务不再占用贵的模型时，贵的模型的”精力”更集中了。它处理的每一件事，都是真正值得深度思考的事。输出质量，有了明显变化。

就像你把一个团队里的高级人才，从行政杂务里解放出来，只处理战略判断，他们的产出密度会完全不同。

人是这样，模型也是这样。

让它干对的事，它就能给你对的结果。

这句话听起来简单，但我花了整整一个月的账单和两个下午的配置时间，才真正把它从道理变成系统。

下一章，我们聊 Skills—— 不是那种你安装完就忘了的插件，而是你亲手给它装的钳子。