乐于分享
好东西不私藏

��聊连载:Openclaw从认知到实践(C9):模型路由的艺术 — 从 $380 到 $95

��聊连载:Openclaw从认知到实践(C9):模型路由的艺术 — 从 $380 到 $95

2026 年 2 月,我打开当月的 API 账单,看到一个数字:$380。
我盯着它看了大概十秒钟。
不是因为这个数字太高,而是因为我完全不记得自己用了这么多。
那个月,OpenClaw 在我桌上跑了整整二十八天。Heartbeat 每小时触发一次,子代理每天要出几份报告,复杂任务一拆就是五六个步骤……每一个动作背后,都是一次模型调用,都是一笔费用。
我算了一下:如果每件事都用顶配模型——Opus、GPT-4o——像那个月一样跑下去,一年的账单会是多少。
然后我把计算器关掉了,因为我不想知道答案。

一、问题不是”用了多少”,是”每一分钱用在了什么地方”

之后我做了一件我早该做的事:翻日志。
我把那个月所有的模型调用按类型拆开来看:
有三成是查询类——”帮我搜一下这个”、”今天天气怎么样”、”这个词的意思是什么”。 有两成是格式化处理——”把这段文字整理成表格”、”翻译一下这句话”。 有一成是简单文案——”帮我拟一个会议提醒”、”起草一封感谢邮件”。
剩下不到三成,才是真正需要模型深度推理的任务——复杂分析、技术判断、策略规划。
我当时用的是同一个模型处理所有事情。
也就是说,70% 的任务,我用了大炮打蚊子。

二、每个大脑都有它最擅长的事

我在金融行业做了二十年,一直有一个习惯:按岗位分工,不让高价值的人做低价值的事。
一个资深策略顾问,你不会让他去整理会议室的椅子。
但在 AI 系统里,我居然默认让最贵的模型,处理所有请求。
这个错误,我在职场里绝对不会犯。但在 AI 系统里,我犯了整整一个月。
后来我拆出来三个池子:
高速池——用来处理那些需要快、不需要深度推理的事情。查询、翻译、格式化、简单摘要。模型是 Claude Haiku 或 Gemini Flash,响应快,成本低,够用。
智能池——用来处理需要推理、判断、规划的事情。复杂任务分析、代码架构、策略权衡。模型是 Claude Sonnet 或 GPT-Codex,能力强,按需用。
人文池——用来处理写作、创意、叙事类的事情。书稿续写、文风统一、情感判断。Gemini3或者GPT 4o模型是擅长语言质感的那类,不一定是最贵的,但一定是最顺手的。
把请求按性质分流之后,三月的账单,从 $380 降到了$95。
同样的工作量。不到三分之一的成本。

三、分流不是省钱,是让每个模型干对的事

我说这件事,不是要帮谁算账。
我真正想说的是:当你把不同类型的请求交给不同类型的模型时,你会发现一件事——
很多时候,廉价的模型做出来的结果,比贵的还好。
因为它更快,更直接,没有多余的”思考痕迹”。
你问它今天的天气,它会用一句话回答你。你问贵的模型,它可能还会附上一段气候背景和建议穿什么。你不需要那些。你只需要那句话。
任务性质匹配模型性格,这才是真正的效率。

四、语义路由,不是配置,是判断

当然,分池容易,路由难。
你不可能每次发消息前,先想一下”这是查询类还是分析类”,然后手动切换。那比不分还烦。
真正的路由,应该是自动的。
OpenClaw 的 semantic-router,做的就是这件事:它在你发出消息之前,先判断这条消息属于哪类任务,然后把它分配到对应的模型池。
判断依据是关键词、意图结构、上下文关联度。
第一次配置的时候,我花了大概两个下午。
不是因为它复杂,而是因为我一边配,一边在想一件事:
我到底怎么区分”一件事需要快答”和”一件事需要想透”?
这个问题,在我脑子里想得很清楚。但写成规则,却反复改了七八遍。
因为语言和判断之间,永远有一条缝隙。

五、它降的不只是成本,是决策密度

账单从 $380 降到$95 之后,我以为这件事就结束了。
后来我发现,它带来的改变不止在账单上。
当低价值任务不再占用贵的模型时,贵的模型的”精力”更集中了。它处理的每一件事,都是真正值得深度思考的事。输出质量,有了明显变化。
就像你把一个团队里的高级人才,从行政杂务里解放出来,只处理战略判断,他们的产出密度会完全不同。
人是这样,模型也是这样。
让它干对的事,它就能给你对的结果。
这句话听起来简单,但我花了整整一个月的账单和两个下午的配置时间,才真正把它从道理变成系统。
下一章,我们聊 Skills—— 不是那种你安装完就忘了的插件,而是你亲手给它装的钳子。