龙虾已卸载,专注 Vibe Coding,田忌赛马式AI编程:我用三个模型干翻一个顶配

龙虾还是一个好玩的玩具，玩了几天就卸载了，开始专心搞Vibe Coding

最近被网上一篇文章震到了——有人用"田忌赛马"的思路做AI编程，不追顶配模型，而是用组合拳打出最高性价比。

我越看越觉得，这不就是我最近在干的事吗？

我现在日常用的是三套AI编程工具：

顶配模型
Claude Code + claude-opus-4-6
中等模型
Trae CN + GLM-5.1
入门模型
CodeBuddy + KIMI-2.5

说实话，一开始我也觉得"当然全用顶配啊"。但用了一段时间后，我发现：不是所有任务都值得上Opus，也不是所有任务都只配用KIMI。

关键在于——你会不会排兵布阵。

今天这篇文章，我就把自己这段时间的实战心得和踩过的坑，全部分享出来。

一、三匹马各有什么本事

先说清楚，我这里说的"上中下马"不是贬义，而是不同任务适配不同能力的意思。就像田忌赛马里，每匹马都有它的位置。

上马：Claude Code + Opus 4.6

这是我目前用过最强的AI编程组合，没有之一。

强在哪？

架构设计能力极强，能理解几十个文件的复杂项目
代码风格一致性好，不会写出"一人写一半"的感觉
长上下文理解强，大项目里不会迷路
交互式编程体验好，能自动执行命令、修bug

弱在哪？

贵，真的很贵
响应速度相对较慢
对中文语境的理解有时不如国产模型

什么时候用？ 项目架构设计、复杂bug修复、长链路重构

中马：Trae CN + GLM-5.1

这是字节的Trae编辑器搭配智谱的GLM-5.1，性价比很高。

强在哪？

中文理解能力好，中文需求描述不会"翻译腔"
响应速度快，简单任务秒出结果
Trae编辑器集成了Builder模式，适合快速搭建项目
免费额度够日常使用

弱在哪？

复杂项目上下文理解不如Opus
代码风格偶尔不够一致
超长代码生成时偶尔会"断片"

什么时候用？ 快速原型、CRUD代码生成、中文文档编写

下马：CodeBuddy + KIMI-2.5

CodeBuddy搭载月之暗面的KIMI-2.5，是我的"轻量级选手"。

强在哪？

启动快，随叫随到
简单修改、格式调整这类任务效率高
对中文场景优化好
成本极低，几乎不心疼

弱在哪？

复杂逻辑理解能力有限
大项目上下文窗口较小
架构级任务力不从心

什么时候用？ 简单bug修复、代码格式化、注释生成、快速验证想法

二、我的田忌赛马实战

理论讲完了，说说我是怎么排兵布阵的。

场景一：开发一个新项目

以前的我：打开Claude Code，从头到尾全用Opus写。

现在的我：

阶段	用什么模型	为什么
需求分析 & 架构设计	Claude Code + Opus	架构决策需要最强的大脑
快速搭建脚手架	Trae CN + GLM-5.1	模板代码中等模型就够了
核心业务逻辑	Claude Code + Opus	关键代码必须质量高
工具类 & 配置文件	CodeBuddy + KIMI	简单重复劳动用便宜模型
单元测试	Trae CN + GLM-5.1	测试代码对创意要求低
文档 & 注释	CodeBuddy + KIMI	中文文档是国产模型强项

算笔账：一个项目假设有100个编码任务，以前全用Opus大概花费$50。现在大概30个任务用Opus($15)，40个任务用GLM($2)，30个任务用KIMI($0.5)，总共$17.5。

省了65%的成本，代码质量反而更高——因为每个任务都用了最擅长的模型。

场景二：Debug一个线上事故

这种场景最能体现"田忌赛马"的价值。

步骤一：快速定位 → 用CodeBuddy + KIMI

把错误日志扔进去，让它快速分析错误类型
简单的空指针、类型错误，KIMI直接就能修

步骤二：深度分析 → 用Trae CN + GLM-5.1

如果KIMI修不了，升级到GLM-5.1
它能理解更多上下文，分析框架层面的问题

步骤三：终极修复 → 用Claude Code + Opus

如果GLM也搞不定，才上Opus
复杂的并发问题、架构缺陷，Opus能搞定

核心思路：先派下马试探，不行再升级。就像田忌赛马一样——不是每局都要用上马，而是让每匹马都发挥最大价值。

场景三：写公众号文章（对，就是这篇）

你可能没想到，写文章也是田忌赛马：

选题 & 大纲
Claude Code + Opus —— 需要深度思考和结构化
素材搜集
CodeBuddy + KIMI —— 快速搜索，整理要点
初稿撰写
Trae CN + GLM-5.1 —— 中文生成流畅，速度快
深度修改
Claude Code + Opus —— 关键段落需要更好的逻辑和表达

三、三个模型的真实对比

我用一个表格总结一下三套组合的特点，都是真实使用感受：

维度	Claude Code + Opus	Trae CN + GLM-5.1	CodeBuddy + KIMI-2.5
架构设计	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐
代码质量	⭐⭐⭐⭐⭐	⭐⭐⭐⭐	⭐⭐⭐
中文理解	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
响应速度	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐⭐
成本	💰💰💰💰💰	💰💰	💰
大项目理解	⭐⭐⭐⭐⭐	⭐⭐⭐	⭐⭐
快速迭代	⭐⭐⭐	⭐⭐⭐⭐⭐	⭐⭐⭐⭐

关键发现：没有哪个模型在所有维度都是第一。Opus编程能力最强但最贵最慢，KIMI最便宜但对复杂任务力不从心，GLM-5.1在中间找到了一个很好的平衡点。

这正是田忌赛马的前提——如果有一个模型什么都是第一，那就不需要策略了。

四、模型路由：让AI自己当教练

手动分配任务虽然有效，但确实有点累。好消息是，AI模型路由这个方向正在快速发展。

工具	原理	开源
RouteLLM	用人类偏好数据训练路由模型	✅
Semantic Router	基于语义相似度做路由决策	✅
RoRF	随机森林成对比较路由	✅
Martian	实时动态路由	❌
Not Diamond	自动选择最优LLM	❌

我的实际做法是把经验沉淀成简单的规则路由：

如果 任务涉及架构/重构 → Claude Code + Opus如果 任务是CRUD/模板代码 → Trae CN + GLM-5.1如果 任务是简单修改/文档 → CodeBuddy + KIMI如果 不确定 → 先用GLM-5.1试探，搞不定再升级

就这么简单的几条规则，已经帮我省了至少50%的API费用。

五、我的观点：田忌赛马的三个层次

第一层：手动分工（我目前在这层）

人肉判断任务类型，分配给不同模型。

优点：可控、灵活，能根据实际情况调整缺点：需要经验，有判断错误的风险

第二层：规则路由（我正在过渡到这层）

把经验沉淀成规则，半自动化执行。

优点：减少决策疲劳，新手也能用缺点：规则维护成本高，边界情况处理不好

第三层：智能路由（未来方向）

用机器学习自动学习最优分配策略。

优点：效率最高，效果最好缺点：需要数据积累，技术门槛高

我的判断：目前大多数人还在第一层，但向第二层过渡的时机已经成熟了。你只需要把我上面那个简单的if-else规则落地，就能立刻感受到效率提升。

六、给开发者的三点建议

1. 别再纠结"哪个模型最强"

Opus编程最强但贵，KIMI最便宜但能力有限，GLM-5.1性价比最高但不是每个场景都最合适。真正的问题是：这个任务，该派哪匹马上场？

2. 建立自己的模型使用笔记

我用一个简单的表格记录每个模型在不同任务上的表现。你不需要很复杂的系统，就记三列：任务类型、用了什么模型、效果打分。

3. 先用便宜模型试探，不行再升级

这是我最重要的经验：大多数你以为很难的任务，中等模型就能搞定。

我统计了一下，过去一个月我接到的编程任务中：

约35%的任务KIMI就能搞定
约40%的任务GLM-5.1能搞定
只有约25%的任务真的需要上Opus

也就是说，如果我全用Opus，75%的算力其实浪费了。

结语

田忌赛马的故事流传了两千多年，核心智慧就一句话：

在资源有限的情况下，用策略弥补实力的差距。

2026年的AI编程战场，模型越来越多，能力越来越强，价格差异也越来越大。真正的差距，不在于你用了多贵的模型，而在于你会不会"排兵布阵"。

我现在每天打开编辑器前，都会想一下：这个任务，该派哪匹"马"上场？

就这么一个简单的习惯，让我每月省了上千块的API费用，代码质量反而更高了。

下次当你无脑打开最贵的AI模型时，不妨停三秒想一想——这匹马，配这个任务吗？

END

欢迎点赞，在看，转发给我鼓励~

👇👇关注我👇👇

阅读更多好文，领取学习资料

我是南哥，10年全栈工程师，小公司项目经理

喜欢研究新技术，分享技术干货

回复“AI入门”，领取7本AI入门电子书；

回复“AI学习”，领取17本AI必看电子书；