别再争哪个 AI 编程工具最强了,我现在把它们组队用
最近我越来越觉得,AI 编程不是选一个最强工具一路用到底。我现在更常见的做法,是让 Claude Code 先出计划,拆任务、定边界、看风险,再让 Codex 编码、跑命令、修问题、做验证。这也是这篇文章值得看的地方。它讲的不是谁更强,而是怎么把 AI 编程从单机游戏,变成一个小团队。
大家都在争论哪个 AI 编程智能体最好。
Claude Code 的拥护者说 Claude 最好。Cursor 的用户说 Cursor 最好。GPT 的用户说 GPT 最好。每个人都选一边站,然后像信仰一样守着它。
但真正交付最多工作的开发者,并没有忠于某一个工具。他们在同时使用多个智能体,把不同任务分配给产出最好、成本最低的那个。
这话说出来以后,其实很明显。
但几乎没人这么做。
我之前也没有这么做。直到大约两周前,我还把所有事情都交给 Claude Code:写测试、重构模块、生成样板代码、构建 API,全部都用 Claude。质量非常好,这一点我没有任何抱怨。
问题出在账单上。
当你整天运行智能体式编程任务时,token 成本会很快叠起来。输入每百万 token 5 美元,输出每百万 token 25 美元,“每天从早用到晚”会贵到让你开始克制自己,不敢把太多事情交给智能体。而这恰恰违背了使用智能体的意义。
所以我开始找一个开源替代方案。不是为了替代 Claude,而是为了接住那 80% 不需要 Claude 级别推理能力、但我却一直在超额付费的任务。
这次搜索带我找到了一个我没想到的东西。
我发现了什么,以及为什么我差点忽略它
坦白说,第一次有人让我看看 Kimi K2.6 时,我差点直接跳过。一个来自月之暗面的编程模型?我当时是有疑虑的。
然后我看了基准测试。
Kimi K2.6 在 SWE-Bench Verified 上得分 80.2%。Claude Opus 4.6 得分 80.8%。GPT-5.2 得分 80.0%。
这些数字本质上处在同一档。几个价格相差 7 倍的模型,差距只是零点几个百分点。
接着我看了 OpenRouter 的编程排行榜。Kimi K2.6 排在第一。
再看价格:输入每百万 token 0.80 美元,输出每百万 token 3.60 美元。
我的疑虑到这里就消失了。
这个模型自带一个以终端为中心的编程智能体,叫 Kimi Code。它是开源的,Apache 2.0 协议,完整源码在 GitHub 上。
你可以检查它、修改它,也可以自己部署。整个东西都从终端里运行,使用方式和 Claude Code 很像。
我安装了它,把它接到一个真实项目上,然后开始测试。
我实际是怎么装的
安装过程简单到有点离谱。
你需要 Python 3.10 以上,基本就这样。一个命令:
pip install kimi-code
然后启动:
kimi
你就进去了。第一次它会让你运行 /login 做认证。之后每次会话都能立刻开始。
我还从市场里装了 VS Code 扩展,这样就能在编辑器里使用。它原生支持 Zed,也能通过 ACP 集成 Cursor 和 JetBrains。所以无论你的开发环境长什么样,它基本都能接进去。
总安装时间:不到五分钟。
两周测试
我给它做了一次真正的测试。不是玩具项目,也不是“帮我写一个待办应用”。我把自己日常工作里的真实任务交给它。
下面是我让它做的事情,以及结果。
测试 1:从零构建一个完整的 REST API。
数据库模型、认证、CRUD 接口、错误处理和测试。通常这类任务会吃掉 Claude 两到三个小时的智能体时间。
Kimi Code 先规划了整体结构,然后按文件执行,并且会引用自己前面做过的决定。没有凭空捏造的导入,没有坏掉的依赖,也没有前后互相矛盾的文件。
K2.6 有一个思考模式,会先推理问题,再开始写代码。这个规划步骤就是差别所在。它不是一上来就生成,而是先做架构。最后得到的是一个可运行的 API,只需要小调整,不需要大清理。
测试 2:跨 12 个文件重构一个模块。
这是大多数编程智能体最容易崩的地方。它们会在第三个文件改了某个东西,然后把第七个文件弄坏,或者忘记自己前面已经改过什么。
K2.6 全程保持了连贯性。和我过去习惯看到的情况相比,它的平均步骤数减少了大约 35%。更少的无效步骤意味着更少的 token 消耗,成本节省也会继续放大。
测试 3:为已有代码库生成测试套件。
这就是苦活,也是我之前用 Claude 付高价做的那类事情。Kimi Code 处理得很干净。不花哨,也不革命性,就是稳定、一致,而且成本低很多。
两周后的结论是:对我每天大约 85% 到 90% 的编程任务来说,它的输出质量和我之前得到的结果在功能上没有明显差别。剩下 10% 到 15% 的深度复杂架构推理任务,我仍然会交给 Claude。
在大部分工作上把成本降低 85%,这不是一点小优化。它改变了我的工作方式。
省下我很多时间的 MCP 技巧
真正让迁移几乎没有摩擦的是这一点。
Kimi Code 原生支持模型上下文协议(MCP)。完整兼容 MCP,而且配置格式和你已经在用的配置兼容。
所以,如果你已经有 Claude Code 或其他工具的 MCP 配置,可以用一个命令直接带过来:
kimi --mcp-config-file your-existing-config.json
你的所有 MCP 服务器、工具连接,都会立刻迁移过去。
也可以单独添加服务器:
kimi mcp add--transport http context7 <https://mcp.context7.com/mcp>
查看已连接的服务:
kimi mcp list
测试连接:
kimi mcp test context7
你的整套工具生态都能一起移动。那一刻我意识到,这不是一个孤立实验。它可以直接插进我已经搭好的所有东西里。
我每天真正会用的命令
进入智能体之后,下面这些命令和功能才是日常真正重要的:
Ctrl-X:切换 shell 模式。你可以不离开智能体就运行任何终端命令。不用切窗口,也不会丢上下文。听起来是个小功能,但非常改变体验。
/sessions:查看和切换会话。它有真正的会话管理,而不是每次都从头开始。
--continue:从上一次会话离开的地方继续。
/compact:这是被低估的一个功能。当上下文窗口快满时,/compact 会让智能体总结之前的对话历史,同时保留关键信息。这样你就能释放空间,继续工作,而不必重新开一个会话。状态栏里还有上下文使用量提示,所以你会知道什么时候该用它。
kimi --yolo:自动批准所有文件修改。只有在你信任智能体正在做的事、并且想要最大速度时才用。在不熟悉的代码库上很危险,但在自己的项目里非常快。
kimi acp:以 ACP 模式启动,用于 IDE 集成。如果你用 Zed 或 JetBrains,就是这样连接。
超出我预期的功能
我必须讲一下智能体蜂群(Agent Swarm),因为这个功能在大多数开发者当前使用的工具里没有真正的对应物。
Agent Swarm 让 K2.6 可以协调最多 100 个子智能体,同时处理复杂任务。不是一个接一个,而是并行。
让我震惊的一个用例是:有人喂给它 40 篇学术 PDF,最后得到了一篇 10 万字的文献综述,还有完整引用的数据集。整个过程在一个会话里完成。
现在已经有人在跑这些真实例子:
-
把 100 份职位描述处理成 100 份分别定制的简历
-
把一篇天体物理学论文变成一份 40 页报告,附带 2 万行数据集和 14 张可发表级别的图表
-
用一个提示生成 10 张小报风格杂志封面,并且带有真实历史标题
这是通常需要自定义脚本和好几个小时手工编排才能完成的批处理规模。现在它变成了一个提示。
Agent Swarm 目前通过网页界面运行,CLI 支持还在路上。如果你的工作流里有大量文件、文档或数据需要处理,单凭这一点就值得你试试。
没什么人在谈的部分:设计品味
我原本没打算测试它的前端能力。我关注的是后端和工具链。但我在信息流里看到有人用 K2.6 做了一个作品集网站,我简直不敢相信那是 AI 生成的。
所以我自己也通过 Kimi 的智能体界面试了一下。
K2.6 会写 GLSL shader、WebGL、Three.js。它理解设计词汇。你说“粗野主义”“液态金属”或“电影感”,它的输出真的会贴近这些审美。不是那种泛泛的 AI 味产物,而是看起来像人类设计师做出来的东西。
它生成的 Web 应用会自动带上数据库和认证。你得到的不是静态页面,而是一个有真实后端基础设施的功能性应用。
我让它做一个带 shader 英雄区动画的作品集网站。一次生成。那个输出如果找设计工作室来做,可能要花几千美元。
也是在这一刻,我不再把 K2.6 看成“只是一个编程模型”。它是一个全栈创意工具。
我现在实际使用的工作栈
跑了两周之后,我现在的工作流是这样的:
高频编程工作:重构、测试、样板代码、API、文档、文件处理,我交给 Kimi Code。这大约占我日常工作的 85%。输出质量满足我的需要,成本只有原来的一小部分。
复杂架构推理:深度多智能体编排、需要最高可靠性的超长智能体循环、全新的系统设计,我交给 Claude。这是另外 15%。在最难的推理任务上,Claude 仍然有优势。该付钱的时候我也愿意付。
批量处理:任何涉及大量文件、文档或并行执行的任务,我用 Agent Swarm。我的工作栈里没有其他东西能做这件事。
总体结果是:我的每周 API 支出下降了大约 85%。因为我不再克制智能体使用量,产出反而增加了。我交付得更多、更快,也更便宜。
这不是为了找到“最好的”工具,而是为了搭建一个工作栈,让每个任务都跑在最适合、最划算的工具上。
诚实评价
我直接说,因为我觉得你值得听实话。
K2.6 明显胜出的地方:
-
成本。比 Opus 4.7 便宜 7 倍。比 GLM-5.1 也便宜将近 50%。同时处在同一性能档位。这一点没什么好争的。
-
开源。完整权重在 Hugging Face 上。Apache 2.0。你想自托管可以自托管,想修改也可以修改。没有厂商锁定。
-
批量处理。Agent Swarm 现在在 Claude 或 GPT 生态里没有真正的对应物。
-
前端设计。生成 Web 应用的审美质量确实是一流的。
-
效率。和 K2.5 相比,达到同样结果所需步骤少了 35%。步骤更少,就意味着 token 更少,成本更低。
Claude 仍然胜出的地方:
-
最复杂的英文指令跟随。当任务需要在数百个智能体步骤里完美遵守极其详细的约束时,Claude 仍然更可靠。
-
生态成熟度。Anthropic 的开发者生态在西方更成熟。
-
上下文窗口。Claude 提供最高 100 万 token。K2.6 是 26.2 万。对大多数任务来说 26.2 万已经足够,但在超大代码库分析上,Claude 有优势。
真正难分胜负的地方:
-
SWE-Bench 和标准编程基准。数字差距小到只有零点几个百分点。硬说谁赢并不诚实。
真正的问题
2026 年的 AI 编程智能体市场,重点不是忠诚,而是杠杆。
如果一个开源模型能交付同样的结果,而你还把日常编程任务都跑在高价 API 上,那么每多花一小时,都是在烧钱。
今年会领先的开发者,是那些搭建多智能体工作栈的人。正确的任务,用正确的工具,以正确的价格完成。不是那些选了一个阵营后拒绝再看其他东西的人。
两周前,我在 85% 的编程工作上多花了 7 倍的钱,现在不会了.
夜雨聆风