Kimi K2.6:开源代码模型杀入工程腹地
01
三个字:不用测了
4月20日深夜,月之暗面发布了 Kimi K2.6。
开源代码模型,主打”超长周期执行”和”Agent Swarm”。官方链接贴在文章底部,感兴趣可以直接去跑。
我不想再列一轮 Benchmark 表格。K2.6 在 SWE-Bench Verified 上 80.2,在 Terminal-Bench 2.0 上 66.7——这些数字很好看,但真正说明问题的,是它实际做了什么。
02
案例一:用 Zig 在 Mac 上硬刚推理优化
K2.6 拿到一台 Mac,直接上手下载并本地部署了 Qwen3.5-0.8B。
然后,用 Zig 实现了整套推理逻辑。
Zig 是什么?几乎所有人在学系统编程时会跳过它——语法古怪、工具链不友好、生态稀缺。但它执行效率极高,接近 C。这不是一个”顺手用 Python 写个 demo”的场景,K2.6 主动选择 Zig 做生产级优化,这个决策本身就很不寻常。
4,000+ 次工具调用,12 小时连续执行,14 轮迭代。最初吞吐量约 15 tokens/s,最终跑到约 193 tokens/s——比 LM Studio 快了 20%。
这不是某家媒体写的宣传稿。这是模型自己在 12 小时内一步步调出来的结果。
03
案例二:13小时改造8年老金融引擎
K2.6 还接手了一个叫 exchange-core 的开源金融撮合引擎——有 8 年历史,代码改了无数轮,团队早就散了。
它做了这几件事:
-
运行 12 套不同的优化策略 -
发起 1,000+ 次工具调用,精确定位修改了 4,000+ 行代码 -
分析 CPU 和内存分配火焰图,找到隐藏瓶颈 -
大胆重设了核心线程拓扑:4ME+2RE → 2ME+1RE
最终结果:Medium 吞吐量从 0.43 MT/s 跳到 1.24 MT/s,提升 185%;Performance 吞吐量从 1.23 MT/s 升到 2.86 MT/s,提升 133%。
一个刚接手陌生代码库的 AI,在 13 小时内完成了一名资深系统架构师的工作——而且是在撮合引擎本身已经接近性能天花板的前提下。
04
Agent Swarm:从100到300
K2.5 的 Agent Swarm 支持 100 个子 agent、1,500 步协同。K2.6 直接扩展到 300 个 agent、4,000 步并行。
这不只是数量提升。关键变化在于异构:不同子 agent 承担不同角色,互相协同,可以在一个指令内完成”搜索→深度研究→文档分析→写作→生成 PPT”的全流程。
架构上,K2.6 的 Coordinator 负责动态分配任务、检测失败并自动重新生成子任务、全程跟踪交付物生命周期。这是真正的生产级编排系统,不是 Demo。
实际场景:上传一份简历,K2.6 自动裂变出 100 个子 agent,匹配加州 100 个相关职位,生成 100 份定制简历和结构化机会数据——一次完成。
05
Benchmark:和闭源模型同台
| 基准 | K2.6 | K2.5 | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|---|---|
| SWE-Bench Verified | 80.2 | 76.8 | — | 80.8 | 80.6 |
| Terminal-Bench 2.0 | 66.7 | 50.8 | 65.4 | 65.4 | 68.5 |
| HLE-Full w/ tools | 54.0 | 50.2 | 52.1 | 53.0 | 51.4 |
| BrowseComp | 83.2 | 74.9 | 82.7 | 83.7 | 85.9 |
| DeepSearchQA (f1) | 92.5 | 89.0 | 78.6 | 91.3 | 81.9 |
表格里加粗的数字是 K2.6 领先闭源模型的地方。不全领先,但在 Coding 和 Agentic 任务上,差距已经大幅收窄。
06
开源的意义
K2.6 已在 HuggingFace 开源权重,Kimi.com、Kimi App、API 和 Kimi Code 均可访问。
之前每次开源模型发布,社区的反应通常是”和 GPT-4 比怎么样”。现在这个问题本身变了——更值得问的是:它能在多大程度上替代一个真实的程序员?
K2.6 的 Zig 实现、exchange-core 重构、12 小时自主优化——这些不是跑分,是在真实工程环境里完成的。
它选择 Zig 而不是 Python,不是因为不会用 Python,而是判断 Zig 更合适。它改写撮合引擎的线程拓扑,不是随机试错,而是看火焰图分析出来的。
这不是”代码补全”。这是真正的端到端工程能力。
夜雨聆风