乐于分享
好东西不私藏

Kimi K2.6:开源代码模型杀入工程腹地

Kimi K2.6:开源代码模型杀入工程腹地

 01
 三个字:不用测了

4月20日深夜,月之暗面发布了 Kimi K2.6。

开源代码模型,主打”超长周期执行”和”Agent Swarm”。官方链接贴在文章底部,感兴趣可以直接去跑。

我不想再列一轮 Benchmark 表格。K2.6 在 SWE-Bench Verified 上 80.2,在 Terminal-Bench 2.0 上 66.7——这些数字很好看,但真正说明问题的,是它实际做了什么。

 02
 案例一:用 Zig 在 Mac 上硬刚推理优化

K2.6 拿到一台 Mac,直接上手下载并本地部署了 Qwen3.5-0.8B。

然后,用 Zig 实现了整套推理逻辑。

Zig 是什么?几乎所有人在学系统编程时会跳过它——语法古怪、工具链不友好、生态稀缺。但它执行效率极高,接近 C。这不是一个”顺手用 Python 写个 demo”的场景,K2.6 主动选择 Zig 做生产级优化,这个决策本身就很不寻常。

4,000+ 次工具调用,12 小时连续执行,14 轮迭代。最初吞吐量约 15 tokens/s,最终跑到约 193 tokens/s——比 LM Studio 快了 20%。

这不是某家媒体写的宣传稿。这是模型自己在 12 小时内一步步调出来的结果。

 03
 案例二:13小时改造8年老金融引擎

K2.6 还接手了一个叫 exchange-core 的开源金融撮合引擎——有 8 年历史,代码改了无数轮,团队早就散了。

它做了这几件事:

  • 运行 12 套不同的优化策略
  • 发起 1,000+ 次工具调用,精确定位修改了 4,000+ 行代码
  • 分析 CPU 和内存分配火焰图,找到隐藏瓶颈
  • 大胆重设了核心线程拓扑:4ME+2RE → 2ME+1RE

最终结果:Medium 吞吐量从 0.43 MT/s 跳到 1.24 MT/s,提升 185%;Performance 吞吐量从 1.23 MT/s 升到 2.86 MT/s,提升 133%。

一个刚接手陌生代码库的 AI,在 13 小时内完成了一名资深系统架构师的工作——而且是在撮合引擎本身已经接近性能天花板的前提下。

 04
 Agent Swarm:从100到300

K2.5 的 Agent Swarm 支持 100 个子 agent、1,500 步协同。K2.6 直接扩展到 300 个 agent、4,000 步并行。

这不只是数量提升。关键变化在于异构:不同子 agent 承担不同角色,互相协同,可以在一个指令内完成”搜索→深度研究→文档分析→写作→生成 PPT”的全流程。

架构上,K2.6 的 Coordinator 负责动态分配任务、检测失败并自动重新生成子任务、全程跟踪交付物生命周期。这是真正的生产级编排系统,不是 Demo。

实际场景:上传一份简历,K2.6 自动裂变出 100 个子 agent,匹配加州 100 个相关职位,生成 100 份定制简历和结构化机会数据——一次完成。

 05
 Benchmark:和闭源模型同台

基准 K2.6 K2.5 GPT-5.4 Claude Opus 4.6 Gemini 3.1 Pro
SWE-Bench Verified 80.2 76.8 80.8 80.6
Terminal-Bench 2.0 66.7 50.8 65.4 65.4 68.5
HLE-Full w/ tools 54.0 50.2 52.1 53.0 51.4
BrowseComp 83.2 74.9 82.7 83.7 85.9
DeepSearchQA (f1) 92.5 89.0 78.6 91.3 81.9

表格里加粗的数字是 K2.6 领先闭源模型的地方。不全领先,但在 Coding 和 Agentic 任务上,差距已经大幅收窄。

 06
 开源的意义

K2.6 已在 HuggingFace 开源权重,Kimi.com、Kimi App、API 和 Kimi Code 均可访问。

之前每次开源模型发布,社区的反应通常是”和 GPT-4 比怎么样”。现在这个问题本身变了——更值得问的是:它能在多大程度上替代一个真实的程序员?

K2.6 的 Zig 实现、exchange-core 重构、12 小时自主优化——这些不是跑分,是在真实工程环境里完成的。

它选择 Zig 而不是 Python,不是因为不会用 Python,而是判断 Zig 更合适。它改写撮合引擎的线程拓扑,不是随机试错,而是看火焰图分析出来的。

这不是”代码补全”。这是真正的端到端工程能力。