
先看一组数据。
Artificial Analysis发布的2026年年中开源大模型智力指数榜单(Intelligence Index v4.0),前十名里,八个来自中国实验室。不是某个细分领域的前十,是横跨推理、编码、智能体、知识等10项严苛评测的综合排名。
更扎眼的是分数——排名第一的Kimi K2.6拿到53.9分,而并列第九的谷歌Gemma 4和Mistral Medium 3.5只有39.2分,差距超过14分。
14分什么概念?在AI评测里,这基本是"同一代际"和"差了一代"的分水岭。
但如果你觉得这就是"中国AI全面碾压美国"的终局定论,那可能把故事看得太简单了。
榜单拆解:8席碾压,不是"人数优势"
先看具体排名:
注意几个细节:
第一,这不是靠"堆人"堆出来的。 中国实验室上榜的模型来自5家不同公司——月之暗面、MiniMax、深度求索、智谱AI、阿里,没有哪家垄断榜单。DeepSeek虽然占了3席,但覆盖了Pro、Flash、V3.2三条产品线,分别是旗舰、轻量、上一代,各有定位,不是重复占位。
第二,分数断层是真实存在的。 头部阵营(53-54分)到尾部(39分)之间,差了不止一个级别。这不是"几分的误差范围内谁高谁低"的争论,而是头部模型在推理、编码、智能体任务上系统性碾压尾部。
第三,Meta的Llama 4没有进前十。 作为美国开源AI的旗帜,Llama 4在这份榜单上的缺席,是很多人没预料到的。Llama系列在BenchLM等榜单上仍有竞争力,但在这套侧重智能体和实际工程表现的评测体系中,没能拿到前十。
三个信号,比排名本身更值得关注
信号一:Kimi K2.6登顶,靠的不是跑分
Kimi K2.6拿到53.9分登顶,但真正让这份榜单有分量的,不是分数,而是它怎么拿到这个分数的。
架构层面:1万亿参数MoE,384个专家路由,每次推理只激活320亿参数。这意味着它"大而不贵"——推理成本远低于同等能力的稠密模型。
编码实战:SWE-Bench Pro 58.6%,这是业界最权威的真实软件工程能力评测——看AI能不能像人类工程师一样解决真实的GitHub Issue。据CSDN深度解析,K2.6是首个在这项评测上超越GPT-5.4(57.7%)和Claude Opus 4.6(53.4%)的开源模型。
工程案例更硬:Vercel实测,K2.6在Next.js基准上比上一代提升超过50%。更离谱的是,它用13小时自主重构了一个运行8年的金融匹配引擎——1000多次工具调用,吞吐量提升185%。这不是实验室跑分,是真实业务场景的产出。
月之暗面走的是"Agent OS"路线——不是做一个会聊天的模型,而是做一个能自己干活、调用工具、协调子Agent的智能体。K2.6支持300个子Agent并行协同,最长12小时自主运行。这个方向的选择,决定了它不是跑分型选手,而是工程实战型选手。
信号二:DeepSeek的成本碾压,美企已经真金白银买单了
榜单上DeepSeek占了3席,但更震撼的消息来自榜单之外。
2026年6月,美国头部企业支出管理平台Ramp发布月度软件趋势榜单——DeepSeek拿下新增付费增速榜首,超越一众美国本土AI服务商,成为榜单历史上首个登顶的中国AI企业。
这不是海外团队下载开源代码自己部署,而是数万家美国企业通过企业信用卡直接向DeepSeek官方付费,调用云端API。Ramp只统计走完内部立项、预算审批、对公付款全流程的订单,免费试用不计入。
为什么美企愿意给中国AI厂商付费?因为成本差距是碾压级的:
DeepSeek V4 Pro:输入$0.30/百万Token,输出$0.50/百万Token(据BenchLM.ai数据) OpenAI GPT-5.5-Med:输入$3/百万Token,输出$14.8/百万Token
同等任务下,DeepSeek输入成本是OpenAI的1/7,输出成本是1/17。
一家日均3000次调用的企业客服系统,用DeepSeek月成本一千多元,用OpenAI同级别模型要两万多——年差二十万。对利润空间有限的中小科创企业,这笔差价直接决定项目能不能活下去。
但DeepSeek自己说了一句行业内少见的实话:与顶尖闭源模型相比,大概还差3到6个月。这种坦率本身就说明他们清楚自己的定位——不是要取代闭源旗舰,而是在性价比赛道上做最极端的那个。
信号三:MoE架构成为主流,这是中国实验室的"体系化优势"
前十名中,中国模型几乎全部采用MoE(混合专家)架构。这不是巧合。
MoE的核心思路是"大模型、小激活"——总参数可以做到万亿级别,但每次推理只激活一小部分,大幅降低计算成本。DeepSeek V4 Pro是1.6万亿参数、490亿激活;Kimi K2.6是1万亿参数、320亿激活。
这意味着什么?同等推理效果下,MoE模型的部署成本远低于稠密模型。这也是为什么中国开源模型能做到"性能逼近闭源旗舰,成本压到地板价"——不是靠补贴亏本,是架构层面的效率优势。
DeepSeek V4 Flash跑完整个Intelligence Index基准测试套件只要$113,而V4 Pro要$1,071——Flash不到Pro的1/9,分数却还有46.5(排在第6)。这种成本-性能比,稠密架构根本做不到。
美国开源这边,Meta的Llama 4虽然也用了MoE,但在这份榜单上的表现不如预期。原因可能多样,但一个不可忽视的因素是:中国实验室在MoE的工程优化上已经积累了更深的经验——从训练效率到推理加速,从量化部署到长上下文处理,形成了一套体系化的能力。
别急着开香槟:闭源赛道是另一场游戏
说到这里,必须踩一脚刹车。
这份榜单排名的是开源/开放权重模型。如果把闭源模型放进来,格局完全不同:
数据来源:2026年全球TOP10 AI模型深度研究报告
Claude Mythos Preview在SWE-Bench上拿到93.9%,而Kimi K2.6是80.2%。开源模型断层领先的是开源赛道,和顶尖闭源模型之间,确实还有差距。DeepSeek自己也承认3-6个月的落后——这不是谦虚,是现实。
而且闭源模型在某些场景上的优势不是分数能完全反映的——多模态交互的细腻程度、插件生态的成熟度、对话体验的打磨水平,这些是闭源API多年积累的长板。
还有一个经常被忽略的事实:美军机密系统用Claude闭源定制版,欧盟政务用本地闭源模型,这些场景永远不可能用中国AI——跟技术无关,跟价格无关,跟国家安全有关。
a16z的Martin Casado说了一句到位的话:大多数使用开源AI的创业公司,现在跑的都是中国模型。这是市场选择的结果。但美国国会咨询机构的报告也指出了另一面:这种竞争优势正在形成"自我强化的飞轮"。
开源飞轮已经转起来了
飞轮的意思是:更多人用→更多反馈→更快迭代→更强产品→更多人用。三个数据点说明飞轮效应正在显现:
1. 调用量反超。 2026年Q1,中国区域开源模型月调用量达1270亿次,首次超过美国的1190亿次,占全球总量42%。工业制造、智慧城市、金融风控三大场景占比超65%。
2. 美企买单。 DeepSeek登顶Ramp新增付费增速榜——不是免费试用,不是开源下载,是企业级付费采购。从"下载你的代码"到"给你打钱",这是信任级别的跨越。
3. 生态自生长。 Qwen 3.5在Apache 2.0协议下发布,Kimi K2.6采用Modified MIT License,都是商业友好型协议。全球开发者可以直接接入、二次开发、商业部署。据BenchLM.ai中国模型榜数据,OpenRouter平台上Qwen系列正在从Anthropic和Google手中抢夺市场份额。
生态不是等人喂的,是自己长出来的。而且在中国开源模型的成本结构下,长得很快。
给开发者的选型建议
不看排名看场景,这是2026年选型的基本原则:
企业级全场景基座:Qwen 3.5(Apache 2.0,生态最成熟) 复杂工程与长推理:GLM-5.1(开源模型中智能体指数最高,幻觉率下降56个百分点) 代码生成与算法竞赛:DeepSeek V4 Pro(Codeforces 3206,性价比断档第一) 长文本与智能体协同:Kimi K2.6(300子Agent并行,12小时自主运行) 轻量化部署:DeepSeek V4 Flash($113跑完Intelligence Index全套,V4 Pro要$1,071) 成本极敏感:DeepSeek V4 Pro($0.30/$0.50,同级别最低价)
如果你还在用闭源API且没测试过开源替代,现在是时候了。不是开源"可能追上",而是开源在成本和可部署性上已经是默认选择——性能差距在3-6个月以内,成本差距在3-17倍之间。
最后说一句
中国开源模型占据全球前十的八席,这不是终点,甚至不是中点。闭源赛道上,Claude Mythos和GPT-5.4 Pro依然是天花板级别的存在。但在开源赛道上,中国已经从"追赶者"变成了"领跑者",而且领先的幅度在扩大。
真正值得关注的不是"谁赢了",而是这个格局背后的机制——开源+MoE+低成本+商业友好协议,形成了一个自我强化的飞轮。这个飞轮一旦转起来,追赶者需要的不只是技术突破,而是整个竞争参数的重新定义。
对普通开发者和中小企业来说,这意味着一件事:你今天选用的AI基座,可能决定了你一年后在哪条生态链上。
夜雨聆风