8/10
全球AI开源模型TOP10,中国占了8个席位
大家好,我是摘星,
这周我在做模型评测的时候,被一组数据震到了。智谱4月8日静默发布的GLM-5.1,编程能力达到了Claude Opus 4.6的94.6%。注意,SWE-bench Pro这个最接近真实开发的benchmark上,GLM-5.1直接反超了Claude。
开源第一,换人了。
GLM-5.1登上全球开源模型编程榜首,价格只有Claude的五分之一。更狠的是——全球开源TOP10里,中国模型占了8席。
先看全局。这是2026年4月最新的AI模型综合排名,来自Artificial Analysis的智能指数:
| 排名 | 模型 | 厂商 |
|---|---|---|
| 🥇 1 | Claude Opus 4.6 | Anthropic |
| 🥈 2 | Gemini 3.1 Pro | |
| 🥉 3 | GPT-5.3 | OpenAI |
| 4 | Grok 4.1 | xAI |
| 5 | GLM-5 | 智谱AI |
综合排名上,Claude Opus 4.6依然稳坐第一。但GLM-5挤进了全球前五,这是中国模型的历史最好成绩。前四名是美国科技巨头,每家都烧了几百亿美金。智谱用开源模型追上来了。
更炸裂的是开源榜。 Hugging Face最新排名,全球开源模型TOP10,中国占了8席。Qwen 3.5登顶第一,GLM-5紧随其后第二。2月份甚至出现过TOP10全是中国模型的盛况。这不是追赶,这是碾压。
别被"综合第一还在Claude手里"安慰了。闭源模型的护城河正在被快速蚕食——而蚕食最快的那个方向,恰恰是最赚钱的编程赛道。
智谱这波操作很"聪明"——GLM-5.1在4月8日发布,没有发布会、没有PPT、没有技术报告。直接放权重的做法,反而比铺天盖地的营销更有说服力。
三个数字看懂GLM-5.1的含金量:
可自部署,数据不出服务器
长程任务支持8小时
推理、创意、分析全面
价格贵7倍
说白了,如果你的核心需求是写代码、改Bug、做自动化,GLM-5.1和Claude的差距已经小到可以忽略。但价格差了7倍。这就是为什么我后悔充钱了。
✅ 亮点 GLM-5.1完全基于华为芯片训练,200K上下文,首次在Artificial Analysis榜单上对齐Opus 4.6。在Reddit r/LocalLLaMA社区引发了热议,被公认为开源编程领域前三。
GLM-5.1已经够猛了,但更大的炸弹还在后面。4月10日,DeepSeek创始人梁文锋首次明确表态:DeepSeek V4将于4月下旬正式发布。
这四个数字放在一起看,意味着什么?一个万亿参数的模型,推理成本可能只要GPT-4的七十分之一,而且完全跑在国产芯片上。如果SWE-bench真的达到传闻中的81%,那编程能力就是全球第一。
⚠️ 客观说 V4尚未正式发布,以上数据来自官方预告和产业链信息。最终benchmark成绩以发布为准。但V4的方向是明确的:万亿参数+国产算力+极致性价比。
说了这么多数据,来点实在的。不同需求,选哪个最划算?
别追最强的模型,追最适合你场景的那个——省下的钱和时间都是真的。
这周最大的感触:国产模型已经不是"能用"了,是"真好用"。GLM-5.1的编程能力让我重新审视了每月的API账单。DeepSeek V4如果数据属实,那价格战还要再打一轮。
你现在在用哪个模型?有没有试过国产模型?评论区投票告诉我👇
一年前我们还在问"国产模型什么时候追上"
现在的问题是——海外模型还能领先多久
数据来源:Artificial Analysis · Hugging Face · SWE-bench · LMArena · 各模型官方文档
2026年4月17日
夜雨聆风