AI模型周榜|试了GLM-5.1,我后悔给Claude充钱了

8/10

全球AI开源模型TOP10，中国占了8个席位

🤖

AI模型周榜 · 2026.04

AI模型周榜｜试了GLM-5.1

我后悔给Claude充钱了

开源编程第一 · 性价比碾压 · DeepSeek V4蓄势待发

94.6%

GLM-5.1达Opus水平

8席

开源TOP10中国占

1/5

价格仅Claude五分之一

大家好，我是摘星，

这周我在做模型评测的时候，被一组数据震到了。智谱4月8日静默发布的GLM-5.1，编程能力达到了Claude Opus 4.6的94.6%。注意，SWE-bench Pro这个最接近真实开发的benchmark上，GLM-5.1直接反超了Claude。

开源第一，换人了。

GLM-5.1登上全球开源模型编程榜首，价格只有Claude的五分之一。更狠的是——全球开源TOP10里，中国模型占了8席。

🌍

PART 01

排行榜洗牌，中国模型集体上位

一周之内，三个榜单同时刷新

先看全局。这是2026年4月最新的AI模型综合排名，来自Artificial Analysis的智能指数：

排名	模型	厂商
🥇 1	Claude Opus 4.6	Anthropic
🥈 2	Gemini 3.1 Pro	Google
🥉 3	GPT-5.3	OpenAI
4	Grok 4.1	xAI
5	GLM-5	智谱AI

综合排名上，Claude Opus 4.6依然稳坐第一。但GLM-5挤进了全球前五，这是中国模型的历史最好成绩。前四名是美国科技巨头，每家都烧了几百亿美金。智谱用开源模型追上来了。

更炸裂的是开源榜。 Hugging Face最新排名，全球开源模型TOP10，中国占了8席。Qwen 3.5登顶第一，GLM-5紧随其后第二。2月份甚至出现过TOP10全是中国模型的盛况。这不是追赶，这是碾压。

别被"综合第一还在Claude手里"安慰了。闭源模型的护城河正在被快速蚕食——而蚕食最快的那个方向，恰恰是最赚钱的编程赛道。

⚔️

PART 02

GLM-5.1速评：编程94.6%追平Claude

4月8日静默发布，没有发布会没有PPT

智谱这波操作很"聪明"——GLM-5.1在4月8日发布，没有发布会、没有PPT、没有技术报告。直接放权重的做法，反而比铺天盖地的营销更有说服力。

45.3

编程评测得分

77.8%

SWE-bench Verified

$2.15

每百万token

三个数字看懂GLM-5.1的含金量：

编程得分45.3，Claude Opus 4.6是47.9

达到Opus的94.6%，相比上代GLM-5提升了28%。这是目前开源模型离闭源天花板最近的距离。

SWE-bench Verified 77.8%，开源史上最高

SWE-bench是让AI在真实GitHub仓库里定位和修复Bug的测试。GLM-5.1在这个最贴近实战的基准上拿到了开源最高分。

SWE-bench Pro直接反超Claude Opus和GPT-5.4

Pro版本更难，要求AI处理大型工程项目的复杂问题。GLM-5.1在这里刷新了全球最佳成绩。

✦

GLM-5.1

开源 · $2.15/M

编程能力天花板级
可自部署，数据不出服务器
长程任务支持8小时

Claude Opus 4.6

闭源 · $15/M

综合能力全球第一
推理、创意、分析全面
价格贵7倍

说白了，如果你的核心需求是写代码、改Bug、做自动化，GLM-5.1和Claude的差距已经小到可以忽略。但价格差了7倍。这就是为什么我后悔充钱了。

✅ 亮点　GLM-5.1完全基于华为芯片训练，200K上下文，首次在Artificial Analysis榜单上对齐Opus 4.6。在Reddit r/LocalLLaMA社区引发了热议，被公认为开源编程领域前三。

🚀

PART 03

DeepSeek V4要来了，万亿参数+35倍提速

梁文锋官宣4月下旬发布，国产算力首次深度适配

GLM-5.1已经够猛了，但更大的炸弹还在后面。4月10日，DeepSeek创始人梁文锋首次明确表态：DeepSeek V4将于4月下旬正式发布。

万亿参数MoE架构 · 推理激活约370亿参数

推理速度提升35倍

⚡

35倍推理加速

华为昇腾950PR实测

📖

百万token上下文

一次塞一整本书

💰

约$0.14/M token

比GPT-4便宜70倍

🇨🇳

深度适配国产芯片

昇腾单卡达H20的2.87倍

这四个数字放在一起看，意味着什么？一个万亿参数的模型，推理成本可能只要GPT-4的七十分之一，而且完全跑在国产芯片上。如果SWE-bench真的达到传闻中的81%，那编程能力就是全球第一。

⚠️ 客观说　V4尚未正式发布，以上数据来自官方预告和产业链信息。最终benchmark成绩以发布为准。但V4的方向是明确的：万亿参数+国产算力+极致性价比。

💰

PART 04

价格差7倍，你该选谁

不同场景的最优模型推荐

说了这么多数据，来点实在的。不同需求，选哪个最划算？

你是程序员 → GLM-5.1

编程能力94.6%对齐Claude，SWE-bench Pro全球第一，$2.15/百万token。开源可自部署，数据不出服务器。搭配Claude Code或Kilo Code用都行。

你要长文档/多模态/Agent → Qwen 3.6-Plus

LMArena Code Arena全球第二，中文编程最强。通义API价格极低，100万token上下文独步天下。适合搭Agent工作流。

你预算有限/调用量大 → 等DeepSeek V4

如果预告数据属实，$0.14/百万token的价格闭着眼睛用都不心疼。适合批量文本处理、客服机器人、数据清洗。现阶段V3.2也够用。

你只要最强不在钱 → Claude Opus 4.6

综合能力确实还是全球第一。但说实话，除了推理和创意写作这两个特定场景，其他场景的差距已经很小了。$15/百万token的价格，想清楚再充。

我的真实选择

日常编程GLM-5.1，长文档用Qwen 3.6，批量任务等DeepSeek V4。Claude？只在需要天花板级质量的时候才开。模型参数的军备竞赛结束了，下一场战争是谁能把模型真正用好。

别追最强的模型，追最适合你场景的那个——省下的钱和时间都是真的。

这周最大的感触：国产模型已经不是"能用"了，是"真好用"。GLM-5.1的编程能力让我重新审视了每月的API账单。DeepSeek V4如果数据属实，那价格战还要再打一轮。

你现在在用哪个模型？有没有试过国产模型？评论区投票告诉我👇

写在最后

一年前我们还在问"国产模型什么时候追上"

现在的问题是——海外模型还能领先多久

数据来源：Artificial Analysis · Hugging Face · SWE-bench · LMArena · 各模型官方文档

2026年4月17日

#AI模型评测

#国产大模型

#GLM-5.1