🤖 2026年6月14日 · AI大模型排行榜 Top 20
━━━━━━━━━━━━━━━━━━━━
🏆 综合能力 (Chatbot Arena Elo)
━━━━━━━━━━━━━━━━━━━━
🥇1. Claude Fable 5 — 1510
Anthropic最新旗舰模型,Arena综合排名第一。MMLU-Pro 91.5分,编码Elo高达1566,AAII指数81,在软件工程、知识工作和长程Agent任务上表现卓越。
🥈2. GPT-5.5 High — 1506
OpenAI高性能版旗舰,MMLU-Pro 89.6分,编码Elo 1561,AAII 76。推理与多模态能力均衡,是GPT-5.5系列中最强配置,支持1.1M超长上下文窗口。
🥉3. Claude Opus 4.7 Thinking — 1505
Anthropic深度思考版本,MMLU-Pro 90分,编码Elo 1560,AAII 76。长链推理和复杂问题解决能力突出,SWE-bench Verified达87.6%,适合高难度推理场景。
4. Gemini 3.1 Pro — 1505
Google旗舰模型,MMLU-Pro 91分,编码Elo 1531,AAII 76。多模态原生集成能力领先,知识面广且推理稳定,在Science Arena和200万上下文类别中领先。
5. Gemini 3.5 Flash — 1504
Google高效版模型,MMLU-Pro 91分,编码Elo 1535,AAII 74。以极快推理速度实现接近Pro级性能,SWE-bench Verified达78.8%,性价比极高。
6. Claude Opus 4.7 — 1503
Anthropic非思考版旗舰,MMLU-Pro 89.9分,编码Elo 1554,AAII 73。SWE-bench Verified达82.0%,响应速度更快,适合对延迟敏感的生产环境。
7. Claude Opus 4.6 Thinking — 1503
Anthropic上一代思考版旗舰,MMLU-Pro 89.7分,编码Elo 1545,AAII 73。曾在2月成为首个横扫Arena三个子榜单的模型,综合表现稳定。
8. Grok 4.20 — 1496
xAI最新旗舰,MMLU-Pro 89.6分,编码Elo 1518,AAII 72。支持2M token超长上下文,实时信息获取能力突出,幻觉率仅22%。
9. GPT-5.4 High — 1495
OpenAI次新旗舰高性能版,MMLU-Pro 88.5分,编码Elo 1538,AAII 73。Code Arena达1538 Elo,SWE-bench Pro达59.1%标准化最高。
10. Gemini 3 Pro — 1492
Google前代旗舰,MMLU-Pro 90分,编码Elo 1501,AAII 73。Vision Arena表现突出,拥有强大多模态推理能力和1M token上下文窗口。
11. Claude Opus 4.6 — 1490
Anthropic稳定版旗舰,MMLU-Pro 89.5分,编码Elo 1535,AAII 71。经过长期验证的可靠模型,BenchLM综合86分,企业级应用的首选之一。
12. Muse Spark — 1489 ⚠️Preliminary
Meta最强闭源模型,MMLU-Pro 87.3分,编码Elo 1493,AAII 71。原生多模态推理模型,支持视觉链式思考和多Agent协作,目前以私有预览形式提供。
13. Qwen 3.7 Max — 1486
阿里云最新旗舰,MMLU-Pro 89.6分,编码Elo 1505,AAII 72。中文能力业界领先,多语言和代码生成表现优异,SWE-bench Verified达80.4%。
14. Grok 4.1 Thinking — 1482
xAI思考版模型,MMLU-Pro 89分,编码Elo 1483,AAII 70。深度推理能力增强,适合需要多步骤思考的复杂任务,支持实时信息检索。
15. ERNIE 5.1 — 1475
百度最新旗舰,MMLU-Pro 87.1分,编码Elo 1495,AAII 71。中文理解与生成能力突出,在中文NLP任务上表现强劲。
16. Gemini 3 Flash — 1470
Google轻量级模型,MMLU-Pro 89分,编码Elo 1469,AAII 71。提供128万token超长上下文窗口,速度与性能的最佳平衡点。
17. Claude Opus 4.5 Thinking — 1468
Anthropic经典思考版,MMLU-Pro 89.5分,编码Elo 1510,AAII 70。SWE-bench Verified 80.9%,是老一代模型中表现最稳定的之一。
18. Claude Sonnet 4.6 Thinking — 1467
Anthropic中端思考版,MMLU-Pro 88分,编码Elo 1511,AAII 71。编码Elo甚至超过部分旗舰模型,以$3/$15定价提供极高性价比。
19. GLM-5.1 ✅ — 1467
智谱AI 754B参数开源模型,MIT许可证。MMLU-Pro 87.1分,编码Elo 1506,是Arena Elo最高的开源模型,与闭源模型并列第18位。
20. DeepSeek V4 Pro ✅ — 1467
DeepSeek 1.6T参数MoE模型(49B活跃),MIT许可证。MMLU-Pro 87.5分,编码Elo 1491,1M上下文窗口,以极低成本提供接近顶级的综合能力。
💻 代码能力 (SWE-bench Verified %)
━━━━━━━━━━━━━━━━━━━━
🥇1. Claude Mythos 5 — 95.5%
Anthropic代码专精模型,当前软件工程基准的绝对王者。BenchLM综合99分全场第一,专为复杂代码修复和长程工程任务设计,具备超长自主工作能力。
🥈2. Claude Fable 5 — 95.0%
Anthropic通用旗舰模型,代码修复能力仅次Mythos 5。BenchLM综合96分,集成全新安全分类器和回退机制,SWE-bench Pro达80.3%排名第一。
🥉3. Claude Opus 4.8 — 88.6%
Anthropic新一代Opus,SWE-bench Pro达69.2%同样领先。支持"动态工作流"处理超大规模问题,在Humanity's Last Exam中得分57.9%排名第一。
4. Claude Opus 4.7 (Adaptive) — 87.6%
Anthropic自适应版Opus 4.7,能根据任务复杂度动态调整推理深度。SWE-bench Pro达64.3%,在中等难度工程任务上效率极高。
5. GPT-5.3 Codex — 85.0%
OpenAI代码专精模型,SWE-bench Pro约90%。专为软件工程优化,首个被归类为"High Autonomy"的模型,Agent编码能力业界领先。
6. Claude Opus 4.5 — 80.9%
Anthropic经典旗舰,Aider Polyglot上达89.4%。虽为上一代模型,代码修复能力依然超过绝大多数最新竞品。
7. Claude Opus 4.6 — 80.8%
Anthropic稳定版旗舰,BenchLM综合86分。SWE-bench Pro达51.9%,曾在Arena三个子榜单同时排名第一。
8. DeepSeek V4 Pro (Max) ✅ — 80.6%
DeepSeek最强开源配置,1.6T MoE架构,LiveCodeBench达93.5分超越多数闭源模型。MIT许可证可自由商用,开源代码能力的天花板。
9. MiniMax M3 ✅ — 80.5%
MiniMax六月新发布的开源模型,上线即跻身开源代码能力前三。1M上下文窗口,SWE-bench Pro 75.8%惊人表现,新锐黑马。
10. Qwen 3.7 Max — 80.4%
阿里云最新旗舰,首次在SWE-bench上突破80%。中文代码任务表现突出,在多语言编程和项目级代码理解上有独特优势。
11. Kimi K2.6 ✅ — 80.2%
Moonshot AI开源旗舰,1T MoE/32B激活参数。SWE-bench Pro达58.6%开源最高,LiveCodeBench 89.6分,原生支持300子Agent集群协作。
12. GPT-5.2 — 80.0%
OpenAI稳定版模型,SWE-bench Pro 55.6%。综合编码能力均衡,在算法竞赛和系统编程方面表现可靠。
13. Claude Sonnet 4.6 — 79.6%
Anthropic中端模型,以$3/$15定价提供接近旗舰的代码修复能力。适合CI/CD集成等高频代码辅助场景,性价比极高。
14. DeepSeek V4 Pro (High) ✅ — 79.4%
DeepSeek高配版开源模型,1M上下文。SWE-bench Verified 79.4%,LiveCodeBench 88.7分,成本仅为闭源模型的一小部分。
15. DeepSeek V4 Flash (Max) ✅ — 79.0%
DeepSeek Flash系列最强配置,284B MoE/13B激活参数。LiveCodeBench达91.6分,以极低推理成本实现接近Pro级的代码能力。
16. Qwen 3.6 Plus — 78.8%
阿里云通义千问3.6增强版,中文编程理解能力强。在多语言代码生成中表现均衡,适合中国开发者使用。
17. DeepSeek V4 Flash (High) ✅ — 78.6%
DeepSeek Flash高配版,保持高推理速度的同时接近80%的SWE-bench水平。MIT许可,推理速度快且成本低,适合高并发场景。
18. MiMo V2 Pro ✅ — 78.0%
小米1.02T参数MoE模型(42B活跃),SWE-bench Pro达57.2%。6:1 SWA/GA混合注意力架构,KV-cache减少7倍,token效率高40-60%。
19. GLM-5 ✅ — 77.8%
智谱AI开源模型,MIT许可。AIME 2025达98分,MMLU 96分,GPQA 94分,数学推理驱动的高难度代码任务上有独特优势。
20. Qwen 3.7 Plus — 77.7%
阿里云通义千问3.7增强版,多语言编程支持全面。相比Max版本在性价比上更具优势,适合中等复杂度的代码任务。
🔓 开源模型 (BenchLM综合 / Arena Elo)
━━━━━━━━━━━━━━━━━━━━
🥇1. DeepSeek V4 Pro (Max) — 86分 / Elo 1467 (MIT)
1.6T MoE/49B激活参数,1M上下文窗口。SWE-bench Verified 80.6%,LiveCodeBench 93.5分,AIME 2026 96.4%,GPQA 90.5%。当前开源模型综合能力最强、代码能力也最突出的双料冠军。
🥈2. GLM-5.1 — 82分 / Elo 1467 (MIT)
智谱AI新一代旗舰,744B参数(40B活跃),203K上下文。MMLU 96分,SWE-bench Pro达58.4%开源第二,Terminal-Bench 63.5%,编码能力较前代显著提升。
🥉3. DeepSeek V4 Pro (High) — 82分 / Elo 1467 (MIT)
DeepSeek V4 Pro高配版,1M上下文。SWE-bench Verified 79.0%,LiveCodeBench 88.7分,与Max版本共享核心架构,API约$0.44/$0.87每百万token。
4. Kimi K2.6 — 81分 / Elo 1466 (Modified MIT)
Moonshot AI旗舰模型,1T MoE/32B激活参数,256K上下文。SWE-bench Verified 80.2%,SWE-bench Pro 58.6%开源最高,原生支持300子Agent集群协作。
5. MiniMax M3 — 79分 / ⚠️Preliminary (开放权重)
MiniMax六月新发布的开源模型,1M上下文。SWE-bench Verified 80.5%,SWE-bench Pro 75.8%惊人表现,上线即跻身开源前五。
6. GLM-5 (Reasoning) — 79分 / Elo 1452 (MIT)
智谱AI推理专精版,744B参数,200K上下文。AIME 2025: 98分,HMMT 2025: 95分,MMLU 96分,GPQA 94分,数学和深度推理最强的开源模型。
7. Qwen 3.5 397B (Reasoning) — 77分 / Elo 1450 (Apache 2.0)
阿里云推理版,397B总参/17B活跃MoE架构,128K上下文。MMLU 91分,GPQA 89分,AIME 2025: 94分,Apache 2.0许可证完全开放。
8. DeepSeek V4 Flash (Max) — 74分 / Elo 1445 (MIT)
DeepSeek Flash系列最强配置,284B/13B MoE架构,1M上下文。LiveCodeBench 91.6分,以极低推理成本实现优秀的代码能力。
9. Qwen 3.6 27B — 72分 / ⚠️Preliminary (Apache 2.0)
阿里云27B Dense密度模型,262K上下文。在Agentic Coding基准上超越参数量大15倍的Qwen3.5-397B,单卡18GB GPU可本地运行。
10. DeepSeek V4 Flash (High) — 71分 / Elo 1445 (MIT)
DeepSeek Flash高配版,284B/13B MoE架构,1M上下文。SWE-bench Verified 78.6%,推理速度快且成本低,是高并发场景的理想选择。
11. Nemotron 3 Ultra — 68分 / Elo 1418 (NVIDIA Open)
NVIDIA 550B总参/55B激活MoE模型,1M上下文。NVIDIA Open许可证,在GPU优化推理场景下有独特优势,企业部署友好。
12. GLM-4.7 — 68分 / Elo 1445 (MIT)
智谱AI上一代旗舰,355B参数(32B活跃),200K上下文。HMMT 2025达97.1%,MGSM 94分多语言数学开源领先,SWE-bench Verified 73.8%。
13. GLM-5 — 67分 / ⚠️Preliminary (MIT)
智谱AI GLM-5非推理版,744B参数,200K上下文。相比Reasoning版本侧重通用对话能力,SWE-bench Verified 77.8%。
14. Qwen 3.5 35B-A3B — 65分 / ⚠️Preliminary (Apache 2.0)
阿里云高效MoE模型,35B总参仅3B激活,262K上下文。极低激活参数量下性能密度极高,适合边缘部署。
15. Kimi K2.5 (Thinking) — 63分 / Elo 1451 (Modified MIT)
Moonshot AI前代推理版,1T参数(32B活跃),262K上下文。GPQA Diamond 87.6%开源最高,AIME 2025: 96.1%,HumanEval达99%。
16. Qwen 3.5 122B-A10B — 63分 / ⚠️Preliminary (Apache 2.0)
阿里云高效MoE模型,122B总参仅10B激活,262K上下文。SWE-bench Verified 72.0%,在极低计算开销下保持竞争力。
17. Qwen 3.5 397B — 62分 / ⚠️Preliminary (Apache 2.0)
阿里云Qwen3.5标准版,397B总参/17B活跃MoE架构,128K上下文。非推理版基础大模型,适合微调和定制化场景。
18. Qwen 3.5 27B — 61分 / ⚠️Preliminary (Apache 2.0)
阿里云轻量级模型,27B参数,262K上下文。在27B量级中表现优异,是本地部署和教学研究的理想选择。
19. DeepSeek V3.2 (Thinking) — 60分 / Elo 1422 (MIT)
DeepSeek前代推理模型,685B参数(37B活跃),130K上下文。SWE-bench Verified 67.8%,是经过长期验证的成熟开源方案。
20. Gemma 4 31B — 59分 / Elo ~1449 (Apache 2.0)
Google 31B Dense密度模型,256K上下文。LiveCodeBench达80分(31B级别最强),单卡H100可运行,100+语言预训练。
━━━━━━━━━━━━━━━━━━━━
📋 小结:榜单连续三日保持稳定,Top 5排序未变——Claude Fable 5(1510)、GPT-5.5 High(1506)、Claude Opus 4.7 Thinking(1505)、Gemini 3.1 Pro(1505)、Gemini 3.5 Flash(1504)构成"1500 Elo俱乐部"。代码榜Anthropic包揽前三格局稳固,Mythos 5/Fable 5双双维持95%+。开源榜出现微妙变化:GLM-5.1升至82分与DeepSeek V4 Pro High并列第二,MiniMax M3以79分首进前五;中国模型在开源Top 10中占
据8席,开源与闭源差距持续收窄。
(点个关注呗!)

夜雨聆风