全球AI大模型最新排行榜

🤖 2026年6月14日 · AI大模型排行榜 Top 20

━━━━━━━━━━━━━━━━━━━━

🏆 综合能力 (Chatbot Arena Elo)

━━━━━━━━━━━━━━━━━━━━

🥇1. Claude Fable 5 — 1510

Anthropic最新旗舰模型，Arena综合排名第一。MMLU-Pro 91.5分，编码Elo高达1566，AAII指数81，在软件工程、知识工作和长程Agent任务上表现卓越。

🥈2. GPT-5.5 High — 1506

OpenAI高性能版旗舰，MMLU-Pro 89.6分，编码Elo 1561，AAII 76。推理与多模态能力均衡，是GPT-5.5系列中最强配置，支持1.1M超长上下文窗口。

🥉3. Claude Opus 4.7 Thinking — 1505

Anthropic深度思考版本，MMLU-Pro 90分，编码Elo 1560，AAII 76。长链推理和复杂问题解决能力突出，SWE-bench Verified达87.6%，适合高难度推理场景。

4. Gemini 3.1 Pro — 1505

Google旗舰模型，MMLU-Pro 91分，编码Elo 1531，AAII 76。多模态原生集成能力领先，知识面广且推理稳定，在Science Arena和200万上下文类别中领先。

5. Gemini 3.5 Flash — 1504

Google高效版模型，MMLU-Pro 91分，编码Elo 1535，AAII 74。以极快推理速度实现接近Pro级性能，SWE-bench Verified达78.8%，性价比极高。

6. Claude Opus 4.7 — 1503

Anthropic非思考版旗舰，MMLU-Pro 89.9分，编码Elo 1554，AAII 73。SWE-bench Verified达82.0%，响应速度更快，适合对延迟敏感的生产环境。

7. Claude Opus 4.6 Thinking — 1503

Anthropic上一代思考版旗舰，MMLU-Pro 89.7分，编码Elo 1545，AAII 73。曾在2月成为首个横扫Arena三个子榜单的模型，综合表现稳定。

8. Grok 4.20 — 1496

xAI最新旗舰，MMLU-Pro 89.6分，编码Elo 1518，AAII 72。支持2M token超长上下文，实时信息获取能力突出，幻觉率仅22%。

9. GPT-5.4 High — 1495

OpenAI次新旗舰高性能版，MMLU-Pro 88.5分，编码Elo 1538，AAII 73。Code Arena达1538 Elo，SWE-bench Pro达59.1%标准化最高。

10. Gemini 3 Pro — 1492

Google前代旗舰，MMLU-Pro 90分，编码Elo 1501，AAII 73。Vision Arena表现突出，拥有强大多模态推理能力和1M token上下文窗口。

11. Claude Opus 4.6 — 1490

Anthropic稳定版旗舰，MMLU-Pro 89.5分，编码Elo 1535，AAII 71。经过长期验证的可靠模型，BenchLM综合86分，企业级应用的首选之一。

12. Muse Spark — 1489 ⚠️Preliminary

Meta最强闭源模型，MMLU-Pro 87.3分，编码Elo 1493，AAII 71。原生多模态推理模型，支持视觉链式思考和多Agent协作，目前以私有预览形式提供。

13. Qwen 3.7 Max — 1486

阿里云最新旗舰，MMLU-Pro 89.6分，编码Elo 1505，AAII 72。中文能力业界领先，多语言和代码生成表现优异，SWE-bench Verified达80.4%。

14. Grok 4.1 Thinking — 1482

xAI思考版模型，MMLU-Pro 89分，编码Elo 1483，AAII 70。深度推理能力增强，适合需要多步骤思考的复杂任务，支持实时信息检索。

15. ERNIE 5.1 — 1475

百度最新旗舰，MMLU-Pro 87.1分，编码Elo 1495，AAII 71。中文理解与生成能力突出，在中文NLP任务上表现强劲。

16. Gemini 3 Flash — 1470

Google轻量级模型，MMLU-Pro 89分，编码Elo 1469，AAII 71。提供128万token超长上下文窗口，速度与性能的最佳平衡点。

17. Claude Opus 4.5 Thinking — 1468

Anthropic经典思考版，MMLU-Pro 89.5分，编码Elo 1510，AAII 70。SWE-bench Verified 80.9%，是老一代模型中表现最稳定的之一。

18. Claude Sonnet 4.6 Thinking — 1467

Anthropic中端思考版，MMLU-Pro 88分，编码Elo 1511，AAII 71。编码Elo甚至超过部分旗舰模型，以$3/$15定价提供极高性价比。

19. GLM-5.1 ✅ — 1467

智谱AI 754B参数开源模型，MIT许可证。MMLU-Pro 87.1分，编码Elo 1506，是Arena Elo最高的开源模型，与闭源模型并列第18位。

20. DeepSeek V4 Pro ✅ — 1467

DeepSeek 1.6T参数MoE模型（49B活跃），MIT许可证。MMLU-Pro 87.5分，编码Elo 1491，1M上下文窗口，以极低成本提供接近顶级的综合能力。

💻 代码能力 (SWE-bench Verified %)

━━━━━━━━━━━━━━━━━━━━

🥇1. Claude Mythos 5 — 95.5%

Anthropic代码专精模型，当前软件工程基准的绝对王者。BenchLM综合99分全场第一，专为复杂代码修复和长程工程任务设计，具备超长自主工作能力。

🥈2. Claude Fable 5 — 95.0%

Anthropic通用旗舰模型，代码修复能力仅次Mythos 5。BenchLM综合96分，集成全新安全分类器和回退机制，SWE-bench Pro达80.3%排名第一。

🥉3. Claude Opus 4.8 — 88.6%

Anthropic新一代Opus，SWE-bench Pro达69.2%同样领先。支持"动态工作流"处理超大规模问题，在Humanity's Last Exam中得分57.9%排名第一。

4. Claude Opus 4.7 (Adaptive) — 87.6%

Anthropic自适应版Opus 4.7，能根据任务复杂度动态调整推理深度。SWE-bench Pro达64.3%，在中等难度工程任务上效率极高。

5. GPT-5.3 Codex — 85.0%

OpenAI代码专精模型，SWE-bench Pro约90%。专为软件工程优化，首个被归类为"High Autonomy"的模型，Agent编码能力业界领先。

6. Claude Opus 4.5 — 80.9%

Anthropic经典旗舰，Aider Polyglot上达89.4%。虽为上一代模型，代码修复能力依然超过绝大多数最新竞品。

7. Claude Opus 4.6 — 80.8%

Anthropic稳定版旗舰，BenchLM综合86分。SWE-bench Pro达51.9%，曾在Arena三个子榜单同时排名第一。

8. DeepSeek V4 Pro (Max) ✅ — 80.6%

DeepSeek最强开源配置，1.6T MoE架构，LiveCodeBench达93.5分超越多数闭源模型。MIT许可证可自由商用，开源代码能力的天花板。

9. MiniMax M3 ✅ — 80.5%

MiniMax六月新发布的开源模型，上线即跻身开源代码能力前三。1M上下文窗口，SWE-bench Pro 75.8%惊人表现，新锐黑马。

10. Qwen 3.7 Max — 80.4%

阿里云最新旗舰，首次在SWE-bench上突破80%。中文代码任务表现突出，在多语言编程和项目级代码理解上有独特优势。

11. Kimi K2.6 ✅ — 80.2%

Moonshot AI开源旗舰，1T MoE/32B激活参数。SWE-bench Pro达58.6%开源最高，LiveCodeBench 89.6分，原生支持300子Agent集群协作。

12. GPT-5.2 — 80.0%

OpenAI稳定版模型，SWE-bench Pro 55.6%。综合编码能力均衡，在算法竞赛和系统编程方面表现可靠。

13. Claude Sonnet 4.6 — 79.6%

Anthropic中端模型，以$3/$15定价提供接近旗舰的代码修复能力。适合CI/CD集成等高频代码辅助场景，性价比极高。

14. DeepSeek V4 Pro (High) ✅ — 79.4%

DeepSeek高配版开源模型，1M上下文。SWE-bench Verified 79.4%，LiveCodeBench 88.7分，成本仅为闭源模型的一小部分。

15. DeepSeek V4 Flash (Max) ✅ — 79.0%

DeepSeek Flash系列最强配置，284B MoE/13B激活参数。LiveCodeBench达91.6分，以极低推理成本实现接近Pro级的代码能力。

16. Qwen 3.6 Plus — 78.8%

阿里云通义千问3.6增强版，中文编程理解能力强。在多语言代码生成中表现均衡，适合中国开发者使用。

17. DeepSeek V4 Flash (High) ✅ — 78.6%

DeepSeek Flash高配版，保持高推理速度的同时接近80%的SWE-bench水平。MIT许可，推理速度快且成本低，适合高并发场景。

18. MiMo V2 Pro ✅ — 78.0%

小米1.02T参数MoE模型（42B活跃），SWE-bench Pro达57.2%。6:1 SWA/GA混合注意力架构，KV-cache减少7倍，token效率高40-60%。

19. GLM-5 ✅ — 77.8%

智谱AI开源模型，MIT许可。AIME 2025达98分，MMLU 96分，GPQA 94分，数学推理驱动的高难度代码任务上有独特优势。

20. Qwen 3.7 Plus — 77.7%

阿里云通义千问3.7增强版，多语言编程支持全面。相比Max版本在性价比上更具优势，适合中等复杂度的代码任务。

🔓 开源模型 (BenchLM综合 / Arena Elo)

━━━━━━━━━━━━━━━━━━━━

🥇1. DeepSeek V4 Pro (Max) — 86分 / Elo 1467 (MIT)

1.6T MoE/49B激活参数，1M上下文窗口。SWE-bench Verified 80.6%，LiveCodeBench 93.5分，AIME 2026 96.4%，GPQA 90.5%。当前开源模型综合能力最强、代码能力也最突出的双料冠军。

🥈2. GLM-5.1 — 82分 / Elo 1467 (MIT)

智谱AI新一代旗舰，744B参数（40B活跃），203K上下文。MMLU 96分，SWE-bench Pro达58.4%开源第二，Terminal-Bench 63.5%，编码能力较前代显著提升。

🥉3. DeepSeek V4 Pro (High) — 82分 / Elo 1467 (MIT)

DeepSeek V4 Pro高配版，1M上下文。SWE-bench Verified 79.0%，LiveCodeBench 88.7分，与Max版本共享核心架构，API约$0.44/$0.87每百万token。

4. Kimi K2.6 — 81分 / Elo 1466 (Modified MIT)

Moonshot AI旗舰模型，1T MoE/32B激活参数，256K上下文。SWE-bench Verified 80.2%，SWE-bench Pro 58.6%开源最高，原生支持300子Agent集群协作。

5. MiniMax M3 — 79分 / ⚠️Preliminary (开放权重)

MiniMax六月新发布的开源模型，1M上下文。SWE-bench Verified 80.5%，SWE-bench Pro 75.8%惊人表现，上线即跻身开源前五。

6. GLM-5 (Reasoning) — 79分 / Elo 1452 (MIT)

智谱AI推理专精版，744B参数，200K上下文。AIME 2025: 98分，HMMT 2025: 95分，MMLU 96分，GPQA 94分，数学和深度推理最强的开源模型。

7. Qwen 3.5 397B (Reasoning) — 77分 / Elo 1450 (Apache 2.0)

阿里云推理版，397B总参/17B活跃MoE架构，128K上下文。MMLU 91分，GPQA 89分，AIME 2025: 94分，Apache 2.0许可证完全开放。

8. DeepSeek V4 Flash (Max) — 74分 / Elo 1445 (MIT)

DeepSeek Flash系列最强配置，284B/13B MoE架构，1M上下文。LiveCodeBench 91.6分，以极低推理成本实现优秀的代码能力。

9. Qwen 3.6 27B — 72分 / ⚠️Preliminary (Apache 2.0)

阿里云27B Dense密度模型，262K上下文。在Agentic Coding基准上超越参数量大15倍的Qwen3.5-397B，单卡18GB GPU可本地运行。

10. DeepSeek V4 Flash (High) — 71分 / Elo 1445 (MIT)

DeepSeek Flash高配版，284B/13B MoE架构，1M上下文。SWE-bench Verified 78.6%，推理速度快且成本低，是高并发场景的理想选择。

11. Nemotron 3 Ultra — 68分 / Elo 1418 (NVIDIA Open)

NVIDIA 550B总参/55B激活MoE模型，1M上下文。NVIDIA Open许可证，在GPU优化推理场景下有独特优势，企业部署友好。

12. GLM-4.7 — 68分 / Elo 1445 (MIT)

智谱AI上一代旗舰，355B参数（32B活跃），200K上下文。HMMT 2025达97.1%，MGSM 94分多语言数学开源领先，SWE-bench Verified 73.8%。

13. GLM-5 — 67分 / ⚠️Preliminary (MIT)

智谱AI GLM-5非推理版，744B参数，200K上下文。相比Reasoning版本侧重通用对话能力，SWE-bench Verified 77.8%。

14. Qwen 3.5 35B-A3B — 65分 / ⚠️Preliminary (Apache 2.0)

阿里云高效MoE模型，35B总参仅3B激活，262K上下文。极低激活参数量下性能密度极高，适合边缘部署。

15. Kimi K2.5 (Thinking) — 63分 / Elo 1451 (Modified MIT)

Moonshot AI前代推理版，1T参数（32B活跃），262K上下文。GPQA Diamond 87.6%开源最高，AIME 2025: 96.1%，HumanEval达99%。

16. Qwen 3.5 122B-A10B — 63分 / ⚠️Preliminary (Apache 2.0)

阿里云高效MoE模型，122B总参仅10B激活，262K上下文。SWE-bench Verified 72.0%，在极低计算开销下保持竞争力。

17. Qwen 3.5 397B — 62分 / ⚠️Preliminary (Apache 2.0)

阿里云Qwen3.5标准版，397B总参/17B活跃MoE架构，128K上下文。非推理版基础大模型，适合微调和定制化场景。

18. Qwen 3.5 27B — 61分 / ⚠️Preliminary (Apache 2.0)

阿里云轻量级模型，27B参数，262K上下文。在27B量级中表现优异，是本地部署和教学研究的理想选择。

19. DeepSeek V3.2 (Thinking) — 60分 / Elo 1422 (MIT)

DeepSeek前代推理模型，685B参数（37B活跃），130K上下文。SWE-bench Verified 67.8%，是经过长期验证的成熟开源方案。

20. Gemma 4 31B — 59分 / Elo ~1449 (Apache 2.0)

Google 31B Dense密度模型，256K上下文。LiveCodeBench达80分（31B级别最强），单卡H100可运行，100+语言预训练。

━━━━━━━━━━━━━━━━━━━━

📋 小结：榜单连续三日保持稳定，Top 5排序未变——Claude Fable 5(1510)、GPT-5.5 High(1506)、Claude Opus 4.7 Thinking(1505)、Gemini 3.1 Pro(1505)、Gemini 3.5 Flash(1504)构成"1500 Elo俱乐部"。代码榜Anthropic包揽前三格局稳固，Mythos 5/Fable 5双双维持95%+。开源榜出现微妙变化：GLM-5.1升至82分与DeepSeek V4 Pro High并列第二，MiniMax M3以79分首进前五；中国模型在开源Top 10中占

据8席，开源与闭源差距持续收窄。

(点个关注呗！)