乐于分享
好东西不私藏

光4月就7个重磅AI模型扎堆发布,实力和价格到底谁在打谁?

光4月就7个重磅AI模型扎堆发布,实力和价格到底谁在打谁?

光4月这一个月发的新模型,比过去半年都多。

太颠了!

我花了一周把这些模型的能力、价格、真实用户反馈全扒了一遍,就为了搞清楚一件事。

我们到底该选谁。

四月疯了

先给你感受一下4月有多离谱。

4月7号,智谱发布GLM-5.1,754B参数MoE架构,MIT开源,SWE-bench Pro拿到58.4%,是在该榜单登顶的开源模型之一。

4月14号,OpenAI出了GPT-5.4-Cyber安全专版。

4月16号,Anthropic再发Claude Opus 4.7。

4月20号,月之暗面开源Kimi K2.6,SWE-bench Pro 58.6%,开源代码能力新高度。

4月23号,OpenAI放GPT-5.5。

4月24号,DeepSeek开源V4。

4月28号,小米MiMo-V2.5-Pro正式MIT开源,TTS、ASR、多模态全栈Agent一次到位。

你数数,一个月内七个重磅模型密集发布。

我翻了翻历史记录,2025年全年都没有这么密集的节奏。

OpenAI从GPT-5.4到GPT-5.5只用了6周,以前一个版本迭代起码三四个月。

这不是内卷,这是军备竞赛。

而且这次格局跟以前不一样了。

以前说三足鼎立,OpenAI在agentic coding领先,Anthropic在代码修复领先,Google在超长上下文领先。

但现在第四股力量来了。

GLM-5.1拿到58.4%,Kimi K2.6拿到58.6%,都超过了GPT-5.4的57.7%。

模型各有各的绝活,但谁强谁弱不能靠嘴说。下面我用五个硬核 benchmark + 价格来拆解。

用数据打一架

光说主观感受没意思,看数据。

SWE-bench Pro是代码修复能力的硬核测试,Claude Opus 4.7以64.3%拿下公开可用的模型中最高分。

Kimi K2.6和GPT-5.5都是58.6%并列第二,GLM-5.1以58.4%紧随其后。

两个国产开源模型超过了GPT-5.4的57.7%,DeepSeek V4-Pro 55.4%。

MiMo-V2.5-Pro拿到57.2%,也是开源阵营的有力竞争者。

DeepSeek V4-Flash 52.6%,作为轻量模型能有这个成绩相当可以。

Gemini 3.1 Pro 54.2%,在代码修复上不是它的主战场。

另外,Claude Sonnet 4.6在SWE-bench Verified拿到79.6%,豆包Seed 2.0 Pro拿到76.5%,不过Verified和Pro评测标准不同,图表中已用条纹区分。

这在半年前不可想象。

值得一提的是,Claude Opus 4.7不仅在SWE-bench Pro拿到了公开可用的模型中最高分,CursorBench从58%跳到70%,Cursor联合创始人直接发推说「very impressive coding model」。

不过要注意,新tokenizer会导致相同文本多消耗1.0到1.35倍的tokens,实际费用可能多了35%。

Terminal-Bench 2.0是终端自动化测试,GPT-5.5以82.0%遥遥领先。

其他的你就直接看图吧,更加直观

其中豆包Seed系列、GLM-5.1、Qwen Flash等暂无公开的Terminal-Bench成绩。

所以就没加进来

两个测试,两个不同的王。

但GPT-5.5也有隐患:Apollo Research发现它在29%的测试样本中会谎报完成了不可能的任务,GPT-5.4只有7%。

在生产环境里,一个会说谎的Agent比一个能力差的Agent更危险。

推理能力GPQA Diamond,Gemini 3.1 Pro 94.3%微弱优势领先,Claude Opus 4.7 94.2%第二,GPT-5.5 93.6%第三。

前三的差距不到一个百分点,说明顶级模型在推理能力上已经趋于饱和。

DeepSeek V4-Pro 90.1%,DeepSeek V4-Flash 88.1%,GLM-5.1 86.2%。

没错,ds的v4 flash比glm-5.1还要高!

因为GPQA 考的是推理链深度,不是参数量。V4-Flash 的 Think Max 模式可以投入更多推理 token,加上 MoE + Muon 优化器架构改进,推理效率很高。

至于Claude Haiku 4.5、Claude Sonnet 4.6、GPT-5.4、Kimi K2.6、MiMo-V2.5-Pro、豆包Seed系列、Qwen Flash暂无公开的GPQA成绩。

抽象推理ARC-AGI-2,GPT-5.5以85.0%大幅领先,第二名77.1%,差了8个百分点。

工具编排MCP Atlas

网络搜索BrowseComp

这两个测试目前只有部分模型有公开成绩,Claude Haiku 4.5、Claude Sonnet 4.6、GPT-5.4、Kimi K2.6、MiMo-V2.5-Pro、豆包Seed系列、Qwen Flash等暂未参与评测。

也直接看图吧

所以你看,没有一个模型在所有维度都拿头名。

GPT-5.5在agentic coding和抽象推理强。

Claude Opus 4.7在代码修复和工具编排强。

Gemini 3.1 Pro在推理和搜索强。

国产模型在SWE-bench Pro和性价比上撕开了一道口子。

这也是为什么现在主流团队都开始用多模型策略了。

价格跌到你不敢信

聊能力不聊价格是耍流氓。

先说个大背景,API价格在过去两年里跌了大约80%。

2024年中旬GPT-4 Turbo输出$30/百万tokens。现在GPT-5.5也是$30,但能力强了不知道多少倍。

更夸张的是DeepSeek V4-Flash,$0.14/$0.28。你跑一整天可能都花不了一杯咖啡钱。

2026年5月当前主流模型的输出价格,我拉了三个梯队。

极致性价比区,输出$0.28到$4.00。

DeepSeek V4-Flash $0.28,豆包Seed 2.0 Mini $0.31,Qwen Flash $0.40,豆包Seed 2.0 Pro $2.37,MiMo-V2.5-Pro $3.00(海外API输出价),DeepSeek V4-Pro $3.48,GLM-5.1 $3.50,Kimi K2.6 $4.00。

均衡旗舰区,输出$5到$25。

Claude Haiku 4.5 $5,Gemini 3.1 Pro $12到$18,Claude Sonnet 4.6 $15,GPT-5.4 $15,Claude Opus 4.7 $25。

顶级旗舰区,输出$30及以上。

GPT-5.5 $30,GPT-5.5 Pro $180。

比较骚的是GLM-5.1输出$3.50,只有Claude Opus 4.7的七分之一,但SWE-bench Pro成绩58.4%对比64.3%,差了不到6个百分点。

豆包Seed 2.0 Pro更狠,输出$2.37,只有Opus的十分之一。

如果你是个人开发者或者创业团队,花十分之一的价钱拿到大约90%的代码修复能力,这个性价比太离谱了。

你到底该选谁

最后聊关键问题,不同场景怎么选。

复杂编程和代码审查,Claude Opus 4.7。SWE-bench Pro公开可用的模型中最高分,MCP Atlas头名,复杂多步骤编程场景下最稳。

但如果你是做终端自动化、DevOps这类agentic coding,GPT-5.5领先幅度很大,Terminal-Bench 82.0%不是开玩笑的。

预算充足的话,推荐Claude Opus 4.7加GPT-5.5双栈。

其他各种方面我也直接用图表来概括好了,有问题直接在评论区提问吧

回到开头说的那个事。

四月这一个月干的事,比过去半年都多。

是多方混战带来的价格战,是你的选择比以往任何时候都多。

你现在在用哪个模型写代码?评论区聊聊你的体验,看看大家都在用什么组合。

以上,如果觉得对你有帮助,随手点个赞、在看、转发三连吧。

我是大林,我们,下次再见。