主流 AI 模型实测深度对比(二)— 新模型入局,格局生变

文章背景：本文是《主流 AI 模型实测深度对比》系列第二篇。第一篇发布于 2026 年 3 月，覆盖 8 个模型；本次新增 6 个模型实测，并对部分模型进行了版本升级后的复测。两篇互为补充，建议结合阅读。

测评说明：本文基于我们内部工程化 AI 执行框架的实际运行结果，测评时间为 2026 年 4-5 月。模型版本快速迭代，实际表现可能随版本更新而变化。建议针对具体业务场景进行二次验证。

一、测评概览

本次测评目标

第一篇发布后，模型市场又迎来一波密集更新——GPT 5.5、Deepseek V4 pro、Opus 4.7、GLM 5.1、小米 MiMo 系列相继登场。这次测评我们重点解决三个问题：

新入局的模型（GPT 5.5、Deepseek V4 pro、MiMo 系列）能不能打？

已有模型升级后（Opus 4.6→4.7、Gemini 2.5→3.1、GLM 5→5.1），表现是进还是退？

综合全部 14 个模型的实测数据，格局有没有根本性变化？

测评框架说明

测评阶段	定位	核心测评维度	新增参测模型
复杂项目测评	大型工程任务落地	项目代码分析质量、API/代码完整度、流程稳定性	GPT 5.5、Deepseek V4 pro、Opus 4.7、GLM 5.1、MiMo-V2-pro、MiMo-V2.5-pro
轻量任务测评	简单任务一次性生成	一次性生成代码成功率、bug 率、UI 完整度	Gemini 3.1 pro（升级复测）

二、新增模型测评

2.1 测评排名

本次新增 6 个模型在复杂项目中的排名：

GPT 5.5 ≈ Opus 4.6 ＞ Deepseek V4 pro ＞ MiMo-V2-pro ＞ Opus 4.7 ＞ MiMo-V2.5-pro

GLM 5.1：未完成（陷入循环）

评分说明：Opus 4.6 和 GPT 5.5 知识库评分差距仅 0.75 分，综合实力极为接近，并列第一梯队。Opus 4.7 虽为 Opus 系列最新版，但表现严重下滑，单独分析。

2.2 逐模型详细分析

🥇 GPT 5.5（OpenAI）— 新王登基

模型简介：GPT 5.5 是 OpenAI 在 GPT-5 系列后的重大迭代版本，重点强化了长上下文推理和代码生成能力。相比 GPT-5，5.5 版在工具调用准确性和多步骤指令跟随上有显著进步，定位旗舰级通用模型。

注意:

1.自主执行稳定性略逊 Opus 4.6

2.API 成本较高

3.国内直连需代理

知识库生成评分：95.04 / 100

GPT 5.5 是这次测评最大的惊喜。知识库生成质量 95.04 分，仅次于 GLM 5 的 95.95，但设计文档对比环节拿到 94 分，综合来看是所有模型里最均衡的选手——没有明显短板。跟 Opus 4.6 放一起看：Opus 知识库 94.29 分略低，但 Opus 的优势在于流程执行稳定性更强，长链路自主跑下来几乎不翻车。GPT 5.5 在设计阶段的表现更突出，但自主执行的"稳如老狗"程度还差 Opus 一线。两者并列第一梯队，各有所长。

关键发现：GPT 5.5 的加入让第一梯队从"双雄"变成"三强"。Opus 4.6 执行最稳、GPT 5.5 设计最强、Sonnet 4.6 性价比最优——三者各有不可替代的场景价值。

🥈 Deepseek V4 pro（深度求索）— 国产新势力

模型简介：Deepseek V4 pro 是深度求索推出的最新旗舰模型，在推理深度和代码生成上有较大提升。V4 pro 定位高端工程场景，但目前主要通过 Qoder 客户端提供使用，独立 API 调用尚在完善中。

优势:

1.知识库质量国产最高

2.94.21 分逼近 Opus 4.6

3.推理深度表现优秀

知识库生成评分：94.21 / 100

94.21 分，直接杀进第一梯队，比 Opus 4.6 的 94.29 只差 0.08 分。单看知识库质量，Deepseek V4 pro 已经是国产最高水平，跟国际顶尖选手站在同一条线上。但有个现实问题：目前只能在 Qoder 客户端里用，自主 API 调用链路还不成熟。在工程框架内直接跑的能力受限，产物完整性倒是没问题，就是使用门槛偏高。等 API 独立可用之后，这个模型的排名大概率还会往上走。

限制:

1.目前需 Qoder 客户端使用

2.独立 API 调用链路不成熟

3.框架内自主执行受限

🏅 MiMo-V2-pro（小米）— 中规中矩

模型简介：MiMo-V2-pro 是小米自研大模型的升级版本，主打轻量高效。V2-pro 相比 V1 在代码生成和指令跟随上有改进，但整体定位偏中端，面向通用辅助场景。

知识库生成评分：89 / 100

89 分，放在全部模型里算中游偏上，比 Kimi 2.5 的 87.1 分稍高，但距离第一梯队还有明显差距。生成内容有一定深度，但和 Opus/GPT 这个级别的模型比，细节精度和逻辑连贯性都差了一档。作为小米的第一代自研模型，这个分数不算丢人，但也确实还不能用来扛复杂工程任务的大梁。

综合评价：89 分属于"能用但不够强"的水准。中端定位、中端表现，符合预期。期待后续版本的进化。

MiMo-V2.5-pro（小米）— 跳步严重

模型简介：MiMo-V2.5-pro 是 MiMo-V2-pro 的迭代版本，理论上应强于 V2-pro。但实际测试中出现了明显的执行问题。

知识库生成评分：未完成有效评分V2.5-pro 的问题非常典型：执行时间短，大量步骤被简略执行或直接跳过。看上去是在"赶进度"，实际上关键步骤没做到位，产出的内容深度和完整性都大打折扣。这跟 Gemini 在复杂任务里的"虚假执行"问题有点像，但 MiMo-V2.5-pro 更像是模型本身的指令跟随能力不足以支撑长流程任务。

警告：MiMo-V2.5-pro 在复杂长流程任务中存在严重的步骤跳过问题。迭代版本反而不如 V2-pro 稳定，建议优先使用 V2-pro 版本。

Opus 4.7（Anthropic）— 旗舰翻车

模型简介：Claude Opus 4.7 是 Anthropic 在 Opus 4.6 之后发布的最新旗舰版本。按常理，新版本应该更强——但实测结果令人大跌眼镜。

知识库生成评分：60.48 / 100

从 Opus 4.6 的 94.29 分暴跌到 60.48 分，降幅超过33 分。这不是"略有退步"，这是"从冠军变倒数"级别的崩塌。生成内容深度骤降，结构松散，关键信息缺失，跟第一篇测评中"几乎不需要人工介入"的 Opus 4.6 判若两模。我们反复确认了版本号和配置，没有误测。

核心警示：Opus 4.7 的翻车给整个行业敲了一记警钟——模型版本号越高 ≠ 能力越强。在生产环境中，新版本上线前必须进行充分的回归测试，不能想当然地"升级即提升"。

GLM 5.1（智谱 AI）— 上下文陷阱

模型简介：GLM 5.1 是智谱 AI 在 GLM 5 之后的迭代版本。理论上应对 GLM 5 的短板（编码能力、复杂推理）进行补强，但实测结果出乎意料。

结果：陷入循环，无法完成知识库生成流程GLM 5.1 在知识库生成流程中反复陷入重复输出的死循环，完全无法推进任务。核心原因是上下文窗口太短——复杂工程任务需要长上下文来维持多步骤执行的一致性，上下文一短，模型就容易"忘记自己在做什么"，然后原地打转。

综合评价：GLM 5.1 在当前版本下完全无法胜任复杂工程任务的自主执行。上下文窗口不足是致命短板，这不是"略差"的问题，是"根本跑不通"的问题。建议生产环境继续使用 GLM 5。

三、版本升级复测

3.1 Gemini 2.5 Pro → 3.1 Pro

Gemini 从 2.5 升级到 3.1，复杂项目知识库评分依然是36.3 / 100，与第一篇测评完全一致。升级了个寂寞。虚假执行、429 限流、幻觉严重——第一篇里提的问题一个没解决。这说明 Gemini 在 Agent 自主执行这条路线上，底层架构可能存在系统性障碍，不是简单版本迭代就能修复的。但简单任务中，Gemini 3.1 Pro 仍然表现优秀——一次性生成零 bug，和 GLM 5 并列第一。这进一步强化了我们在第一篇中的结论：Gemini 的能力和任务复杂度高度相关，简单场景很强，复杂流程就崩。

3.2 GLM 5 → GLM 5.1

如上文详细分析，GLM 5.1 因上下文窗口不足陷入循环，完全无法跑通复杂流程。从"国产最强"到"跑不通"，一步退到底。生产环境务必使用 GLM 5 而非 5.1。

3.3 Opus 4.6 → Opus 4.7

最令人震惊的升级结果。Opus 4.7 从 94.29 分暴跌至 60.48 分，属于严重的质量倒退。生产环境强烈建议保持 Opus 4.6，暂不升级至 4.7。

升级警示总结：本轮复测的三个升级版本（Gemini 3.1、GLM 5.1、Opus 4.7），无一例外都没有进步，两个严重退步、一个原地踏步。新版本上线前务必回归测试，盲目升级是工程化场景的大忌。

四、更新后的综合总排名

4.1 复杂项目综合排名（全部 14 个模型）

GPT 5.5 ≈ Opus 4.6 ＞ Sonnet 4.6 ＞ Deepseek V4 pro ＞ GLM 5 ＞ MiMo-V2-pro

＞ Kimi 2.5 ＞ Sonnet 4.5 ＞ Opus 4.7 ＞ Composer 2 ＞ Minimax m2.5

＞ Gemini 3.1 pro ＞ Doubao seed 2.0 ＞ Qwen 3 max

GLM 5.1 / MiMo-V2.5-pro：未能完成完整流程

4.2 综合排名总表

模型	知识库评分	综合排名	主要问题	推荐指数
GPT 5.5	95.04 / 100	🥇 并列第 1	执行稳定性略逊 Opus 4.6	⭐⭐⭐⭐⭐
Claude Opus 4.6	94.29 / 100	🥇 并列第 1	成本较高	⭐⭐⭐⭐⭐
Claude Sonnet 4.6	87 / 100（整体）	🥈 第 3	无明显问题	⭐⭐⭐⭐⭐
Deepseek V4 pro	94.21 / 100	第 4	需 Qoder 客户端，API 未独立	⭐⭐⭐⭐
GLM 5	95.95 / 100	🏅 第 5	编码能力弱于 Sonnet	⭐⭐⭐⭐
MiMo-V2-pro	89 / 100	第 6	中规中矩，无突出亮点	⭐⭐⭐
Kimi 2.5	87.1 / 100	第 7	SSL 问题、输出位置错误	⭐⭐⭐
Claude Sonnet 4.5	85 / 100（估）	第 8	已被 Sonnet 4.6 完全替代	⭐⭐⭐
Claude Opus 4.7	60.48 / 100	第 9 ⚠️	严重退步，质量暴跌	⭐⭐
Composer 2	66.44 / 100（D 级）	第 10	内容简略、稳定性差	⭐⭐
Minimax m2.5	47.93 / 100	第 11	耗时 5 小时，质量差	⭐
Gemini 3.1 pro	36.3 / 100	第 12	幻觉严重、虚假执行	⭐
Doubao seed 2.0	bug 极多	第 13	基本无法直接使用	⭐
Qwen 3 max	未完成	第 14	无法完整跑通流程	⭐
GLM 5.1 / MiMo-V2.5-pro	未完成	—	循环/跳步，无法跑通	⭐

4.3 轻量项目排名（更新）

GLM 5 ≈ Gemini 3.1 Pro >> Doubao seed 2.0

与第一篇结论一致，Gemini 升级到 3.1 后在简单任务中的表现没有变化，仍然是零 bug 一次通过。Doubao seed 2.0 依然是 bug 重灾区。

五、深度洞察

5.1 "新版本 = 更强"是个危险假设

本轮测评最核心的发现，不是哪个新模型多强，而是三个升级版本全部没有进步：

升级路径	旧版评分	新版评分	变化
Opus 4.6 → 4.7	94.29	60.48	🔴 暴跌 33.8 分
GLM 5 → 5.1	95.95	未完成	🔴 无法跑通
Gemini 2.5 → 3.1	36.3	36.3	🟡 零进步

给工程团队的忠告：模型版本升级绝不等于能力提升。在 AI 工程化场景中，新版本上线前必须进行与业务场景匹配的回归测试。Opus 4.7 这种级别的退步，如果盲目升级到生产环境，后果不堪设想。

5.2 第一梯队扩容：从双雄到三强

第一篇发布时，第一梯队只有 Opus 4.6 和 Sonnet 4.6。GPT 5.5 的加入让格局变成三强：

Opus 4.6: 执行最稳，长链路自主跑下来几乎不翻车，工程化场景的"定海神针"

GPT 5.5: 设计最强，知识库+设计双高，综合最均衡的"全能选手"Sonnet 4.6性价比最优，覆盖 80% 以上工程场景的"日常主力"

5.3 国产模型的进与退

进步面：Deepseek V4 pro 以 94.21 分直接杀入第一梯队，是目前在知识库质量维度最接近国际顶尖的国产模型。如果 API 链路完善，它有潜力成为国产场景的首选。退步面：GLM 5.1 和 MiMo-V2.5-pro 的"升级翻车"，暴露了一个共同问题——上下文窗口和指令跟随能力是国产模型在工程化场景的核心瓶颈。GLM 5.1 因为上下文太短直接跑不通，MiMo-V2.5-pro 因为跳步导致产出深度不足。这说明国产模型在"理解"能力上已经追上来了（GLM 5 的 95.95 分就是证明），但在"自主执行长流程"这件事上，还有结构性差距。

5.4 选型决策框架

综合两篇测评数据，给工程团队的选型建议：

场景	首选	备选	不推荐
高价值复杂工程任务	Claude Opus 4.6	GPT 5.5	Opus 4.7、Gemini、Qwen
复杂任务 + 成本控制	Claude Sonnet 4.6	GLM 5 / Deepseek V4 pro	Doubao、Qwen 3 max
国内合规 + 复杂任务	GLM 5	Deepseek V4 pro（注意 API 限制）	GLM 5.1、Minimax
简单代码/界面生成	GLM 5 / Gemini 3.1 Pro	Claude Sonnet 4.6	Doubao seed 2.0
快速原型验证	Deepseek V4 pro	MiMo-V2-pro	MiMo-V2.5-pro、Composer 2

六、结论与展望

本次测评核心结论

GPT 5.5加入第一梯队，与Opus 4.6并列最强，但各有侧重——GPT 设计更强，Opus 执行更稳

Deepseek V4 pro是国产最强新势力，94.21 分逼近国际顶尖，API 独立后潜力巨大

Opus 4.7 严重翻车, 从 94.29 暴跌至 60.48，是本次最大意外，生产环境切勿盲目升级

GLM 5.1 / MiMo-V2.5-pro 均因上下文或指令跟随问题未能跑通，"升级翻车"现象值得行业警惕

Gemini 3.1 Pro 升级无效，复杂场景仍然不可用，但简单任务依然优秀

测评的最后，几个值得持续追踪的问题：

1. Opus 4.7 的退步是偶发还是趋势？

2. Anthropic 会不会紧急修复？下一个版本能否回到 4.6 的水平？

3. Deepseek V4 pro 的 API 何时独立可用？如果解决接入问题，国产模型格局可能重新洗牌

4. GLM 5.1 的上下文窗口问题会不会在后续版本解决？

5. 国产模型什么时候能真正扛住长流程自主执行？

6. MiMo 系列后续版本能否解决跳步问题？小米在 AI 模型赛道能走多远？