
文章背景:本文是《主流 AI 模型实测深度对比》系列第二篇。第一篇发布于 2026 年 3 月,覆盖 8 个模型;本次新增 6 个模型实测,并对部分模型进行了版本升级后的复测。两篇互为补充,建议结合阅读。
测评说明:本文基于我们内部工程化 AI 执行框架的实际运行结果,测评时间为 2026 年 4-5 月。模型版本快速迭代,实际表现可能随版本更新而变化。建议针对具体业务场景进行二次验证。
一、测评概览
本次测评目标
第一篇发布后,模型市场又迎来一波密集更新——GPT 5.5、Deepseek V4 pro、Opus 4.7、GLM 5.1、小米 MiMo 系列相继登场。这次测评我们重点解决三个问题:
新入局的模型(GPT 5.5、Deepseek V4 pro、MiMo 系列)能不能打?
已有模型升级后(Opus 4.6→4.7、Gemini 2.5→3.1、GLM 5→5.1),表现是进还是退?
综合全部 14 个模型的实测数据,格局有没有根本性变化?
测评框架说明
| 测评阶段 | 定位 | 核心测评维度 | 新增参测模型 |
| 复杂项目测评 | 大型工程任务落地 | 项目代码分析质量、API/代码完整度、流程稳定性 | GPT 5.5、Deepseek V4 pro、Opus 4.7、GLM 5.1、MiMo-V2-pro、MiMo-V2.5-pro |
| 轻量任务测评 | 简单任务一次性生成 | 一次性生成代码成功率、bug 率、UI 完整度 | Gemini 3.1 pro(升级复测) |
二、新增模型测评
2.1 测评排名
本次新增 6 个模型在复杂项目中的排名:
GPT 5.5 ≈ Opus 4.6 > Deepseek V4 pro > MiMo-V2-pro > Opus 4.7 > MiMo-V2.5-pro
GLM 5.1:未完成(陷入循环)
评分说明:Opus 4.6 和 GPT 5.5 知识库评分差距仅 0.75 分,综合实力极为接近,并列第一梯队。Opus 4.7 虽为 Opus 系列最新版,但表现严重下滑,单独分析。
2.2 逐模型详细分析
🥇 GPT 5.5(OpenAI)— 新王登基
模型简介:GPT 5.5 是 OpenAI 在 GPT-5 系列后的重大迭代版本,重点强化了长上下文推理和代码生成能力。相比 GPT-5,5.5 版在工具调用准确性和多步骤指令跟随上有显著进步,定位旗舰级通用模型。
注意:
1.自主执行稳定性略逊 Opus 4.6
2.API 成本较高
3.国内直连需代理
知识库生成评分:95.04 / 100
GPT 5.5 是这次测评最大的惊喜。知识库生成质量 95.04 分,仅次于 GLM 5 的 95.95,但设计文档对比环节拿到 94 分,综合来看是所有模型里最均衡的选手——没有明显短板。跟 Opus 4.6 放一起看:Opus 知识库 94.29 分略低,但 Opus 的优势在于流程执行稳定性更强,长链路自主跑下来几乎不翻车。GPT 5.5 在设计阶段的表现更突出,但自主执行的"稳如老狗"程度还差 Opus 一线。两者并列第一梯队,各有所长。
关键发现:GPT 5.5 的加入让第一梯队从"双雄"变成"三强"。Opus 4.6 执行最稳、GPT 5.5 设计最强、Sonnet 4.6 性价比最优——三者各有不可替代的场景价值。
🥈 Deepseek V4 pro(深度求索)— 国产新势力
模型简介:Deepseek V4 pro 是深度求索推出的最新旗舰模型,在推理深度和代码生成上有较大提升。V4 pro 定位高端工程场景,但目前主要通过 Qoder 客户端提供使用,独立 API 调用尚在完善中。
优势:
1.知识库质量国产最高
2.94.21 分逼近 Opus 4.6
3.推理深度表现优秀
知识库生成评分:94.21 / 100
94.21 分,直接杀进第一梯队,比 Opus 4.6 的 94.29 只差 0.08 分。单看知识库质量,Deepseek V4 pro 已经是国产最高水平,跟国际顶尖选手站在同一条线上。但有个现实问题:目前只能在 Qoder 客户端里用,自主 API 调用链路还不成熟。在工程框架内直接跑的能力受限,产物完整性倒是没问题,就是使用门槛偏高。等 API 独立可用之后,这个模型的排名大概率还会往上走。
限制:
1.目前需 Qoder 客户端使用
2.独立 API 调用链路不成熟
3.框架内自主执行受限
🏅 MiMo-V2-pro(小米)— 中规中矩
模型简介:MiMo-V2-pro 是小米自研大模型的升级版本,主打轻量高效。V2-pro 相比 V1 在代码生成和指令跟随上有改进,但整体定位偏中端,面向通用辅助场景。
知识库生成评分:89 / 100
89 分,放在全部模型里算中游偏上,比 Kimi 2.5 的 87.1 分稍高,但距离第一梯队还有明显差距。生成内容有一定深度,但和 Opus/GPT 这个级别的模型比,细节精度和逻辑连贯性都差了一档。作为小米的第一代自研模型,这个分数不算丢人,但也确实还不能用来扛复杂工程任务的大梁。
综合评价:89 分属于"能用但不够强"的水准。中端定位、中端表现,符合预期。期待后续版本的进化。
MiMo-V2.5-pro(小米)— 跳步严重
模型简介:MiMo-V2.5-pro 是 MiMo-V2-pro 的迭代版本,理论上应强于 V2-pro。但实际测试中出现了明显的执行问题。
知识库生成评分:未完成有效评分V2.5-pro 的问题非常典型:执行时间短,大量步骤被简略执行或直接跳过。看上去是在"赶进度",实际上关键步骤没做到位,产出的内容深度和完整性都大打折扣。这跟 Gemini 在复杂任务里的"虚假执行"问题有点像,但 MiMo-V2.5-pro 更像是模型本身的指令跟随能力不足以支撑长流程任务。
警告:MiMo-V2.5-pro 在复杂长流程任务中存在严重的步骤跳过问题。迭代版本反而不如 V2-pro 稳定,建议优先使用 V2-pro 版本。
Opus 4.7(Anthropic)— 旗舰翻车
模型简介:Claude Opus 4.7 是 Anthropic 在 Opus 4.6 之后发布的最新旗舰版本。按常理,新版本应该更强——但实测结果令人大跌眼镜。
知识库生成评分:60.48 / 100
从 Opus 4.6 的 94.29 分暴跌到 60.48 分,降幅超过33 分。这不是"略有退步",这是"从冠军变倒数"级别的崩塌。生成内容深度骤降,结构松散,关键信息缺失,跟第一篇测评中"几乎不需要人工介入"的 Opus 4.6 判若两模。我们反复确认了版本号和配置,没有误测。
核心警示:Opus 4.7 的翻车给整个行业敲了一记警钟——模型版本号越高 ≠ 能力越强。在生产环境中,新版本上线前必须进行充分的回归测试,不能想当然地"升级即提升"。
GLM 5.1(智谱 AI)— 上下文陷阱
模型简介:GLM 5.1 是智谱 AI 在 GLM 5 之后的迭代版本。理论上应对 GLM 5 的短板(编码能力、复杂推理)进行补强,但实测结果出乎意料。
结果:陷入循环,无法完成知识库生成流程GLM 5.1 在知识库生成流程中反复陷入重复输出的死循环,完全无法推进任务。核心原因是上下文窗口太短——复杂工程任务需要长上下文来维持多步骤执行的一致性,上下文一短,模型就容易"忘记自己在做什么",然后原地打转。
综合评价:GLM 5.1 在当前版本下完全无法胜任复杂工程任务的自主执行。上下文窗口不足是致命短板,这不是"略差"的问题,是"根本跑不通"的问题。建议生产环境继续使用 GLM 5。
三、版本升级复测
3.1 Gemini 2.5 Pro → 3.1 Pro
Gemini 从 2.5 升级到 3.1,复杂项目知识库评分依然是36.3 / 100,与第一篇测评完全一致。升级了个寂寞。虚假执行、429 限流、幻觉严重——第一篇里提的问题一个没解决。这说明 Gemini 在 Agent 自主执行这条路线上,底层架构可能存在系统性障碍,不是简单版本迭代就能修复的。但简单任务中,Gemini 3.1 Pro 仍然表现优秀——一次性生成零 bug,和 GLM 5 并列第一。这进一步强化了我们在第一篇中的结论:Gemini 的能力和任务复杂度高度相关,简单场景很强,复杂流程就崩。
3.2 GLM 5 → GLM 5.1
如上文详细分析,GLM 5.1 因上下文窗口不足陷入循环,完全无法跑通复杂流程。从"国产最强"到"跑不通",一步退到底。生产环境务必使用 GLM 5 而非 5.1。
3.3 Opus 4.6 → Opus 4.7
最令人震惊的升级结果。Opus 4.7 从 94.29 分暴跌至 60.48 分,属于严重的质量倒退。生产环境强烈建议保持 Opus 4.6,暂不升级至 4.7。
升级警示总结:本轮复测的三个升级版本(Gemini 3.1、GLM 5.1、Opus 4.7),无一例外都没有进步,两个严重退步、一个原地踏步。新版本上线前务必回归测试,盲目升级是工程化场景的大忌。
四、更新后的综合总排名
4.1 复杂项目综合排名(全部 14 个模型)
GPT 5.5 ≈ Opus 4.6 > Sonnet 4.6 > Deepseek V4 pro > GLM 5 > MiMo-V2-pro
> Kimi 2.5 > Sonnet 4.5 > Opus 4.7 > Composer 2 > Minimax m2.5
> Gemini 3.1 pro > Doubao seed 2.0 > Qwen 3 max
GLM 5.1 / MiMo-V2.5-pro:未能完成完整流程
4.2 综合排名总表
| 模型 | 知识库评分 | 综合排名 | 主要问题 | 推荐指数 |
| GPT 5.5 | 95.04 / 100 | 🥇 并列第 1 | 执行稳定性略逊 Opus 4.6 | ⭐⭐⭐⭐⭐ |
| Claude Opus 4.6 | 94.29 / 100 | 🥇 并列第 1 | 成本较高 | ⭐⭐⭐⭐⭐ |
| Claude Sonnet 4.6 | 87 / 100(整体) | 🥈 第 3 | 无明显问题 | ⭐⭐⭐⭐⭐ |
| Deepseek V4 pro | 94.21 / 100 | 第 4 | 需 Qoder 客户端,API 未独立 | ⭐⭐⭐⭐ |
| GLM 5 | 95.95 / 100 | 🏅 第 5 | 编码能力弱于 Sonnet | ⭐⭐⭐⭐ |
| MiMo-V2-pro | 89 / 100 | 第 6 | 中规中矩,无突出亮点 | ⭐⭐⭐ |
| Kimi 2.5 | 87.1 / 100 | 第 7 | SSL 问题、输出位置错误 | ⭐⭐⭐ |
| Claude Sonnet 4.5 | 85 / 100(估) | 第 8 | 已被 Sonnet 4.6 完全替代 | ⭐⭐⭐ |
| Claude Opus 4.7 | 60.48 / 100 | 第 9 ⚠️ | 严重退步,质量暴跌 | ⭐⭐ |
| Composer 2 | 66.44 / 100(D 级) | 第 10 | 内容简略、稳定性差 | ⭐⭐ |
| Minimax m2.5 | 47.93 / 100 | 第 11 | 耗时 5 小时,质量差 | ⭐ |
| Gemini 3.1 pro | 36.3 / 100 | 第 12 | 幻觉严重、虚假执行 | ⭐ |
| Doubao seed 2.0 | bug 极多 | 第 13 | 基本无法直接使用 | ⭐ |
| Qwen 3 max | 未完成 | 第 14 | 无法完整跑通流程 | ⭐ |
| GLM 5.1 / MiMo-V2.5-pro | 未完成 | — | 循环/跳步,无法跑通 | ⭐ |
4.3 轻量项目排名(更新)
GLM 5 ≈ Gemini 3.1 Pro >> Doubao seed 2.0
与第一篇结论一致,Gemini 升级到 3.1 后在简单任务中的表现没有变化,仍然是零 bug 一次通过。Doubao seed 2.0 依然是 bug 重灾区。
五、深度洞察
5.1 "新版本 = 更强"是个危险假设
本轮测评最核心的发现,不是哪个新模型多强,而是三个升级版本全部没有进步:
| 升级路径 | 旧版评分 | 新版评分 | 变化 |
| Opus 4.6 → 4.7 | 94.29 | 60.48 | 🔴 暴跌 33.8 分 |
| GLM 5 → 5.1 | 95.95 | 未完成 | 🔴 无法跑通 |
| Gemini 2.5 → 3.1 | 36.3 | 36.3 | 🟡 零进步 |
给工程团队的忠告:模型版本升级绝不等于能力提升。在 AI 工程化场景中,新版本上线前必须进行与业务场景匹配的回归测试。Opus 4.7 这种级别的退步,如果盲目升级到生产环境,后果不堪设想。
5.2 第一梯队扩容:从双雄到三强
第一篇发布时,第一梯队只有 Opus 4.6 和 Sonnet 4.6。GPT 5.5 的加入让格局变成三强:
Opus 4.6: 执行最稳,长链路自主跑下来几乎不翻车,工程化场景的"定海神针"
GPT 5.5: 设计最强,知识库+设计双高,综合最均衡的"全能选手"Sonnet 4.6性价比最优,覆盖 80% 以上工程场景的"日常主力"
5.3 国产模型的进与退
进步面:Deepseek V4 pro 以 94.21 分直接杀入第一梯队,是目前在知识库质量维度最接近国际顶尖的国产模型。如果 API 链路完善,它有潜力成为国产场景的首选。退步面:GLM 5.1 和 MiMo-V2.5-pro 的"升级翻车",暴露了一个共同问题——上下文窗口和指令跟随能力是国产模型在工程化场景的核心瓶颈。GLM 5.1 因为上下文太短直接跑不通,MiMo-V2.5-pro 因为跳步导致产出深度不足。这说明国产模型在"理解"能力上已经追上来了(GLM 5 的 95.95 分就是证明),但在"自主执行长流程"这件事上,还有结构性差距。
5.4 选型决策框架
综合两篇测评数据,给工程团队的选型建议:
| 场景 | 首选 | 备选 | 不推荐 |
| 高价值复杂工程任务 | Claude Opus 4.6 | GPT 5.5 | Opus 4.7、Gemini、Qwen |
| 复杂任务 + 成本控制 | Claude Sonnet 4.6 | GLM 5 / Deepseek V4 pro | Doubao、Qwen 3 max |
| 国内合规 + 复杂任务 | GLM 5 | Deepseek V4 pro(注意 API 限制) | GLM 5.1、Minimax |
| 简单代码/界面生成 | GLM 5 / Gemini 3.1 Pro | Claude Sonnet 4.6 | Doubao seed 2.0 |
| 快速原型验证 | Deepseek V4 pro | MiMo-V2-pro | MiMo-V2.5-pro、Composer 2 |
六、结论与展望
本次测评核心结论
GPT 5.5加入第一梯队,与Opus 4.6并列最强,但各有侧重——GPT 设计更强,Opus 执行更稳
Deepseek V4 pro是国产最强新势力,94.21 分逼近国际顶尖,API 独立后潜力巨大
Opus 4.7 严重翻车, 从 94.29 暴跌至 60.48,是本次最大意外,生产环境切勿盲目升级
GLM 5.1 / MiMo-V2.5-pro 均因上下文或指令跟随问题未能跑通,"升级翻车"现象值得行业警惕
Gemini 3.1 Pro 升级无效,复杂场景仍然不可用,但简单任务依然优秀
测评的最后,几个值得持续追踪的问题:
1. Opus 4.7 的退步是偶发还是趋势?
2. Anthropic 会不会紧急修复?下一个版本能否回到 4.6 的水平?
3. Deepseek V4 pro 的 API 何时独立可用?如果解决接入问题,国产模型格局可能重新洗牌
4. GLM 5.1 的上下文窗口问题会不会在后续版本解决?
5. 国产模型什么时候能真正扛住长流程自主执行?
6. MiMo 系列后续版本能否解决跳步问题? 小米在 AI 模型赛道能走多远?
夜雨聆风