MiniMax M2.7 正式开源:软件工程评测直逼顶尖闭源模型

MiniMax 宣布，其最新旗舰文本模型 M2.7 正式开源。这也是 M2 系列迄今能力最强的开源版本，在 SWE-Pro（56.22%）和 Terminal Bench 2（57.0%）两项软件工程核心评测上达到同级开源模型最高水平，直逼 Claude Opus、GPT-5 等顶尖闭源模型。

与此同时，MiniMax 发布了详细技术博客，首次系统披露了 M2.7 在模型自我进化、专业软件工程、办公场景和交互娱乐四大方向上的最新进展。

https://www.minimax.io/news/minimax-m27-en

开源是最大亮点

此前 MiniMax 的 M2 系列主要以 API 和产品形态对外提供服务，此次 M2.7 直接开源权重，对开发者社区而言意义重大。结合其在 SWE-Pro 56.22% 的成绩（接近 Opus 最佳水平）和 MLE Bench Lite 平均奖牌率 66.6%（全球第三，仅次于 GPT-5.4 和 Opus），M2.7 是目前综合能力最强的开源代码与 Agent 模型之一。

核心定位：首个深度参与自身进化的模型

MiniMax 将 M2.7 定位为"自我进化的早期回响"。在 M2 系列首发后的数月内，MiniMax 在充分收集用户与开发者反馈的基础上，进一步提出了一个更激进的命题：让模型参与自身的迭代。在 M2.7 的研发过程中，MiniMax 直接让模型更新自身记忆、构建数十种复杂技能，并将强化学习实验结果反向用于优化学习流程，由此开启了模型自我进化的闭环。

软件工程：全方位对标顶尖水准

在软件工程能力上，M2.7 覆盖端到端项目交付、日志分析、Bug 排查、代码安全、机器学习、Android 开发等方向，核心评测成绩如下：

SWE-Pro：56.22%，与 GPT-5.3-Codex 持平，接近 Opus 最佳水平
VIBE-Pro（端到端全项目交付）：55.6%，接近 Opus 4.6
Terminal Bench 2（复杂工程系统理解）：57.0%
SWE Multilingual（多语言编程）：76.5
NL2Repo：39.8%

在生产环境调试场景中，M2.7 能将监控指标与部署时间线关联推理，对 Trace 采样进行统计分析，主动连接数据库验证根因，并以非阻塞索引创建方式先行止血后再提交合并请求。MiniMax 表示，已多次借助 M2.7 将生产系统故障恢复时间压缩至三分钟以内。

此外，M2.7 原生支持 Agent Teams 多智能体协作，能在角色边界、对抗推理、协议遵守等场景中表现稳定，这被 MiniMax 认为是"无法仅靠提示词实现、必须内化为模型原生能力"的范式级需求。

自我进化：100 轮自主迭代，性能提升 30%

MiniMax 构建了一套内部研究 Agent 框架，支持数据 Pipeline、训练环境、基础设施、跨团队协作与持久化记忆。在强化学习团队的日常工作流中，Agent 负责文献综述、实验追踪、日志读取、调试、指标分析、代码修复与合并请求。M2.7 目前能够处理该工作流中 30%～50% 的任务。

更值得关注的是 M2.7 对自身脚手架的优化能力：在一次完全自主的实验中，M2.7 执行了超过 100 轮"分析失败轨迹 → 规划变更 → 修改脚手架代码 → 运行评估 → 对比结果 → 决定保留或回滚"的迭代循环，最终在内部评测集上实现了 30% 的性能提升。

在 OpenAI 开源的 MLE Bench Lite（22 项 ML 竞赛，单卡 A30，每次 24 小时）评测中，M2.7 最佳运行获得 9 金、5 银、1 铜，三次运行平均奖牌率 66.6%，全球排名第三，仅次于 Opus 4.6（75.7%）和 GPT-5.4（71.2%），与 Gemini-3.1 持平。

专业办公：开源模型 GDPval-AA 最高 ELO

在办公场景方面，M2.7 在衡量领域专业性与任务交付能力的 GDPval-AA 评测中 ELO 得分 1495，是所有开源模型中的最高分，仅次于 Opus 4.6、Sonnet 4.6 和 GPT-5.4。

在 Toolathon 工具调用评测中，M2.7 达到 46.3% 的准确率，达全球顶尖水平。在 MiniMax 自建的 MM Claw 评测集（覆盖个人学习规划、办公文档处理、投资建议、代码开发维护等真实场景）中，准确率为 62.7%，接近 Sonnet 4.6。在超过 40 个复杂技能（每个超过 2000 token）的协作中，M2.7 仍保持 97% 的技能遵从率。

金融场景演示方面，MiniMax 以台积电为案例，M2.7 自主读取年报与业绩电话会议纪要，交叉参考多份研究报告，独立构建收入预测模型，并基于模板生成完整的 PPT 和 Word 研报。从业者反馈，其输出"已可作为初稿，直接进入后续工作流程"。

开源娱乐项目 OpenRoom：大部分代码由 AI 编写

基于 M2.7 的角色一致性与情感智能能力，MiniMax 同步开源了 OpenRoom——一个将 AI 交互从纯文本流中解放出来、置于可交互 Web GUI 空间的 Agent 框架演示项目。角色可主动与环境互动，对话驱动实时视觉反馈与场景变化。值得一提的是，该项目的大部分代码由 AI 自主编写，本身即是 M2.7 工程能力的一次实证。

GitHub：https://github.com/MiniMax-AI/OpenRoom
在线体验：https://www.openroom.ai/