MiniMax 宣布,其最新旗舰文本模型 M2.7 正式开源。这也是 M2 系列迄今能力最强的开源版本,在 SWE-Pro(56.22%)和 Terminal Bench 2(57.0%)两项软件工程核心评测上达到同级开源模型最高水平,直逼 Claude Opus、GPT-5 等顶尖闭源模型。
与此同时,MiniMax 发布了详细技术博客,首次系统披露了 M2.7 在模型自我进化、专业软件工程、办公场景和交互娱乐四大方向上的最新进展。
https://www.minimax.io/news/minimax-m27-en
开源是最大亮点
此前 MiniMax 的 M2 系列主要以 API 和产品形态对外提供服务,此次 M2.7 直接开源权重,对开发者社区而言意义重大。结合其在 SWE-Pro 56.22% 的成绩(接近 Opus 最佳水平)和 MLE Bench Lite 平均奖牌率 66.6%(全球第三,仅次于 GPT-5.4 和 Opus),M2.7 是目前综合能力最强的开源代码与 Agent 模型之一。

核心定位:首个深度参与自身进化的模型
MiniMax 将 M2.7 定位为"自我进化的早期回响"。在 M2 系列首发后的数月内,MiniMax 在充分收集用户与开发者反馈的基础上,进一步提出了一个更激进的命题:让模型参与自身的迭代。在 M2.7 的研发过程中,MiniMax 直接让模型更新自身记忆、构建数十种复杂技能,并将强化学习实验结果反向用于优化学习流程,由此开启了模型自我进化的闭环。


软件工程:全方位对标顶尖水准
在软件工程能力上,M2.7 覆盖端到端项目交付、日志分析、Bug 排查、代码安全、机器学习、Android 开发等方向,核心评测成绩如下:
- SWE-Pro:56.22%,与 GPT-5.3-Codex 持平,接近 Opus 最佳水平
- VIBE-Pro(端到端全项目交付):55.6%,接近 Opus 4.6
- Terminal Bench 2(复杂工程系统理解):57.0%
- SWE Multilingual(多语言编程):76.5
- NL2Repo:39.8%
在生产环境调试场景中,M2.7 能将监控指标与部署时间线关联推理,对 Trace 采样进行统计分析,主动连接数据库验证根因,并以非阻塞索引创建方式先行止血后再提交合并请求。MiniMax 表示,已多次借助 M2.7 将生产系统故障恢复时间压缩至三分钟以内。
此外,M2.7 原生支持 Agent Teams 多智能体协作,能在角色边界、对抗推理、协议遵守等场景中表现稳定,这被 MiniMax 认为是"无法仅靠提示词实现、必须内化为模型原生能力"的范式级需求。
自我进化:100 轮自主迭代,性能提升 30%
MiniMax 构建了一套内部研究 Agent 框架,支持数据 Pipeline、训练环境、基础设施、跨团队协作与持久化记忆。在强化学习团队的日常工作流中,Agent 负责文献综述、实验追踪、日志读取、调试、指标分析、代码修复与合并请求。M2.7 目前能够处理该工作流中 30%~50% 的任务。

更值得关注的是 M2.7 对自身脚手架的优化能力:在一次完全自主的实验中,M2.7 执行了超过 100 轮"分析失败轨迹 → 规划变更 → 修改脚手架代码 → 运行评估 → 对比结果 → 决定保留或回滚"的迭代循环,最终在内部评测集上实现了 30% 的性能提升。
在 OpenAI 开源的 MLE Bench Lite(22 项 ML 竞赛,单卡 A30,每次 24 小时)评测中,M2.7 最佳运行获得 9 金、5 银、1 铜,三次运行平均奖牌率 66.6%,全球排名第三,仅次于 Opus 4.6(75.7%)和 GPT-5.4(71.2%),与 Gemini-3.1 持平。
专业办公:开源模型 GDPval-AA 最高 ELO
在办公场景方面,M2.7 在衡量领域专业性与任务交付能力的 GDPval-AA 评测中 ELO 得分 1495,是所有开源模型中的最高分,仅次于 Opus 4.6、Sonnet 4.6 和 GPT-5.4。
在 Toolathon 工具调用评测中,M2.7 达到 46.3% 的准确率,达全球顶尖水平。在 MiniMax 自建的 MM Claw 评测集(覆盖个人学习规划、办公文档处理、投资建议、代码开发维护等真实场景)中,准确率为 62.7%,接近 Sonnet 4.6。在超过 40 个复杂技能(每个超过 2000 token)的协作中,M2.7 仍保持 97% 的技能遵从率。
金融场景演示方面,MiniMax 以台积电为案例,M2.7 自主读取年报与业绩电话会议纪要,交叉参考多份研究报告,独立构建收入预测模型,并基于模板生成完整的 PPT 和 Word 研报。从业者反馈,其输出"已可作为初稿,直接进入后续工作流程"。
开源娱乐项目 OpenRoom:大部分代码由 AI 编写
基于 M2.7 的角色一致性与情感智能能力,MiniMax 同步开源了 OpenRoom——一个将 AI 交互从纯文本流中解放出来、置于可交互 Web GUI 空间的 Agent 框架演示项目。角色可主动与环境互动,对话驱动实时视觉反馈与场景变化。值得一提的是,该项目的大部分代码由 AI 自主编写,本身即是 M2.7 工程能力的一次实证。

GitHub:https://github.com/MiniMax-AI/OpenRoom 在线体验:https://www.openroom.ai/
夜雨聆风