MiniMax M2.7 + OpenClaw实测:国产模型终于能自己训练自己了

4月12日，MiniMax M2.7正式开源。

这个消息在AI圈刷屏了，不是因为又多了一个开源模型，而是因为它做了一件之前没人做过的事——让AI深度参与迭代自己。

官方的说法是：M2.7是业界第一个AI深度参与迭代自己的模型。

听起来有点玄乎，但实测之后，我发现这事儿比想象中更有意思。

什么是AI自己训练自己？

先说个类比。

传统的AI模型就像一个只会执行指令的员工。你让它写代码，它写代码；你让它改bug，它改bug。但它不会主动思考这个项目整体怎么样，也不会自己发现问题然后去修复。

M2.7不一样。它更像一个能自己安排工作的员工。你给它一个项目，它会自己先全面评估，发现问题主动修复，修完一个bug还会主动检查其他文件有没有类似问题。

具体来说，M2.7能做这几件事：

第一，自主构建任务框架。 它不需要你手把手教它怎么做，它能自己搭一套工作流程。

第二，100轮以上的自我优化。 官方说内部测试中，模型连续执行超过100轮分析-改进-验证的循环，最终性能提升了30%。

第三，承担30%到50%的研发工作量。 在强化学习场景中，它可以自己读日志、分析问题、修代码、提合并请求，人只需要在关键决策点介入。

这有什么用？

举个例子。以前修一个线上故障，可能需要开发者查日志、定位问题、写修复代码、测试、部署。现在M2.7可以自己完成大部分环节，开发者只需要确认它的修复方案对不对。

实测：M2.7 + OpenClaw能干什么？

M2.7已经成为OpenClaw和Hermes Agent等热门智能体中最受欢迎的模型之一。我做了几个实测。

测试一：项目全面评估

我给它一个任务：这是前任开发者移交的项目，帮我全面评估一下现状。

注意，我只给了这一句话，没有提供任何其他线索。

结果让我有点意外。

它没有问我任何问题，直接开始自己探索。读文件、跑命令、逐层排查，调用了35次工具，全程只用了1分29秒。

更关键的是，它还主动做了一次安全扫描，把潜在的安全隐患都列了出来。

这说明它不是在等你告诉它去哪，而是自己知道该干什么、怎么干。

测试二：企业级ERP系统

这个测试更硬核。

系统包含17个Go微服务、680多张数据库表、130个领域模型、260多个复合索引，代码量超过120万行。涉及合同生命周期、进度款结算、现金流预测、多级审批等复杂业务。

M2.7稳定完成了任务。

这比单纯写代码难多了。它需要理解整个系统的架构，知道改一个地方会影响哪些模块，还要保证业务逻辑不出错。

性能到底怎么样？

看数据。

软件工程能力方面，SWE-Pro得分56.22%，追平了GPT-5.3-Codex，接近Claude Opus 4.6的水平。

端到端项目交付测试VIBE-Pro得分55.6%，复杂系统理解测试Terminal Bench 2得分57.0%。

在PinchBench排行榜上，M2.7排全球第4，仅次于Claude Sonnet 4.6、GPT-5.4和Claude Opus 4.6。

这是国产模型在这个榜单上的最好成绩。

和主流模型对比一下：

SWE-bench Verified测试，M2.7是80.2%，Claude Sonnet 4.6是79.1%，GPT-5.4是80.6%。差距很小。

技能遵循率，M2.7是97%，Claude Sonnet 4.6是94%，GPT-5.4是96%。M2.7反而领先。

成本差距就大了。

M2.7的API定价是每百万token 0.3美元。Claude Sonnet 4.6是3美元，GPT-5.4是5美元。

算一下，M2.7的成本是Claude的十分之一，是GPT的十七分之一。

这个性价比，对高频使用的开发者来说很有吸引力。

开源许可证的争议

M2.7开源后，股价跌了近5%。

原因是它的开源许可证明确规定：禁止未经书面许可的商业用途。

这意味着什么？

OpenRouter这种聚合API平台，不能随便部署M2.7然后收费。阿里云、腾讯云这些云服务商，想提供M2.7的收费服务，也得先谈授权。

社区炸锅了。有人说这是开源变闭源，有人说开发者应该获得合理回报。

背后的原因，可能跟之前Cursor使用Kimi开源模型商业化的事件有关。有人用开源模型做了自己的产品收费，原作者反而没赚到钱。

MiniMax这次的做法，是在商业利益和社区开放之间做了一个选择。

怎么用？

最简单的方式是用Ollama。

打开终端，输入一行命令就能用：

ollama run minimax-m2.7:cloud

如果想和OpenClaw一起用：

ollama launch openclaw --model minimax-m2.7:cloud

注意，目前Ollama上的M2.7走的是云端推理，因为模型太大，本地跑不起来。M2.7有2300亿参数，激活参数100亿，部署需要230GB显存起步，官方建议至少4张H200显卡。

等量化版本出来，应该会有本地可跑的版本。

适合什么场景？

根据实测，M2.7适合这几类场景：

第一，代码审查和项目评估。 给它一个项目，它能自己探索、发现问题、给出建议。

第二，复杂任务的自动化执行。 比如多源网页检索、文档处理、定时任务等。

第三，需要长期稳定运行的Agent服务。 成本低，适合7×24小时挂机。

但也有局限。

它不支持多模态，处理不了图片和视频。输出速度偏慢，普通版每秒50个token左右。复杂任务偶尔会上下文遗忘。

如果你需要顶级的多模态能力，还是得用GPT-5.4或Claude Opus 4.6。但如果你的场景主要是文本处理、代码生成、Agent任务，M2.7已经够用了。

总结

M2.7的意义不只是又一个开源模型。

它代表了一种新的技术路线：让AI从被动执行任务，变成能主动规划、自我优化、参与研发流程。

对开发者来说，这意味着AI不再只是一个工具，而是一个能自己干活的搭档。

成本是Claude的十分之一，性能接近第一梯队，国产模型这次确实拿出了有竞争力的东西。

唯一的遗憾是开源许可证的限制。但换个角度想，如果开发者赚不到钱，谁还愿意持续投入做更好的模型？

这个问题，可能没有标准答案。

如果你在用OpenClaw或Hermes，建议试试M2.7。免费体验一下，看看它能不能帮你省下那十分之九的成本。