MiniMax M2.7接入OpenClaw后,我发现了AI Agent跑不通的真相

就在昨天，我的OpenClaw"超进化"了。

不是吹的。是真的进化了。

只因为做了一件事：把底层模型换成了MiniMax M2.7。

然后那些以前跑不通的复杂任务，突然就跑通了。

这让我开始思考一个问题：为什么以前不行，真的是Harness的问题吗？

一个被反复验证的事实

先说说我实际测试的结果。

我用一个五步复杂任务测试：去GitHub Trending搜索本周最热门的开源项目，结合Star增长数、项目语言和最近提交时间综合筛选15个AI相关的项目，整理成Excel表格并标注项目简介和适用场景，根据Excel的数据设计一个分类可视化HTML看板，最后把Excel和HTML一起发到飞书上。

这五步，每一步的输出是下一步的输入，中间任何环节断掉，后面全部作废。

以前用其他国内模型，基本到第三步就开始出问题：要么筛选逻辑跑偏，要么生成完Excel之后"忘了"还有后续步骤。

但用M2.7，一次就跑完了整个流程。

这不是偶然。我又测试了论文翻译（54万字）、短剧剧本生成（100集），结果都一样：一条指令，全部搞定。

真正的瓶颈，不在你以为的地方

测完我就在想一个问题：为什么以前不行？

我之前一直以为是Harness的问题——Prompt写得不够好、工具调用没配好、记忆管理不够完善……

但换了个模型就好了，这说明什么？

说明很多时候，瓶颈不在Harness，在模型本身。

Agent有个基础公式：Agent = Model + Harness。

大部分人做Agent，都把精力花在Harness上。但Harness设计得再精巧，如果底层模型的"指令遵循能力"和"长上下文处理能力"跟不上，整体表现就是上不去。

就像你给一辆自行车装上火箭引擎，然后发现它还是跑不快。问题不在引擎，在底盘。

两个决定性的能力

那什么样的模型才能跑好Agent？

说白了就两件事：指令遵循效果和长上下文处理能力。

第一，指令遵循。

Agent运行时，System Prompt里塞满了各种Skills定义、工具使用说明。Skills越多越复杂，模型出错的概率越高。

很多模型在Skills超过20个之后，遵循率就开始断崖式下跌。漏调、错调、忘记下一步……这些问题不是Prompt能解决的。

M2.7的数据是：40个复杂Skills（每个超过2000 Token）同时存在的环境下，遵循率能做到97%。

这个数字意味着什么？意味着它能Hold住更复杂的任务编排，意味着你可以往System Prompt里塞更多东西而不用担心它"发疯"。

第二，长上下文处理。

Agent运行时，上下文会快速膨胀：Skills库占用大量Token、多轮对话历史、中间步骤的执行结果、检索到的外部信息……

上下文一长，很多模型就会开始"忘事"。这就是为什么很多人做Agent，做着做着就开始"失忆"。

而M2.7在开源测试集上，长上下文处理能力做到了国内第一。

更重要的是，这两个能力不是独立的。在超长上下文里依然保持极高的指令遵循率，这才是真正的壁垒。

一个被忽视的成本账

说到这，我想提一个很多人没注意到的点：Token成本。

Agent每次任务失败后重试，消耗的Token都是真金白银。

假设你每天跑1000次Agent任务，遵循率从85%提升到97%，意味着每天少失败120次。每次任务假设消耗10万Token，你每天就能省下1200万Token。

一个月就是3.6亿Token。

但大部分人选模型的时候，只盯着能力，不算这笔账。

其实仔细想想，能力再强的模型，如果每次都失败一两次，重试成本累加起来，可能还不如用一个能力稍弱但稳定性更高的模型。

M2.7的定价在国际同类模型里几乎是独一档。加上这个遵循率和稳定性，分摊到每次任务的实际成本，可能比那些"看起来便宜但老出错"的模型还低。

国产模型的进步，比你想的大

说这些不是打广告。是因为最近测试下来，有一个感受越来越强烈：

国产大模型的进步，比大部分人想象的快。

M2.7在SWE-Pro测试上得分56.22%，几乎接近Opus最好水平。在MLE Bench上参与22道高难度竞赛题，拿下9枚金牌。

这些数字有点抽象，我换一个说法：我之前用国内模型跑Agent，跑到第三第四步就开始出问题。用M2.7，跑完了整个五步流程，只发了一条指令，没有中途纠正任何一步。

这种事以前只在GPT-4上体验过。

而且M2.7还做到了GPT-4没做到的事：Office自动化。复杂Excel操作、金融场景分析、PPT从零生成、Word文档多轮修改……这些能力集成进来，意味着很多白领的工作流程可以直接AI化。

写在最后

回到开头的问题：为什么你的AI Agent总是跑不通？

答案可能出乎意料：大概率不是你的问题，是模型的问题。

Agent = Model + Harness。当模型的指令遵循和上下文处理能力足够强，Harness的设计空间会被极大打开。

反过来，再好的Harness也需要一个记得住事、听得懂话的模型来撑住。

M2.7把这个能力提上来了。这意味着更多之前"跑不通"的Agent场景，现在有机会跑通了。

剩下的，就看你愿不愿意放下"自己搭一切"的执念，去试试那些已经跑通的路。

有些东西，自己跑一遍，才会有最真实的判断。

公众号后台回复「龙虾」，加入交流群一起探讨龙虾。