乐于分享
好东西不私藏

MiniMax M2.7接入OpenClaw后,我发现了AI Agent跑不通的真相

MiniMax M2.7接入OpenClaw后,我发现了AI Agent跑不通的真相

就在昨天,我的OpenClaw"超进化"了。

不是吹的。是真的进化了。

只因为做了一件事:把底层模型换成了MiniMax M2.7。

然后那些以前跑不通的复杂任务,突然就跑通了。

这让我开始思考一个问题:为什么以前不行,真的是Harness的问题吗?

一个被反复验证的事实

先说说我实际测试的结果。

我用一个五步复杂任务测试:去GitHub Trending搜索本周最热门的开源项目,结合Star增长数、项目语言和最近提交时间综合筛选15个AI相关的项目,整理成Excel表格并标注项目简介和适用场景,根据Excel的数据设计一个分类可视化HTML看板,最后把Excel和HTML一起发到飞书上。

这五步,每一步的输出是下一步的输入,中间任何环节断掉,后面全部作废。

以前用其他国内模型,基本到第三步就开始出问题:要么筛选逻辑跑偏,要么生成完Excel之后"忘了"还有后续步骤。

但用M2.7,一次就跑完了整个流程。

这不是偶然。我又测试了论文翻译(54万字)、短剧剧本生成(100集),结果都一样:一条指令,全部搞定。

   

真正的瓶颈,不在你以为的地方

测完我就在想一个问题:为什么以前不行?

我之前一直以为是Harness的问题——Prompt写得不够好、工具调用没配好、记忆管理不够完善……

但换了个模型就好了,这说明什么?

说明很多时候,瓶颈不在Harness,在模型本身。

Agent有个基础公式:Agent = Model + Harness。

大部分人做Agent,都把精力花在Harness上。但Harness设计得再精巧,如果底层模型的"指令遵循能力"和"长上下文处理能力"跟不上,整体表现就是上不去。

就像你给一辆自行车装上火箭引擎,然后发现它还是跑不快。问题不在引擎,在底盘。

两个决定性的能力

那什么样的模型才能跑好Agent?

说白了就两件事:指令遵循效果长上下文处理能力。

第一,指令遵循。

Agent运行时,System Prompt里塞满了各种Skills定义、工具使用说明。Skills越多越复杂,模型出错的概率越高。

很多模型在Skills超过20个之后,遵循率就开始断崖式下跌。漏调、错调、忘记下一步……这些问题不是Prompt能解决的。

M2.7的数据是:40个复杂Skills(每个超过2000 Token)同时存在的环境下,遵循率能做到97%。

这个数字意味着什么?意味着它能Hold住更复杂的任务编排,意味着你可以往System Prompt里塞更多东西而不用担心它"发疯"。

第二,长上下文处理。

Agent运行时,上下文会快速膨胀:Skills库占用大量Token、多轮对话历史、中间步骤的执行结果、检索到的外部信息……

上下文一长,很多模型就会开始"忘事"。这就是为什么很多人做Agent,做着做着就开始"失忆"。

而M2.7在开源测试集上,长上下文处理能力做到了国内第一。

更重要的是,这两个能力不是独立的。在超长上下文里依然保持极高的指令遵循率,这才是真正的壁垒。

一个被忽视的成本账

说到这,我想提一个很多人没注意到的点:Token成本。

Agent每次任务失败后重试,消耗的Token都是真金白银。

假设你每天跑1000次Agent任务,遵循率从85%提升到97%,意味着每天少失败120次。每次任务假设消耗10万Token,你每天就能省下1200万Token。

一个月就是3.6亿Token。

但大部分人选模型的时候,只盯着能力,不算这笔账。

其实仔细想想,能力再强的模型,如果每次都失败一两次,重试成本累加起来,可能还不如用一个能力稍弱但稳定性更高的模型。

M2.7的定价在国际同类模型里几乎是独一档。加上这个遵循率和稳定性,分摊到每次任务的实际成本,可能比那些"看起来便宜但老出错"的模型还低。

国产模型的进步,比你想的大

说这些不是打广告。是因为最近测试下来,有一个感受越来越强烈:

国产大模型的进步,比大部分人想象的快。

M2.7在SWE-Pro测试上得分56.22%,几乎接近Opus最好水平。在MLE Bench上参与22道高难度竞赛题,拿下9枚金牌。

这些数字有点抽象,我换一个说法:我之前用国内模型跑Agent,跑到第三第四步就开始出问题。用M2.7,跑完了整个五步流程,只发了一条指令,没有中途纠正任何一步。

这种事以前只在GPT-4上体验过。

而且M2.7还做到了GPT-4没做到的事:Office自动化。复杂Excel操作、金融场景分析、PPT从零生成、Word文档多轮修改……这些能力集成进来,意味着很多白领的工作流程可以直接AI化。

写在最后

回到开头的问题:为什么你的AI Agent总是跑不通?

答案可能出乎意料:大概率不是你的问题,是模型的问题。

Agent = Model + Harness。当模型的指令遵循和上下文处理能力足够强,Harness的设计空间会被极大打开。

反过来,再好的Harness也需要一个记得住事、听得懂话的模型来撑住。

M2.7把这个能力提上来了。这意味着更多之前"跑不通"的Agent场景,现在有机会跑通了。

剩下的,就看你愿不愿意放下"自己搭一切"的执念,去试试那些已经跑通的路。

有些东西,自己跑一遍,才会有最真实的判断。

公众号后台回复「龙虾」,加入交流群一起探讨龙虾。