就在昨天,我的OpenClaw"超进化"了。
不是吹的。是真的进化了。
只因为做了一件事:把底层模型换成了MiniMax M2.7。
然后那些以前跑不通的复杂任务,突然就跑通了。
这让我开始思考一个问题:为什么以前不行,真的是Harness的问题吗?
一个被反复验证的事实
先说说我实际测试的结果。
我用一个五步复杂任务测试:去GitHub Trending搜索本周最热门的开源项目,结合Star增长数、项目语言和最近提交时间综合筛选15个AI相关的项目,整理成Excel表格并标注项目简介和适用场景,根据Excel的数据设计一个分类可视化HTML看板,最后把Excel和HTML一起发到飞书上。
这五步,每一步的输出是下一步的输入,中间任何环节断掉,后面全部作废。
以前用其他国内模型,基本到第三步就开始出问题:要么筛选逻辑跑偏,要么生成完Excel之后"忘了"还有后续步骤。
但用M2.7,一次就跑完了整个流程。
这不是偶然。我又测试了论文翻译(54万字)、短剧剧本生成(100集),结果都一样:一条指令,全部搞定。
真正的瓶颈,不在你以为的地方
测完我就在想一个问题:为什么以前不行?
我之前一直以为是Harness的问题——Prompt写得不够好、工具调用没配好、记忆管理不够完善……
但换了个模型就好了,这说明什么?
说明很多时候,瓶颈不在Harness,在模型本身。
Agent有个基础公式:Agent = Model + Harness。
大部分人做Agent,都把精力花在Harness上。但Harness设计得再精巧,如果底层模型的"指令遵循能力"和"长上下文处理能力"跟不上,整体表现就是上不去。
就像你给一辆自行车装上火箭引擎,然后发现它还是跑不快。问题不在引擎,在底盘。
两个决定性的能力
那什么样的模型才能跑好Agent?
说白了就两件事:指令遵循效果和长上下文处理能力。
第一,指令遵循。
Agent运行时,System Prompt里塞满了各种Skills定义、工具使用说明。Skills越多越复杂,模型出错的概率越高。
很多模型在Skills超过20个之后,遵循率就开始断崖式下跌。漏调、错调、忘记下一步……这些问题不是Prompt能解决的。
M2.7的数据是:40个复杂Skills(每个超过2000 Token)同时存在的环境下,遵循率能做到97%。
这个数字意味着什么?意味着它能Hold住更复杂的任务编排,意味着你可以往System Prompt里塞更多东西而不用担心它"发疯"。
第二,长上下文处理。
Agent运行时,上下文会快速膨胀:Skills库占用大量Token、多轮对话历史、中间步骤的执行结果、检索到的外部信息……
上下文一长,很多模型就会开始"忘事"。这就是为什么很多人做Agent,做着做着就开始"失忆"。
而M2.7在开源测试集上,长上下文处理能力做到了国内第一。
更重要的是,这两个能力不是独立的。在超长上下文里依然保持极高的指令遵循率,这才是真正的壁垒。
一个被忽视的成本账
说到这,我想提一个很多人没注意到的点:Token成本。
Agent每次任务失败后重试,消耗的Token都是真金白银。
假设你每天跑1000次Agent任务,遵循率从85%提升到97%,意味着每天少失败120次。每次任务假设消耗10万Token,你每天就能省下1200万Token。
一个月就是3.6亿Token。
但大部分人选模型的时候,只盯着能力,不算这笔账。
其实仔细想想,能力再强的模型,如果每次都失败一两次,重试成本累加起来,可能还不如用一个能力稍弱但稳定性更高的模型。
M2.7的定价在国际同类模型里几乎是独一档。加上这个遵循率和稳定性,分摊到每次任务的实际成本,可能比那些"看起来便宜但老出错"的模型还低。
国产模型的进步,比你想的大
说这些不是打广告。是因为最近测试下来,有一个感受越来越强烈:
国产大模型的进步,比大部分人想象的快。
M2.7在SWE-Pro测试上得分56.22%,几乎接近Opus最好水平。在MLE Bench上参与22道高难度竞赛题,拿下9枚金牌。
这些数字有点抽象,我换一个说法:我之前用国内模型跑Agent,跑到第三第四步就开始出问题。用M2.7,跑完了整个五步流程,只发了一条指令,没有中途纠正任何一步。
这种事以前只在GPT-4上体验过。
而且M2.7还做到了GPT-4没做到的事:Office自动化。复杂Excel操作、金融场景分析、PPT从零生成、Word文档多轮修改……这些能力集成进来,意味着很多白领的工作流程可以直接AI化。
写在最后
回到开头的问题:为什么你的AI Agent总是跑不通?
答案可能出乎意料:大概率不是你的问题,是模型的问题。
Agent = Model + Harness。当模型的指令遵循和上下文处理能力足够强,Harness的设计空间会被极大打开。
反过来,再好的Harness也需要一个记得住事、听得懂话的模型来撑住。
M2.7把这个能力提上来了。这意味着更多之前"跑不通"的Agent场景,现在有机会跑通了。
剩下的,就看你愿不愿意放下"自己搭一切"的执念,去试试那些已经跑通的路。
有些东西,自己跑一遍,才会有最真实的判断。
公众号后台回复「龙虾」,加入交流群一起探讨龙虾。
夜雨聆风