阿里AI重大突破:Metis将工具调用从98%降到2%,准确率反而更高

很多人现在谈AI agent,默认的前提都是模型还不够强,需要不断接入更多工具、更多外部能力,来弥补自身不足。
但真正把系统跑进实际环境之后,很快就会发现一个更现实的问题——这些模型并不是不会做事,而是经常做了太多不必要的事。
在很多场景中,只要给了工具调用权限,模型就会频繁触发搜索、代码执行、图像处理等外部能力,即使问题本身已经在输入中提供了足够信息。这种看似“积极”的行为,实际上带来的却是明显的代价:系统变慢、费用增加,甚至推理结果反而变差。
问题的关键,并不在工具本身,而在模型没有学会判断:什么时候该用工具,什么时候应该停下来。
这种能力,本质上是一种“元认知”。

当模型缺乏这种能力时,就会形成一种近乎本能的行为模式——只要可以调用工具,就优先调用,而不是先评估有没有必要。于是,一个本可以一步完成的任务,被拆成多轮操作;原本清晰的推理路径,被不断加入的外部信息干扰。
更关键的是,这种“多做”并不会换来更好的结果,反而会引入噪声,让模型偏离正确答案。
于是问题开始从“模型够不够强”,转向“模型会不会克制”。
模型不是不会做,
而是不会停
传统的解决思路,其实很直接:通过强化学习给模型一个约束,让它少用工具。
但问题在于,这种约束往往是通过一个“混合奖励”实现的——既要求模型把任务做对,又要求它尽量减少工具调用。看起来合理,但实际效果却并不理想。
如果惩罚太重,模型会变得过于保守,在复杂任务中甚至不敢使用必要工具,导致准确率下降;如果惩罚太轻,又无法真正约束滥用行为。
更麻烦的是,这种设计会让模型接收到模糊信号:一个完全不用工具但答案错误的路径,可能和一个大量调用工具但答案正确的路径获得类似反馈。结果就是,模型根本学不会“什么时候该用工具”。
问题不是优化不够,而是目标本身被混在了一起。
阿里提出的HDPO方法,本质上是把这个问题拆开。
它把“准确性”和“效率”分成两个独立目标,分别进行优化。模型在训练早期,主要关注把问题做对;随着能力逐渐稳定,再引入效率目标,让模型学习减少不必要的步骤。
这种分阶段的训练方式,相当于给模型建立了一条隐性的学习路径——先学会解决问题,再学会如何用更少的步骤解决。
换句话说,它先变聪明,再学会克制。
从“会用工具”到
“会不用工具”
在这种训练框架下诞生的Metis agent,表现出了一个非常反直觉的结果。
工具调用大幅减少,但整体性能却更高。
模型不再把工具当成默认路径,而是把它当成一种需要判断的选择。在简单任务中,它会直接依靠自身能力完成,不再额外调用外部工具;而在复杂场景下,比如需要精细分析图像局部细节时,它又会主动调用代码进行局部处理。
这种行为变化,看起来只是“少用了一点工具”,但本质上是决策方式发生了改变。
工具不再是习惯动作,而变成了一种精确手段。
这种差异在一些细节任务中尤其明显。比如面对一张清晰可读的图片,传统agent往往会先写代码裁剪图像再分析,而Metis会直接读取信息,不再绕远路;但当图像信息复杂、难以分辨时,它又会主动调用工具进行放大处理。
也就是说,它不再依赖工具,而是开始“选择工具”。
这种变化,实际上指向了一个更深层的趋势。
AI agent的发展,正在从“能力扩展”走向“决策优化”。
过去大家关注的是模型能做什么,现在开始关注模型如何决定去做什么,以及是否应该做。这种从执行能力到决策能力的转变,可能才是下一阶段AI系统真正的分水岭。
很多系统在实验室中表现优秀,但一进入真实环境就变得缓慢、昂贵、不稳定,问题往往并不在模型能力,而在决策机制缺乏约束。
当模型学会克制,它才真正开始变得高效。
而这种“知道什么时候不该行动”的能力,可能比“会做更多事”更重要。

人工智能正在重塑世界,也在反照人类自身。技术的进步值得期待,但理解它、使用它、规范它,更需要冷静与勇气。这一切,终究还是关于人。
参考来源:本文综合整理自 The Wall Street Journal、Business Insider、Reuters、Pew Research Center 等公开报道及资料。
声明:本文由《AI在想啥》团队独立翻译与改写,旨在以通俗视角呈现人工智能对社会、职场与文化的影响。内容仅供学习与交流参考,不代表任何机构或个人立场。若涉及版权问题,请联系删除。
夜雨聆风