阿里AI重大突破:Metis将工具调用从98%降到2%,准确率反而更高-夜雨聆风

阿里AI重大突破:Metis将工具调用从98%降到2%,准确率反而更高

很多人现在谈AI agent，默认的前提都是模型还不够强，需要不断接入更多工具、更多外部能力，来弥补自身不足。

但真正把系统跑进实际环境之后，很快就会发现一个更现实的问题——这些模型并不是不会做事，而是经常做了太多不必要的事。

在很多场景中，只要给了工具调用权限，模型就会频繁触发搜索、代码执行、图像处理等外部能力，即使问题本身已经在输入中提供了足够信息。这种看似“积极”的行为，实际上带来的却是明显的代价：系统变慢、费用增加，甚至推理结果反而变差。

问题的关键，并不在工具本身，而在模型没有学会判断：什么时候该用工具，什么时候应该停下来。

这种能力，本质上是一种“元认知”。

当模型缺乏这种能力时，就会形成一种近乎本能的行为模式——只要可以调用工具，就优先调用，而不是先评估有没有必要。于是，一个本可以一步完成的任务，被拆成多轮操作；原本清晰的推理路径，被不断加入的外部信息干扰。

更关键的是，这种“多做”并不会换来更好的结果，反而会引入噪声，让模型偏离正确答案。

于是问题开始从“模型够不够强”，转向“模型会不会克制”。

模型不是不会做，

而是不会停

传统的解决思路，其实很直接：通过强化学习给模型一个约束，让它少用工具。

但问题在于，这种约束往往是通过一个“混合奖励”实现的——既要求模型把任务做对，又要求它尽量减少工具调用。看起来合理，但实际效果却并不理想。

如果惩罚太重，模型会变得过于保守，在复杂任务中甚至不敢使用必要工具，导致准确率下降；如果惩罚太轻，又无法真正约束滥用行为。

更麻烦的是，这种设计会让模型接收到模糊信号：一个完全不用工具但答案错误的路径，可能和一个大量调用工具但答案正确的路径获得类似反馈。结果就是，模型根本学不会“什么时候该用工具”。

问题不是优化不够，而是目标本身被混在了一起。

阿里提出的HDPO方法，本质上是把这个问题拆开。

它把“准确性”和“效率”分成两个独立目标，分别进行优化。模型在训练早期，主要关注把问题做对；随着能力逐渐稳定，再引入效率目标，让模型学习减少不必要的步骤。

这种分阶段的训练方式，相当于给模型建立了一条隐性的学习路径——先学会解决问题，再学会如何用更少的步骤解决。

换句话说，它先变聪明，再学会克制。

从“会用工具”到

“会不用工具”

在这种训练框架下诞生的Metis agent，表现出了一个非常反直觉的结果。

工具调用大幅减少，但整体性能却更高。

模型不再把工具当成默认路径，而是把它当成一种需要判断的选择。在简单任务中，它会直接依靠自身能力完成，不再额外调用外部工具；而在复杂场景下，比如需要精细分析图像局部细节时，它又会主动调用代码进行局部处理。

这种行为变化，看起来只是“少用了一点工具”，但本质上是决策方式发生了改变。

工具不再是习惯动作，而变成了一种精确手段。

这种差异在一些细节任务中尤其明显。比如面对一张清晰可读的图片，传统agent往往会先写代码裁剪图像再分析，而Metis会直接读取信息，不再绕远路；但当图像信息复杂、难以分辨时，它又会主动调用工具进行放大处理。

也就是说，它不再依赖工具，而是开始“选择工具”。

这种变化，实际上指向了一个更深层的趋势。

AI agent的发展，正在从“能力扩展”走向“决策优化”。

过去大家关注的是模型能做什么，现在开始关注模型如何决定去做什么，以及是否应该做。这种从执行能力到决策能力的转变，可能才是下一阶段AI系统真正的分水岭。

很多系统在实验室中表现优秀，但一进入真实环境就变得缓慢、昂贵、不稳定，问题往往并不在模型能力，而在决策机制缺乏约束。

当模型学会克制，它才真正开始变得高效。

而这种“知道什么时候不该行动”的能力，可能比“会做更多事”更重要。

人工智能正在重塑世界，也在反照人类自身。技术的进步值得期待，但理解它、使用它、规范它，更需要冷静与勇气。这一切，终究还是关于人。

参考来源：本文综合整理自 The Wall Street Journal、Business Insider、Reuters、Pew Research Center 等公开报道及资料。

声明：本文由《AI在想啥》团队独立翻译与改写，旨在以通俗视角呈现人工智能对社会、职场与文化的影响。内容仅供学习与交流参考，不代表任何机构或个人立场。若涉及版权问题，请联系删除。