乐于分享
好东西不私藏

为什么你的AI助手干活总差一点?答案可能藏在这篇论文里

为什么你的AI助手干活总差一点?答案可能藏在这篇论文里

你有没有这种感觉:让AI帮你完成一个复杂的任务,它确实在干活,但每次结果都差那么一点。

你以为加大模型量级就能解决。

但这篇论文告诉我们:方向可能搞错了

问题出在哪

这个问题作者Lee Yoonsang等人在最新论文《Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks》中给出了答案。

他们发现了一个关键矛盾:

  • AI干活的时候,会生成很多条不同的路径(叫轨迹,trajectory)
  • 以前大家的做法是:把所有轨迹的结果拿来比,选一个最对的
  • 但问题是——轨迹里的信息远比一个最终答案丰富

就像你问三个顾问同一个问题,第一个说了思路A,第二个补充了思路B的漏洞,第三个犯了个低级错误但开头猜对了方向。

你只选其中一个的答案,和让三个顾问坐下来一起讨论,哪个更可能得到好结果?

显然是后者。但以前的AI不是这么做的。

怎么做

他们提出了一个叫 AggAgent 的方法。

核心思想很简洁:不再比较轨迹的终点,而是让AI当裁判,把所有轨迹当环境来审视。

具体说,每个任务会并行生成多条轨迹(比如8条),然后AggAgent上场:

它会做什么

  • 检查:一条条看每条轨迹哪里做得好、哪里有问题
  • 搜索:在多条轨迹之间跳来跳去,拼凑出完整答案
  • 综合:把多条轨迹里有价值的部分组合成最终输出

有一点最关键:它的开销只等于跑一条轨迹的代价。不管你并行生成多少条,聚合这一步的成本是固定的。

效果怎么样

在六个benchmark上测试,横跨三个模型族——GLM-4.7、Qwen3.5、MiniMax-M2.5

数字会说话

  • 平均提升 5.3%
  • 在两个深度研究任务上,最高提升 10.3%

注意这是平均提升,不是边际提升。

而且这个方法不需要调模型本身——是算法层面的改进,不是暴力堆参数

为什么值得关注

我之前提过一个判断:AI落地最后拼的不是模型本身,是工作流

AggAgent就是在工作流层面动手脚。

它解决了一个很实际的问题:当你需要AI完成一个复杂的长程任务(比如做市场调研、写一份完整报告、帮你规划旅行),单次生成的结果往往不如多次生成再精选。

但精选不能靠”投票”,要靠理解

这个论文把这件事做得很干净。

和你有什么关系

如果你做AI应用开发,这个思路可以直接用:

与其花时间选更贵的模型,不如在聚合层下功夫。

同样的模型,换一个聚合策略,效果可能提升10个点。

花更少的钱,办更好的事。

这才是工程上真正该追求的东西。


论文:Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks 

作者:Lee Yoonsang, Howard Yen, Xi Ye, Chen Danqi 

日期:2026.04.13 

链接:https://arxiv.org/abs/2604.11753[1]