为什么你的AI助手干活总差一点?答案可能藏在这篇论文里-夜雨聆风

为什么你的AI助手干活总差一点?答案可能藏在这篇论文里

你有没有这种感觉：让AI帮你完成一个复杂的任务，它确实在干活，但每次结果都差那么一点。

你以为加大模型量级就能解决。

但这篇论文告诉我们：方向可能搞错了。

问题出在哪

这个问题作者Lee Yoonsang等人在最新论文《Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks》中给出了答案。

他们发现了一个关键矛盾：

就像你问三个顾问同一个问题，第一个说了思路A，第二个补充了思路B的漏洞，第三个犯了个低级错误但开头猜对了方向。

你只选其中一个的答案，和让三个顾问坐下来一起讨论，哪个更可能得到好结果？

显然是后者。但以前的AI不是这么做的。

他们提出了一个叫 AggAgent 的方法。

核心思想很简洁：不再比较轨迹的终点，而是让AI当裁判，把所有轨迹当环境来审视。

具体说，每个任务会并行生成多条轨迹（比如8条），然后AggAgent上场：

有一点最关键：它的开销只等于跑一条轨迹的代价。不管你并行生成多少条，聚合这一步的成本是固定的。

在六个benchmark上测试，横跨三个模型族——GLM-4.7、Qwen3.5、MiniMax-M2.5：

注意这是平均提升，不是边际提升。

而且这个方法不需要调模型本身——是算法层面的改进，不是暴力堆参数。

我之前提过一个判断：AI落地最后拼的不是模型本身，是工作流。

AggAgent就是在工作流层面动手脚。

它解决了一个很实际的问题：当你需要AI完成一个复杂的长程任务（比如做市场调研、写一份完整报告、帮你规划旅行），单次生成的结果往往不如多次生成再精选。

但精选不能靠”投票”，要靠理解。

这个论文把这件事做得很干净。

如果你做AI应用开发，这个思路可以直接用：

与其花时间选更贵的模型，不如在聚合层下功夫。

同样的模型，换一个聚合策略，效果可能提升10个点。

花更少的钱，办更好的事。

这才是工程上真正该追求的东西。

论文：Agentic Aggregation for Parallel Scaling of Long-Horizon Agentic Tasks

作者：Lee Yoonsang, Howard Yen, Xi Ye, Chen Danqi

日期：2026.04.13

链接：https://arxiv.org/abs/2604.11753^[1]