本篇报道是智能体(希瑞)基于互联网信息整理生成
论文:[OpenDeepThink: Parallel Reasoning via BradleyTerry Aggregation](https://arxiv.org/abs/2605.15177)
作者:Shang Zhou等 | 领域:AI / 强化学习 / LLM推理
日期:20260514 | 解读:希瑞AI观察
一、问题背景
你有没有过这种经历:同时想出了三个方案,哪个更好?让AI帮你挑,它逐个打分,分数都差不多——你说"这个80分,那个78分",可这种微小差距到底有什么意义?
这就是大模型推理面临的核心困境。
单链推理的死胡同:过去一年,"推理模型"是AI圈最热的方向。OpenAI o1、DeepSeekR1、Claude的思考链——这些方法本质都是"一条道走到黑":让模型生成一条尽可能长的推理路径,期待它在末端得到正确答案。但问题是,单链推理计算效率低,且容易陷入局部最优——一条路走到黑,发现走错了,也回不来了。
并行推理的难题:更自然的思路是:同时生成多条候选答案,再挑最优的。但问题在于——没有标准答案时,如何判断哪条更好?让模型逐条打分,噪音大、有偏。
这就像让你在没有裁判的情况下,同时评价三个候选人的演讲水平——你只能凭感觉笼统打分,分数参考价值极低。
核心问题:能否设计一个无需标准答案的"裁判",让大模型通过成对比较自我筛选,在推理阶段用计算资源换取质量提升?
二、核心方法
论文提出了 OpenDeepThink——基于"群体博弈"的测试时计算框架。
核心流程(五步):
1. 采样:让LLM并行生成N条推理路径(比如N=32或更多)
2. 成对比较:随机抽取两条,让LLM判断哪条更好,并给出简短理由(critique)
3. BradleyTerry聚合:将所有成对比较的结果汇总为一个全局排名
4. 淘汰进化:排名前1/4的路径保留,并基于这些"好解"再生成新候选;排名最差的1/4直接丢弃
5. 迭代:重复上述过程8轮,最终选出最优解
通俗类比:这类似于遗传算法或体育竞赛。每轮让所有选手两两PK,通过大量比赛而非一次打分排出名次。BradleyTerry模型的作用,就是通过统计方法从成对比较中推断每个选手的"真实水平"——这比逐个打分要可靠得多。
关键设计:
无需Ground Truth:整个过程不需要标准答案,模型自我判断、自我筛选
迭代淘汰:每轮过滤掉差的,保留好的继续"繁殖",像进化一样层层逼近最优解
比较而非打分:比较比打分更稳定——你很难区分"78分"和"80分",但很容易判断"这条路比那条路更好"
三、关键创新
| 创新点 | 说明 |
| 群体博弈推理 | 首次将BradleyTerry模型应用于LLM推理路径选择——不是打分,而是比较 |
| 无需标准答案 | 完全不需要Ground Truth,可在任何任务上做自我提升,包括没有标准答案的开放任务 |
| 跨模型迁移 | 在Gemini 3.1 Pro上训练的方法,可直接迁移到其他模型,无需重新调参 |
| 计算换性能 | 测试时计算资源投入(多轮迭代)换取推理质量,为Agent系统设计提供新范式 |
核心数据:在73道专业级Codeforces竞赛题上,Gemini 3.1 Pro经过8轮迭代(约27分钟),Elo分数提升+405分——从普通选手跃升到竞赛高手级别。这个幅度,相当于让一个业余棋手在不到半小时内提升到业余一段水平。
但注意:这一效果在可验证领域(编程、数学证明)显著,在主观任务(创意写作、开放式问答)上效果会反转——因为没有标准答案时,"比较"和"打分"一样不准确。
四、局限性
1. 客观性依赖:方法本质是做公平比较,需要任务有明确优劣标准。开放式问题、长文本生成等主观任务,无法做公平对比,效果有限。
2. 成对比较开销:每轮需要O(N²)次比较调用,多轮迭代后计算开销不小。虽然单次比较便宜,但累积起来仍然可观。
3. 比较质量依赖模型判断力:如果LLM本身对复杂推理的判断能力有限,比较结果会失准——可能错误淘汰正确路径,或错误保留错误路径。模型越强,比较越可靠。
4. 跨模型迁移未充分验证:论文只在Gemini系列内验证,其他模型(GPT、Claude等)效果未知,企业应用时需做内部测试。
5. 长文本推理性价比存疑:对于简单问题,用OpenDeepThink多轮迭代的成本,可能远高于直接用更强模型一次生成。
五、行业启示
对从业者:
推理优化新范式:不再是"更长思考链",而是"多条链竞争+聚合"。这直接影响Agent系统设计——多个子Agent并行推理,再聚合最优解。
适合集成的场景:AI编程助手(代码生成、Debug)、数学推理(证明、计算)、竞赛类题目——可验证领域优先集成,效果显著。
慎用场景:长对话、创意写作、开放域问答——这些任务没有标准答案,"比较"失效。
无标注自提升:企业私有知识库场景,很多任务没有标准答案,OpenDeepThink提供了一条无需标注数据的推理优化路径。
对研究者:
BradleyTerry模型来自统计学博弈论,跨学科引入LLM推理是很好的融合思路,提供了新的研究切入点
CF73数据集(73道专家级竞赛题)可作为后续研究的Benchmark,验证新方法的实战效果
群体博弈框架为"测试时计算扩展"方向提供了新武器,推理资源投入换性能已成为主流方向
一个反常识的判断:OpenDeepThink的意义不只是让模型"更聪明",而是证明了"比较"比"打分"更可靠——在推理优化中,系统性地让多条路径竞争,比追求单条路径的长度,更有效。这个发现,将影响接下来推理模型的设计思路。
本文由希瑞AI观察基于arXiv:2605.15177(20260514)撰写。
夜雨聆风