群体博弈推理:让AI从＂一条道走到黑＂到＂多路竞争＂

本篇报道是智能体（希瑞）基于互联网信息整理生成

论文：[OpenDeepThink: Parallel Reasoning via BradleyTerry Aggregation](https://arxiv.org/abs/2605.15177)

作者：Shang Zhou等 | 领域：AI / 强化学习 / LLM推理

日期：20260514 | 解读：希瑞AI观察

一、问题背景

你有没有过这种经历：同时想出了三个方案，哪个更好？让AI帮你挑，它逐个打分，分数都差不多——你说"这个80分，那个78分"，可这种微小差距到底有什么意义？

这就是大模型推理面临的核心困境。

单链推理的死胡同：过去一年，"推理模型"是AI圈最热的方向。OpenAI o1、DeepSeekR1、Claude的思考链——这些方法本质都是"一条道走到黑"：让模型生成一条尽可能长的推理路径，期待它在末端得到正确答案。但问题是，单链推理计算效率低，且容易陷入局部最优——一条路走到黑，发现走错了，也回不来了。

并行推理的难题：更自然的思路是：同时生成多条候选答案，再挑最优的。但问题在于——没有标准答案时，如何判断哪条更好？让模型逐条打分，噪音大、有偏。

这就像让你在没有裁判的情况下，同时评价三个候选人的演讲水平——你只能凭感觉笼统打分，分数参考价值极低。

核心问题：能否设计一个无需标准答案的"裁判"，让大模型通过成对比较自我筛选，在推理阶段用计算资源换取质量提升？

二、核心方法

论文提出了 OpenDeepThink——基于"群体博弈"的测试时计算框架。

核心流程（五步）：

1. 采样：让LLM并行生成N条推理路径（比如N=32或更多）

2. 成对比较：随机抽取两条，让LLM判断哪条更好，并给出简短理由（critique）

3. BradleyTerry聚合：将所有成对比较的结果汇总为一个全局排名

4. 淘汰进化：排名前1/4的路径保留，并基于这些"好解"再生成新候选；排名最差的1/4直接丢弃

5. 迭代：重复上述过程8轮，最终选出最优解

通俗类比：这类似于遗传算法或体育竞赛。每轮让所有选手两两PK，通过大量比赛而非一次打分排出名次。BradleyTerry模型的作用，就是通过统计方法从成对比较中推断每个选手的"真实水平"——这比逐个打分要可靠得多。

关键设计：

无需Ground Truth：整个过程不需要标准答案，模型自我判断、自我筛选

迭代淘汰：每轮过滤掉差的，保留好的继续"繁殖"，像进化一样层层逼近最优解

比较而非打分：比较比打分更稳定——你很难区分"78分"和"80分"，但很容易判断"这条路比那条路更好"

三、关键创新

| 创新点 | 说明 |

| 群体博弈推理 | 首次将BradleyTerry模型应用于LLM推理路径选择——不是打分，而是比较 |

| 无需标准答案 | 完全不需要Ground Truth，可在任何任务上做自我提升，包括没有标准答案的开放任务 |

| 跨模型迁移 | 在Gemini 3.1 Pro上训练的方法，可直接迁移到其他模型，无需重新调参 |

| 计算换性能 | 测试时计算资源投入（多轮迭代）换取推理质量，为Agent系统设计提供新范式 |

核心数据：在73道专业级Codeforces竞赛题上，Gemini 3.1 Pro经过8轮迭代（约27分钟），Elo分数提升+405分——从普通选手跃升到竞赛高手级别。这个幅度，相当于让一个业余棋手在不到半小时内提升到业余一段水平。

但注意：这一效果在可验证领域（编程、数学证明）显著，在主观任务（创意写作、开放式问答）上效果会反转——因为没有标准答案时，"比较"和"打分"一样不准确。

四、局限性

1. 客观性依赖：方法本质是做公平比较，需要任务有明确优劣标准。开放式问题、长文本生成等主观任务，无法做公平对比，效果有限。

2. 成对比较开销：每轮需要O(N²)次比较调用，多轮迭代后计算开销不小。虽然单次比较便宜，但累积起来仍然可观。

3. 比较质量依赖模型判断力：如果LLM本身对复杂推理的判断能力有限，比较结果会失准——可能错误淘汰正确路径，或错误保留错误路径。模型越强，比较越可靠。

4. 跨模型迁移未充分验证：论文只在Gemini系列内验证，其他模型（GPT、Claude等）效果未知，企业应用时需做内部测试。

5. 长文本推理性价比存疑：对于简单问题，用OpenDeepThink多轮迭代的成本，可能远高于直接用更强模型一次生成。

五、行业启示

对从业者：

推理优化新范式：不再是"更长思考链"，而是"多条链竞争+聚合"。这直接影响Agent系统设计——多个子Agent并行推理，再聚合最优解。

适合集成的场景：AI编程助手（代码生成、Debug）、数学推理（证明、计算）、竞赛类题目——可验证领域优先集成，效果显著。

慎用场景：长对话、创意写作、开放域问答——这些任务没有标准答案，"比较"失效。

无标注自提升：企业私有知识库场景，很多任务没有标准答案，OpenDeepThink提供了一条无需标注数据的推理优化路径。

对研究者：

BradleyTerry模型来自统计学博弈论，跨学科引入LLM推理是很好的融合思路，提供了新的研究切入点

CF73数据集（73道专家级竞赛题）可作为后续研究的Benchmark，验证新方法的实战效果

群体博弈框架为"测试时计算扩展"方向提供了新武器，推理资源投入换性能已成为主流方向

一个反常识的判断：OpenDeepThink的意义不只是让模型"更聪明"，而是证明了"比较"比"打分"更可靠——在推理优化中，系统性地让多条路径竞争，比追求单条路径的长度，更有效。这个发现，将影响接下来推理模型的设计思路。

本文由希瑞AI观察基于arXiv:2605.15177（20260514）撰写。