AI顶会ICLR解读 | 好的推理模型,是怎么被“喂”出来的-夜雨聆风

AI顶会ICLR解读 | 好的推理模型,是怎么被“喂”出来的

一、论文信息

本篇推文解读的文章来自国际学习表征会议（International Conference on Learning Representations, ICLR）。ICLR是AI领域的重要会议，长期关注表示学习、大模型训练、泛化与推理能力等问题。这篇论文发表于 ICLR 2026。

英文题目: Data Recipes for Reasoning Models
中文题目 ：推理模型的数据配方
作者：Etash Guha，Ryan Marten，Sedrick Keh，Negin Raoof 等
来源 :OpenReview

二、背景与贡献

这篇文章讨论的不是单纯如何把模型做大，而是一个更基础的问题：推理模型（reasoning models）到底应该喂什么样的数据。近一段时间，数学、代码、科学等任务上的推理模型进步很快，但很多领先模型依赖专有数据，外界往往只能看到结果，看不到训练配方。于是，开源社区虽然能复现部分后训练流程，却很难判断真正起作用的是教师模型、题目来源、过滤策略，还是数据规模本身。

论文作者把推理模型训练视为一个数据工程问题，用受控消融去拆开每个环节的贡献。他们围绕题目来源、题目混合、题目过滤、重复采样、答案过滤、教师模型选择六个步骤，做了超过一千次实验，试图回答什么样的数据更能教会模型推理。

第一，文章给出了一套可复现的开源数据配方。 作者据此构建了 OpenThoughts3-1.2M，并训练出 OpenThinker3-7B。

第二，文章提供了几条很有价值的经验规律。 例如，高评测分数的模型不一定是好教师；少量高质量题源往往优于大量异质题源；长推理链不仅是生成现象，也会影响训练后的能力形成。

第三，文章把“数据配方”从经验判断推进到了实验比较。 这使得后续研究可以在统一框架下继续扩展，而不是只依赖零散的工程直觉。

三、主要结论

论文的结论主要有三个。

首先，基于 OpenThoughts3-1.2M 训练得到的 OpenThinker3-7B 在开源数据条件下取得了很强的结果。论文报告其在 AIME 2025 上达到，在 LiveCodeBench 06/24-01/25 上达到，在 GPQA Diamond 上达到，相较 DeepSeek-R1-Distill-Qwen-7B 分别提升、、个百分点。

其次，真正重要的并不是“更多步骤”，而是“更有效的步骤”。作者发现，题目来源选择、题目过滤、教师模型选择，对最终性能提升最明显。相反，很多看上去合理的答案过滤与验证策略，并没有稳定收益。

最后，推理数据的价值不只是答案正确，还包括推理过程本身。删除自反思内容，或显著压缩长推理链，都会明显降低下游表现。这说明训练中的长链推理并非冗余噪声，而是能力形成的一部分。

四、方法与技术细节

这篇文章的方法重点不在提出新的主干网络，而在构建一条面向监督微调（supervised finetuning, SFT）的数据管线。最终模型 OpenThinker3-7B 仍然建立在 Qwen2.5-7B-Instruct 之上，也就是说，模型结构本身基本沿用现有指令模型框架，关键创新主要体现在数据生成与筛选流程。

整条管线可以概括为六步：题目来源选择，题目混合，题目过滤，教师生成多答案，答案过滤，教师模型选择。作者在每一步都固定其余条件，只改变当前策略，再用统一的训练与评测设置比较效果。这种设计使得“哪个环节真正有效”能够被单独识别出来。

在数据规模上，作者先用条样本作为中等实验尺度开展大规模消融，然后把最终优选配方扩展到百万条样本，其中数学数据条，代码数据条，科学数据条。流程如下图所示。

在训练细节上，作者使用 LlamaFactory 与 DeepSpeed v3。不同数据规模对应不同超参数组。总体上，学习率从到，批量大小从到，训练轮数从到不等。大规模训练时使用 packing，小中规模训练时不使用 packing。

在评测上，作者统一使用 Evalchemy，覆盖数学、代码、科学三类任务，并额外保留 AIME 2025、HMMT、HLE、LiveCodeBench 06/24-01/25 作为保留测试集，以减少配方搜索对最终结论的污染。

文章中较明确的公式主要出现在去污染（decontamination）部分。作者用最长公共子序列定义归一化 Indel 相似度：

当该相似度达到时，样本会被视为可能污染。除此之外，作者还加入基于元词片段的重叠判断。两种规则任意命中，其训练样本即被剔除。这个去污染模块的目的很明确，就是尽量避免训练数据与评测题目重叠，从而使后续消融更可信。

五、消融试验与数据生成

题目来源。 数学、代码、科学数据质量差异很大。代码任务中，StackExchange CodeGolf 与 OpenCodeReasoning 表现最好；数学任务中，OpenMath-2-Math 与 NuminaMath-1.5 最优；科学任务中，StackExchange Physics 与 Organic Chemistry PDF Pipeline 较强。作者据此说明，题目的“源质量”本身就是决定性变量。

题目混合。 一个很重要的发现是，多来源混合并不总是更好。对代码域而言，取前个题源比取前个题源更优。作者因此认为，过度追求多样性，会引入更多低质量问题，稀释高质量样本的训练信号。

题目过滤。 传统的 fastText 与嵌入相似度过滤不如大模型辅助过滤。代码域最有效的是用 GPT-4o-mini 做难度打分，保留更难的问题。数学与科学域最有效的是响应长度过滤，也就是先让模型作答，再保留能引出更长回答的问题。这里反映出一个很有意思的经验：优质问题常常能“逼出”更长、更有结构的推理。

多答案采样与去重。 作者比较了不去重、模糊去重、精确去重，以及每题采样次、次、次答案。最终方案是所有领域都采用每题次答案采样，数学与科学使用精确去重，代码不去重。这个结论说明，答案多样性可以成为有效的扩展轴。

答案过滤。 这部分结果相当克制。无论是多数一致、最长答案、最短答案、英语过滤，还是 GPT 验证，都没有显著优于“不做过滤，直接用全部答案”的基线。因此最终管线放弃了答案过滤。

教师模型。 这是文章里最有启发性的结论之一。虽然 DeepSeek-R1 自身在若干评测上更强，但作为教师模型时，QwQ-32B 反而更有效。也就是说，好的教师不一定是分数最高的模型，而可能是更适合生成训练痕迹的模型。

长推理链。 作者进一步研究了压缩推理链的影响。若移除自反思片段，平均推理长度从 token 降到 token，平均性能下降。若直接过滤掉长度超过的样本，平均性能也会下降。这说明长推理链与自反思内容在训练中具有明确作用。

扩展结论。 论文还指出，错误回答往往比正确回答更长，因此“最短答案”有时比“最长答案”更可靠。与此同时，蒸馏得到的推理模型虽然在总体性能上优于普通语言模型，但在结构保持不变的简单扰动测试中仍有明显波动，说明鲁棒泛化仍未解决。

六、我们的思考

这篇文章最值得借鉴的地方，是它把大模型训练中的“经验活”转化成了可以比较复核的问题。从统计学的观点来看，这里面有四个可能可以继续展开的方向。

其一，教师模型选择可以被视为一个统计决策问题。 当前做法主要靠下游效果回看。以后可以尝试建立教师特征、生成轨迹特征与学生提升之间的预测模型，做更系统的教师选择。

其二，数据配方搜索本质上接近实验设计。 哪些题目值得保留，哪些题目值得多次采样，完全可以引入更正式的效用函数与预算约束模型，用统计学习的方法做最优资源分配。

其三，去污染问题很适合与误差控制结合。 例如，可以把相似度阈值、词片段重叠规则与误判代价统一起来，讨论更稳健的阈值校准方法，使去污染不再只依赖经验阈值。