[论文科普] 训练AI大模型的新方法:把＂在线老师＂变成＂离线老师＂,效率提升4倍

论文来源：arXiv:2604.13010
标题：Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
作者：Yecheng Wu, Song Han, Hai Cai（Nvidia）
发表日期：2026年4月14日（arXiv公开日期：2026年4月15日）
链接：https://arxiv.org/abs/2604.13010

摘要

训练一个能做数学推理、写代码的AI大模型，到底有多贵？

答案是：光是一次"蒸馏"（Distillation）过程，就需要120块GPU跑好几个小时，而且全程需要一个专门的"老师模型"在线服务——这让很多高校和研究机构望而却步。

一项来自Nvidia的新研究提出了一个巧妙的解决方案：Lightning OPD。它的核心思路是：与其让"老师"时时刻刻盯着"学生"的每次练习，不如让"老师"提前把所有批改意见写好，学生自己对着改。这样一来，训练效率直接提升4倍（从120 GPU小时缩短到30 GPU小时），而且最终效果完全不打折。

更厉害的是，研究者还发现了一个之前被忽视的关键原则——"老师一致性"：整个训练过程中，SFT阶段和OPD阶段的"老师"必须是同一个模型。很多现有流水线无意中违反了这个原则，导致训练效果打折扣却找不到原因。

1. 引言：AI是怎么"修炼"出推理能力的？

大语言模型（LLM）近年来在数学推理、代码生成等复杂任务上进步神速。这背后，**后训练（Post-Training）**功不可没——模型先在海量文本上做"通识教育"（预训练），再在专业数据上做"强化训练"（后训练），才能变成真正的"推理高手"。

后训练通常分两步走：

• 第一步：监督微调（SFT）——让模型学习高质量的"解题思路"示例
• 第二步：强化学习或蒸馏——让模型超越示例，自己探索更好的解法

**On-Policy Distillation（OPD）**就是一种特别有效的第二步技术。它的原理很简单：有一个很强的"老师模型"（比如32B参数的大模型），和一个正在成长的"学生模型"（比如8B参数）。学生每做一道题，老师就打分，告诉学生"这一步我想给你打多少分"。这种密集的逐token监督信号，比单纯告诉学生"答案对不对"要丰富得多。

但是问题来了：

标准OPD要求老师模型全程在线——学生每练习一批题，老师就要实时打分。这需要一套复杂的多GPU推理服务器不停地跑，成本极高。对于没有大规模训练基础设施的学术团队来说，这个门槛几乎是不可逾越的。

2. 核心问题：离线做蒸馏，为什么效果会变差？

一个很自然的想法是：能不能把老师的工作"离线化"？

具体方案是：让学生先用老师给出的示例做SFT，得到一个"参考答案"（πref）。然后在OPD阶段，不是实时让老师打分，而是提前一次性把老师对这批题的评分全部算好存起来，训练时直接查表。

然而，论文指出，这个看似合理的方案在实践中并不能可靠地达到标准OPD的效果。研究团队顺藤摸瓜，发现了根本原因——

关键发现：老师一致性（Teacher Consistency）

原来，标准OPD流程中存在两个不同的"老师"角色：

阶段	老师的任务	常见做法
SFT阶段	生成解题示例，供学生模仿	用某个老师生成训练数据
OPD阶段	实时给学生打分	换另一个"更强"的老师来打分

这听起来很合理——SFT用中等老师打基础，OPD用更强的老师来提升。但研究者发现，这恰恰是问题所在：两个阶段必须用同一个老师，否则就会引入不可消除的梯度偏差，导致训练永远收敛不到最优解。

形象的比喻

想象一个学生学习数学：

• 错误做法：SFT阶段跟A老师学解题思路，OPD阶段换成B老师打分，A和B教法风格完全不同，学生会很困惑
• 正确做法：从头到尾都是同一个老师教，学生能清楚地感受到自己的进步

研究者在实验中也验证了这一点：用Qwen3-32B做SFT老师但换成QwQ-32B做OPD老师，性能直接下降2-7个百分点——而且这个差距是不可消除的，无论训练多久都补不回来。

3. Lightning OPD：让"离线老师"也能教出好学生

找到了问题根源，解决方案就清晰了：Lightning OPD的核心就是强制执行"老师一致性"，并在此基础上实现完全离线化。

具体做法

SFT阶段：

1. 选定一个老师模型（比如Qwen3-32B）
2. 让老师生成一批解题轨迹（trajectories）
3. 用这批数据对基座模型做SFT，得到参考策略πref

OPD预处理阶段：

1. 用πref作为学生，生成一批新的解题轨迹
2. 用同一个老师（Qwen3-32B）一次性计算并存储这批轨迹的逐token log概率
3. 把这些预先计算好的"评分"存起来，形成离线数据集𝒟OPD

OPD训练阶段：

1. 学生模型从πref初始化
2. 训练时，每道题的"老师评分"直接从𝒟OPD中读取，不需要调用真实的老师模型
3. 学生的log概率实时计算，然后和存储的老师评分做比较得出梯度

关键是：老师只需要被调用一次（预处理阶段），之后整个OPD训练过程完全离线。

理论保证

研究者提供了严格的理论分析，证明了三件事：

1. 梯度差异有界：标准OPD和Lightning OPD的梯度差异始终被控制在一定范围内
2. 最优解相同：在满足老师一致性的条件下，两种方法收敛到相同的最优解
3. 隐式正则化：Lightning OPD的目标函数天然具有防止策略偏移的特性，不需要额外的KL惩罚

4. 实验结果：4倍加速，效果不打折

研究团队在数学推理和代码生成两个领域做了全面评估：

核心数据

模型规模	方法	AIME 2024	AIME 2025	HMMT 2025	LiveCodeBench v5	LiveCodeBench v6
4B学生→8B老师	SFT基线	56.7%	52.1%	34.0%	33.8%	31.5%
	+ 标准OPD	65.4%	57.9%	39.9%	44.2%	39.3%
	+ Lightning OPD	68.1%	58.4%	39.8%	42.8%	40.3%
8B学生→32B老师	SFT基线	63.7%	51.7%	36.9%	44.7%	36.8%
	+ 标准OPD	68.5%	59.0%	39.4%	47.3%	41.2%
	+ Lightning OPD	69.9%	59.2%	41.9%	49.5%	43.9%

亮点数据：

• 从SFT基线到Lightning OPD：Qwen3-8B在AIME 2024上从63.7%提升到69.9%——提升了6.2个百分点
• Lightning OPD vs 标准OPD：在几乎所有基准上持平或略优
• 训练成本：从120 GPU小时降至30 GPU小时，提速4倍

训练成本分解

环节	耗时（8B模型）
轨迹采集（一次离线操作）	10 GPU小时
老师log概率预计算（一次离线操作）	4 GPU小时
OPD训练	16 GPU小时
总计	30 GPU小时

对比之下，标准OPD需要120 GPU小时，而且全程需要老师模型在线服务。

老师一致性验证

研究者做了消融实验，系统性地验证了老师一致性的重要性：

• 4B规模：不一致的老师组合让准确率下降2-9个百分点
• 8B规模：不一致的组合让准确率下降3-7个百分点
• 规律：对Lightning OPD来说，老师不一致的危害比标准OPD更大——因为学生用固定的"参考答案"练兵，如果答案本身就是另一个老师打的分，那就从源头错了

5. 为什么"离线强化学习"不能直接用？

可能会有读者问：离线做强化学习训练，这不就是"离线强化学习"（Offline RL）吗？直接用现成的离线RL方法不就行了？

论文专门讨论了这个问题，答案是：不能直接用，因为问题本质不同。

维度	离线强化学习	Lightning OPD
核心挑战	OOD动作过估计（模型对没见过的动作盲目自信）	老师不一致导致的梯度偏差
监督信号	稀疏的奖励信号	密集的逐token log概率
解决方案	保守估计（pessimism）或策略约束	强制老师一致性
固定点性质	受数据覆盖范围限制	受模型容量限制，与数据分布无关

关键区别在于：离线RL的挑战来自"学生可能会尝试老师没见过的动作"，而OPD中老师对所有可能的token都有评分（密集监督），根本不存在OOD问题。真正的问题是有没有用同一个老师。

6. 对普通人的意义

AI推理能力会更快普及

Lightning OPD让训练强大推理模型的成本大幅下降（4倍），而且不需要复杂的在线推理服务。这意味着：

• 更多学术团队能够训练出自己的数学AI、代码AI
• 更多中小企业能够负担得起定制化的AI后训练
• AI推理能力的迭代速度会加快，更多优质模型会涌现

数学和编程AI会变得更强

AIME（美国数学邀请赛）是高中数学的最高难度竞赛之一。Lightning OPD让AI在AIME 2024上达到了**69.9%**的准确率——这已经超过了大多数普通高中生。对于代码生成，LiveCodeBench v6上的准确率也从SFT基线的36.8%提升到了43.9%。

这些进步意味着，AI辅助学习数学和编程的体验会越来越好——题目的解答会更详细，代码的生成会更准确。

训练AI不再是"大厂的专利"

论文特别强调了这一点：标准OPD需要多GPU老师服务器，这在大多数高校和中小企业是不可行的。Lightning OPD把这个门槛降到了"一台普通训练服务器"就能跑的程度。

7. 结论

Lightning OPD的核心贡献有两点：

第一，提出了一个实用有效的离线蒸馏框架。通过"提前写好评分表"的方式，完全消除了在线老师服务器的必要性，同时保持了标准OPD的监督质量。4倍效率提升和30 GPU小时的低门槛，让更多研究者能够参与到LLM后训练的研究中。

第二，发现了"老师一致性"这个关键原则。论文通过严格的理论证明和大规模实验表明，SFT阶段和OPD阶段必须使用同一个老师模型——这是一个之前被整个领域忽视的设计原则。违反这个原则会引入不可消除的梯度偏差，导致训练永远达不到最优。

对于AI从业者来说，这意味着：如果你正在设计一个蒸馏流水线，先检查一下你的SFT老师和OPD老师是不是同一个——这可能是你模型性能上不去的真正原因。

引用与参考

论文信息

• 标题：Lightning OPD: Efficient Post-Training for Large Reasoning Models with Offline On-Policy Distillation
• 作者：Yecheng Wu, Song Han, Hai Cai（Nvidia）
• arXiv ID：2604.13010
• 原文链接：https://arxiv.org/abs/2604.13010
• PDF链接：https://arxiv.org/pdf/2604.13010

论文章节结构

1. Introduction（引言）
2. Related Work（相关工作）

• LLM Post-Training（LLM后训练）
• On-Policy Distillation（On-Policy蒸馏）
• Off-Policy Reinforcement Learning（离线强化学习）

3. Methodology（方法论）

• 3.1 Preliminaries（预备知识）
• 3.2 Lightning On-Policy Distillation（Lightning OPD）
• 3.3 Theoretical Analysis（理论分析）
• 3.4 Discussion（讨论）

4. Experiments（实验）

• 4.1 Experimental Setup（实验设置）
• 4.2 Main Results（主要结果）
• 4.3 Training Cost（训练成本）
• 4.4 Training Dynamics（训练动态）
• 4.5 Ablation Study（消融实验）

5. Conclusion（结论）

• Appendix A Proofs（附录：证明）
• Appendix B Hyperparameters（附录：超参数）

核心参考文献

#	文献	关键贡献
[1]	Agarwal et al. (2024)	"Policy Distillation"，OPD的原始工作
[2]	Lu et al. (2025)	"On-Policy Distillation"，将OPD应用于LLaMA系列
[3]	Yang et al. (2025)	"Qwen3"，Qwen3模型系列发布
[4]	Guo et al. (2025)	"DeepSeek"，DeepSeek推理模型系列
[5]	Yu et al. (2025)	"DAPO"，强化学习后训练方法
[6]	Schulman et al. (2017)	"PPO"，Proximal Policy Optimization
[7]	Guha et al. (2025)	"OpenThoughts-3"，大规模数学推理轨迹数据集
[8]	Singh et al. (2025)	"OpenAI o1"，OpenAI推理模型
[9]	Team (2026)	"Kimi"，Kimi推理模型系列