从"一眼出答案"到"慢慢想清楚"
想象你正在解一道复杂的数学题。有些同学扫一眼就直接写答案,结果经常出错;而另一些同学会一步步推导,中间还不断检查自己的思路,最后反而做得更对。现在的AI大模型也面临类似的选择——是快速给出回答,还是花时间深入思考?
OpenAI的o系列、DeepSeek的R系列等顶尖AI产品,都选择了后者:让模型在回答前生成很长的"思维链"(Chain-of-Thought),就像人类在草稿纸上写写画画、反复推敲一样。这种"测试时扩展"策略已经成为提升AI推理能力的关键技术。
但问题是:我们如何让AI自发地学会这种深度思考?
传统方法的困境:所有 token 一视同仁
目前主流的训练方法(如GRPO及其改进版DAPO)存在一个根本性的缺陷。它们通常只在最后判断答案对错,然后把这个结果均匀地反馈给生成过程中的每一个token(可以粗略理解为每一个词或符号)。
打个比方:老师批改作文,只看最后结论对不对,然后告诉学生"你这篇文章的每一个字都一样重要"——这显然不合理。实际上,文章中的某些关键转折句可能决定了全文走向,而一些过渡性的词语则无关紧要。
这种"粗粒度"的信用分配方式导致了一个严重问题:模型无法区分关键推理步骤和无关内容。结果就是,AI生成的思维链长度很容易陷入停滞——模型学会了某种中等长度的解题套路后,就懒得再深入探索了。
研究人员观察到,用传统方法训练的模型,其思维链长度往往在4000个token左右就止步不前,性能也随之遇到瓶颈。
FIPO的核心理念:看未来,定权重
阿里巴巴Qwen Pilot团队提出的FIPO方法,核心思想非常直观:一个token的重要性,应该由它引发的后续行为来决定。
具体来说,FIPO引入了一个叫做"Future-KL"的指标。KL散度是衡量两个概率分布差异的常用工具,而Future-KL计算的是:从当前token开始,到整个序列结束,模型策略发生了多大的累积变化。
- 如果某个token之后,模型持续沿着一条"靠谱"的路径走下去,Future-KL为正,说明这个token是个好的"锚点",应该被强化。
- 如果某个token之后,模型逐渐偏离了好的方向,Future-KL为负,说明这个token有问题,即使它所在的序列最后碰巧对了,也要降低它的权重。
为了让这个机制更稳定,FIPO还做了几个巧妙的设计:
软衰减窗口:远处的未来不确定性太高,所以用指数衰减的方式降低远处token的影响,只重点关注接下来大约32个token的"局部未来"。
极端值过滤:如果某个token的重要性比例已经触发了安全阈值(比如超过10倍),就把它屏蔽掉,防止异常值破坏训练稳定性。
影响权重裁剪:把Future-KL映射到一个有界的乘法因子(比如0.8到1.2之间),避免极端值导致梯度爆炸。
实际效果:从4000到10000+的飞跃
在Qwen2.5-32B基础模型上的实验结果令人印象深刻:
思维链长度:FIPO成功打破了DAPO基线的长度停滞。平均长度从约4000个token稳步增长到超过10000个token,最高可达12000+。更重要的是,这不是个别"话痨"样本拉动的,而是从最短到最长的各个分位数都在同步增长——说明模型整体都在变得更"深思熟虑"。
推理准确率:在AIME 2024数学竞赛基准上,FIPO的Pass@1准确率从基线的50.0%提升到峰值58.0%(收敛于56.0%),不仅超过了同规模的DeepSeek-R1-Zero-Math-32B(约47.0%),也超过了OpenAI的o1-mini(约56.0%)。
有趣的是,FIPO的训练奖励(raw reward)实际上比基线更低。这是因为FIPO生成的回答更长,触发了"过长惩罚"。但这恰恰说明:FIPO不是在优化表面的奖励分数,而是在探索更深层的推理结构。
训练动态:平滑而持续的成长
通过分析训练过程,研究者发现了FIPO成功的几个关键迹象:
优势信号的持续性:FIPO的"响应长度加权平均优势"在整个训练过程中保持上升趋势,意味着更长的回答确实对应着更高的相对质量。而DAPO基线的这一指标却逐渐下降,说明它未能将长度转化为有效的推理收益。
策略演进的平滑性:FIPO的策略KL散度(衡量与旧策略的差异)稳步上升,梯度范数保持低位且稳定,熵(衡量探索程度)也持续健康增长。相比之下,DAPO的训练过程充满剧烈波动,经常出现梯度 spikes 和熵的震荡。
动态采样的效率:DAPO在后期需要采样越来越多的批次才能获得有效的训练数据,暗示模型可能在过拟合训练集、生成缺乏区分度的样本。FIPO则始终保持较低的采样需求,说明它在积极探索而非死记硬背。
四个阶段的进化
通过案例分析,研究者观察到FIPO训练过程中模型行为的四个阶段:
第一阶段:表面规划——模型只会生成模板化的解题大纲,没有实质推导,经常幻觉出错误答案。
第二阶段:线性执行——模型能正确执行标准的思维链,找到答案就立即终止,缺乏自我验证。这是DAPO最终收敛的状态。
第三阶段:涌现式自我反思——模型开始利用更长的token预算进行自发验证,尝试用不同方法(如从代数转向几何视角)交叉检验自己的结论。
第四阶段:系统性深度推理——模型成熟为"计算密集型"策略,进行多轮符号重推导和细粒度算术验证,把长度当作确保正确性的关键资源。
这种自发涌现的自我验证行为,与OpenAI o系列和DeepSeek-R1等先进模型的推理模式高度相似。
局限与展望
当然,FIPO并非万能。首先,更长的推理链意味着更高的训练和推理成本,这是资源受限场景下的现实挑战。研究者认为,应该先"解锁"长推理能力,再考虑如何压缩和加速。
其次,目前的主要验证集中在数学领域。虽然数学是检验深度推理的严格试金石,但FIPO在更开放、结构更松散的领域(如创意写作、多轮对话)的表现还有待探索。
另外,FIPO目前是在"干净"的基础模型上从零开始培养推理能力,尚未充分测试在已经过大量思维链数据微调的模型上的效果。
结语
FIPO的意义在于证明了一件事:无需复杂的价值网络(critic model),也能在高效的GRPO框架内实现细粒度的信用分配。这为大规模强化学习训练提供了一条更简洁、更可扩展的路径。
通过关注"未来"来评估"现在",FIPO让AI学会了什么值得深入、什么应该放弃——这种"前瞻性"的思维方式,或许正是从快速反应走向真正智能的关键一步。
---
论文信息:FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization,Qwen Pilot Team, Alibaba Group,2026年3月
夜雨聆风