让AI学会＂深思熟虑＂:FIPO如何打破大模型推理的瓶颈

从"一眼出答案"到"慢慢想清楚"

想象你正在解一道复杂的数学题。有些同学扫一眼就直接写答案，结果经常出错；而另一些同学会一步步推导，中间还不断检查自己的思路，最后反而做得更对。现在的AI大模型也面临类似的选择——是快速给出回答，还是花时间深入思考？

OpenAI的o系列、DeepSeek的R系列等顶尖AI产品，都选择了后者：让模型在回答前生成很长的"思维链"（Chain-of-Thought），就像人类在草稿纸上写写画画、反复推敲一样。这种"测试时扩展"策略已经成为提升AI推理能力的关键技术。

但问题是：我们如何让AI自发地学会这种深度思考？

传统方法的困境：所有 token 一视同仁

目前主流的训练方法（如GRPO及其改进版DAPO）存在一个根本性的缺陷。它们通常只在最后判断答案对错，然后把这个结果均匀地反馈给生成过程中的每一个token（可以粗略理解为每一个词或符号）。

打个比方：老师批改作文，只看最后结论对不对，然后告诉学生"你这篇文章的每一个字都一样重要"——这显然不合理。实际上，文章中的某些关键转折句可能决定了全文走向，而一些过渡性的词语则无关紧要。

这种"粗粒度"的信用分配方式导致了一个严重问题：模型无法区分关键推理步骤和无关内容。结果就是，AI生成的思维链长度很容易陷入停滞——模型学会了某种中等长度的解题套路后，就懒得再深入探索了。

研究人员观察到，用传统方法训练的模型，其思维链长度往往在4000个token左右就止步不前，性能也随之遇到瓶颈。

FIPO的核心理念：看未来，定权重

阿里巴巴Qwen Pilot团队提出的FIPO方法，核心思想非常直观：一个token的重要性，应该由它引发的后续行为来决定。

具体来说，FIPO引入了一个叫做"Future-KL"的指标。KL散度是衡量两个概率分布差异的常用工具，而Future-KL计算的是：从当前token开始，到整个序列结束，模型策略发生了多大的累积变化。

- 如果某个token之后，模型持续沿着一条"靠谱"的路径走下去，Future-KL为正，说明这个token是个好的"锚点"，应该被强化。

- 如果某个token之后，模型逐渐偏离了好的方向，Future-KL为负，说明这个token有问题，即使它所在的序列最后碰巧对了，也要降低它的权重。

为了让这个机制更稳定，FIPO还做了几个巧妙的设计：

软衰减窗口：远处的未来不确定性太高，所以用指数衰减的方式降低远处token的影响，只重点关注接下来大约32个token的"局部未来"。

极端值过滤：如果某个token的重要性比例已经触发了安全阈值（比如超过10倍），就把它屏蔽掉，防止异常值破坏训练稳定性。

影响权重裁剪：把Future-KL映射到一个有界的乘法因子（比如0.8到1.2之间），避免极端值导致梯度爆炸。

实际效果：从4000到10000+的飞跃

在Qwen2.5-32B基础模型上的实验结果令人印象深刻：

思维链长度：FIPO成功打破了DAPO基线的长度停滞。平均长度从约4000个token稳步增长到超过10000个token，最高可达12000+。更重要的是，这不是个别"话痨"样本拉动的，而是从最短到最长的各个分位数都在同步增长——说明模型整体都在变得更"深思熟虑"。

推理准确率：在AIME 2024数学竞赛基准上，FIPO的Pass@1准确率从基线的50.0%提升到峰值58.0%（收敛于56.0%），不仅超过了同规模的DeepSeek-R1-Zero-Math-32B（约47.0%），也超过了OpenAI的o1-mini（约56.0%）。

有趣的是，FIPO的训练奖励（raw reward）实际上比基线更低。这是因为FIPO生成的回答更长，触发了"过长惩罚"。但这恰恰说明：FIPO不是在优化表面的奖励分数，而是在探索更深层的推理结构。

训练动态：平滑而持续的成长

通过分析训练过程，研究者发现了FIPO成功的几个关键迹象：

优势信号的持续性：FIPO的"响应长度加权平均优势"在整个训练过程中保持上升趋势，意味着更长的回答确实对应着更高的相对质量。而DAPO基线的这一指标却逐渐下降，说明它未能将长度转化为有效的推理收益。

策略演进的平滑性：FIPO的策略KL散度（衡量与旧策略的差异）稳步上升，梯度范数保持低位且稳定，熵（衡量探索程度）也持续健康增长。相比之下，DAPO的训练过程充满剧烈波动，经常出现梯度 spikes 和熵的震荡。

动态采样的效率：DAPO在后期需要采样越来越多的批次才能获得有效的训练数据，暗示模型可能在过拟合训练集、生成缺乏区分度的样本。FIPO则始终保持较低的采样需求，说明它在积极探索而非死记硬背。

四个阶段的进化

通过案例分析，研究者观察到FIPO训练过程中模型行为的四个阶段：

第一阶段：表面规划——模型只会生成模板化的解题大纲，没有实质推导，经常幻觉出错误答案。

第二阶段：线性执行——模型能正确执行标准的思维链，找到答案就立即终止，缺乏自我验证。这是DAPO最终收敛的状态。

第三阶段：涌现式自我反思——模型开始利用更长的token预算进行自发验证，尝试用不同方法（如从代数转向几何视角）交叉检验自己的结论。

第四阶段：系统性深度推理——模型成熟为"计算密集型"策略，进行多轮符号重推导和细粒度算术验证，把长度当作确保正确性的关键资源。

这种自发涌现的自我验证行为，与OpenAI o系列和DeepSeek-R1等先进模型的推理模式高度相似。

局限与展望

当然，FIPO并非万能。首先，更长的推理链意味着更高的训练和推理成本，这是资源受限场景下的现实挑战。研究者认为，应该先"解锁"长推理能力，再考虑如何压缩和加速。

其次，目前的主要验证集中在数学领域。虽然数学是检验深度推理的严格试金石，但FIPO在更开放、结构更松散的领域（如创意写作、多轮对话）的表现还有待探索。

另外，FIPO目前是在"干净"的基础模型上从零开始培养推理能力，尚未充分测试在已经过大量思维链数据微调的模型上的效果。

结语

FIPO的意义在于证明了一件事：无需复杂的价值网络（critic model），也能在高效的GRPO框架内实现细粒度的信用分配。这为大规模强化学习训练提供了一条更简洁、更可扩展的路径。

通过关注"未来"来评估"现在"，FIPO让AI学会了什么值得深入、什么应该放弃——这种"前瞻性"的思维方式，或许正是从快速反应走向真正智能的关键一步。

---

论文信息：FIPO: Eliciting Deep Reasoning with Future-KL Influenced Policy Optimization，Qwen Pilot Team, Alibaba Group，2026年3月