乐于分享
好东西不私藏

当AI学会“打腹稿”:循环思考如何让大模型真正触达推理?

当AI学会“打腹稿”:循环思考如何让大模型真正触达推理?

如果大语言模型的知识是一座图书馆,那么它最擅长的就是快速查找单本书。但它却常常在需要串联几本书完成一份研究报告时,陷入沉默。2026年4月9日提交的一篇预印本(arXiv:2604.07822)试图为它安装一个“思维循环”引擎,让AI学会在内心里反复推演,直至找到答案。

我们常常惊叹于大语言模型(LLM)的博闻强记,它能瞬间告诉你珠穆朗玛峰的高度,或复述莎士比亚的十四行诗。然而,一旦你抛出一个需要几步简单推理的问题,比如“张三的父亲是李四,李四的哥哥是王五,那么王五和张三是什么关系?”,模型的回答就可能开始闪烁其词,甚至胡言乱语。
这并非因为它“不知道”这些关系,而是因为它不擅长组合已知的知识。来自俄亥俄州立大学的Harsh Kohli等研究人员,将这种在单次前向传播中组合知识与规则的能力,称为“隐式推理”。他们发现,这正是当前Transformer架构大模型的阿喀琉斯之踵。模型记住了海量“原子事实”,却难以将它们像乐高积木一样拼接起来,去解决一个从未见过的具体组合的新问题。
那么,如何教会AI这种“组合思维”?Harsh Kohli等人的答案出奇地简洁:让模型学会“打腹稿”。他们提出的“循环深度Transformer”,其核心思想就像我们人类面对复杂问题时的思考过程——不是一蹴而就,而是反复琢磨,在内心进行多次迭代推演。

从“翻书”到“推演”:循环架构的思维革命

要理解这项工作的突破,咱们得先看看标准Transformer是怎么“思考”的。你可以把它想象成一个固定深度的流水线。输入问题(比如“张三的父亲是谁?”)从流水线入口进入,经过一层又一层固定的处理(注意力机制、前馈网络),最终在出口吐出答案。每一层都有自己独特的参数,负责提取不同层次的特征。这种架构擅长模式匹配和记忆检索,就像一台高速翻页机,能在庞大的记忆库中快速定位信息。
但它的瓶颈也在于此:流水线的深度是固定的。一旦问题需要比流水线层数更多的推理步骤,模型就无能为力了。更关键的是,每一层只“专精”于处理特定抽象层次的信息,缺乏反复咀嚼同一信息、进行多轮迭代计算的能力。这就像只允许你读一遍题目就必须交卷,没有回头检查和逐步推导的机会。
Harsh Kohli等人提出的“循环深度Transformer”,则彻底改变了这个范式。他们设计了一个包含若干层(比如4层)的Transformer基础块。关键创新在于,在推理时,这个基础块可以被重复使用多次。输入首先进入这个块,产生一个中间表示;这个表示不是直接输出,而是重新送回到同一个块的起点,开始第二轮处理;如此循环往复,直到达到预设的循环次数。
这相当于为模型安装了一个“思维循环”的引擎。模型不再是一次性通过一个很深的静态网络,而是在一个相对浅但可循环的“思考室”里,对问题进行多轮迭代加工。每一次循环,都可以看作是对问题的一次深化理解或一次推理步骤的推进。计算量(循环次数)可以根据问题的复杂度动态分配,简单问题少想几轮,复杂问题就多琢磨几遍。
然而,让同一组参数反复工作,面临一个巨大的技术挑战:训练稳定性。如果初始化不当,多次循环可能导致信号爆炸或消失,模型根本无法学习。研究团队巧妙地采用了零初始化策略,将关键矩阵初始化为零,使得在训练开始时,无论循环多少次,模型都近似一个“恒等映射”,即输出几乎等于输入。这为稳定的梯度传播和有效的学习奠定了基础,是模型能够稳定“打腹稿”而不至于思维混乱的关键。

“顿悟”时刻:从死记硬背到真正推理

有了新的“思考引擎”,模型的表现如何?研究团队设计了一个精妙的“知识图谱推理”测试来检验。想象一个微型社会关系网络,里面有2000个人(实体)和200种关系(如“父亲”、“同事”)。模型的任务是回答诸如“A的父亲的同事是谁?”这样的两跳推理问题。
实验设置了两个关键测试场景:一是“分布内”测试,问题中涉及的关系和人在训练中都见过,只是组合方式是新的;二是更具挑战的“系统性泛化”测试,问题中涉及的基础事实(如“A的父亲是B”)本身在训练中就从未出现过,要求模型必须将完全陌生的知识组合起来。
结果令人印象深刻。标准的4层Transformer(相当于循环次数为1)在系统性泛化测试上一败涂地,准确率为零。它完全无法处理未见过的原子事实组合。然而,哪怕只是将同一个4层块循环使用2次(R=2),模型就开始展现出非平凡的泛化能力。当循环次数增加到4次(R=4)时,模型不仅能泛化,学习收敛速度还大大加快。
更引人入胜的是模型学习过程中的“顿悟”现象。研究人员通过“Logit lens^[1]”等技术窥探模型内部,发现其掌握推理的过程并非平滑渐进,而是呈现清晰的三段式戏剧性转变。
[1] Interpreting GPT: the logit lens,  https://www.lesswrong.com/posts/AcKRB8wDpdaN6v6ru/interpreting-gpt-the-logit-lens
最初是死记硬背阶段:模型拼命记住训练集中的所有问题和答案对应关系,在训练集上表现完美,但毫无泛化能力,就像学生靠背题来应付考试。
接着,经过长时间看似停滞的训练后,模型突然进入了分布内泛化阶段:它开始能正确回答那些由已知事实构成的新组合问题了。内部状态分析显示,此时模型已经学会了第一步——可靠地推断出中间实体(“桥实体”,如例子中的“父亲”是谁)。
最后,在分布内泛化近乎完美之后,真正的系统性泛化能力才姗姗来迟。模型内部形成了完整的分步推理机制:先解码桥实体,再利用这个结果去解码最终答案。系统性泛化,只诞生于这种内在的、分步的推理机制形成之后。标准Transformer之所以失败,正是因为它即便偶尔能猜出桥实体,其深层网络也缺乏对完全陌生事实的有效编码,无法完成推理链条的第二步。

思维的弹性:从学会规则到无限外推

如果说两跳推理考验的是组合的基本功,那么“深度外推”挑战的则是思维的弹性与扩展性。这关乎一个更根本的问题:如果模型只在较简单的问题(例如最多5步推理)上训练过,它能否通过“多想想”(增加推理循环次数),来解决复杂得多(例如20步推理)的问题?
这就像只教了小学生加减乘除,然后给他一道需要连环套用这些运算的复杂应用题,并允许他打更多草稿。他能做出来吗?
Harsh Kohli等人的研究给出了乐观但附有条件的答案。他们发现,增加训练时的“思考轮数”上限,能直接提升模型可学会的推理深度。一个被允许在训练中“思考”8轮的模型,比只能“思考”5轮的模型,能掌握更深的递归问题。
而最佳的“训练策略”并非固定轮数,而是动态轮数——在训练时,每个问题分配的思考轮数随机变化(例如从泊松分布中采样)。这模拟了现实世界中我们无法预知每个问题需要多少思考量的情况。动态策略让模型变得更具适应性,最终能达到的可学习推理深度,甚至超过了任何固定轮数的策略。
最关键的发现在于推理阶段。当使用与训练时相同的循环次数去处理更复杂的问题时,模型基本都会失败。但是,如果允许模型在推理时“多花点时间思考”——即增加循环迭代次数——其处理复杂问题的能力便立刻得到扩展。迭代次数越多,能攻克的任务复杂度就越高。这证明了循环深度架构赋予了模型一种宝贵的属性:通过增加计算量(思考时间)来换取对更复杂问题的处理能力,即一种“计算-性能”的缩放效应。
当然,思考并非越多越好。研究也观察到了“过度思考”现象:当推理迭代次数超过某个最优值后,性能不升反降。就像我们纠结于一个问题太久,反而可能钻牛角尖、离正确答案越来越远。模型预测正确时的置信度(通过Logit差值衡量)会随着无效迭代的增加而逐渐衰减。为此,团队还设计了一套自适应停止机制,通过监控输出分布的变化和预测置信度,让模型自己决定“想明白了,可以停笔了”,从而智能分配计算资源,提升效率。
值得注意的是,研究者在早期实验中曾观察到一种“捷径效应”:模型有时看似解决了极深(如80步)的推理问题,但通过精细的内部状态分析发现,它只是学会了从问题末尾的几个关系词直接“猜”答案,而非真正执行多步推理。这提醒我们,评估模型的推理能力,必须穿透表面准确率,洞察其内在的思考路径是否扎实。

通往真正智能的阶梯

这项名为《循环、思考与泛化(Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers)》的研究,其意义远不止于提出一个新模型架构。它像一台精密的思维显微镜,让我们得以窥见大语言模型从“记忆大师”迈向“推理者”过程中,内部发生的艰难而奇妙的转变。
它揭示了一个核心原理:真正的组合泛化能力,并非源于更多的参数或更深的静态网络,而是源于一种能够进行迭代、循环计算的内部过程。循环深度Transformer提供了一种优雅的实现方式,让模型能够将固定的参数转化为动态的、与问题复杂度相适应的计算过程。
这为未来AI的发展指明了一条道路。与其无止境地堆叠参数和层数,不如思考如何赋予模型更灵活、更高效的内部计算范式。让AI学会根据问题的难易,自主分配“思考深度”,在需要时进行反复推演,这或许才是实现稳健、可靠推理能力的关键。
当然,这项研究是在高度受控、结构化的“玩具”任务中进行的,抽象掉了自然语言的诸多复杂性和噪音。将其原理应用于海量数据训练的真实大模型,并处理开放域的复杂推理,仍是巨大的挑战。但毫无疑问,Harsh Kohli等人的工作,为我们理解并塑造机器的“思考”方式(AI可解释性问题),打下了基础。
当AI不仅拥有知识的图书馆,更拥有一间可以反复踱步、推演、打腹稿的“思考室”时,我们离真正理解智能的奥秘,或许就更近了一步。

参考文献

Loop, Think, & Generalize: Implicit Reasoning in Recurrent-Depth Transformers, arXiv:2604.07822, https://arxiv.org/abs/2604.07822
更多阅读
加入我们的社区