AI幻觉,竟能提升模型性能?

AI幻觉，竟能提升模型性能？

AI的“胡思乱想”，并非一无是处。

最新研究发现，在多模态大语言模型（MLLMs）中，通过强化学习（RL）诱导幻觉，反而能提升模型推理性能。这一发现挑战了AI训练的普遍认知，揭示了RL训练对视觉信息利用的复杂性。

核心观点

●RL训练即使在损坏数据下也能提升性能，有时甚至超越标准训练

●大型MLLMs从幻觉轨迹中获益更多，主要放大了底层语言模型的推理能力

●视觉信息有时会阻碍小型模型的性能，模型规模影响幻觉诱导训练效果

Understanding the Role of Hallucination in Reinforcement PostTraining ofMultimodal Reasoning Models

多模态大语言模型幻觉研究框架

强化学习（RL）在大型语言模型（LLM）推理任务中取得了显著成功，尤其在解决复杂多步问题方面展现出强大的推理能力。这促使研究人员探索将RL应用于多模态大语言模型（MLLM）的后训练，以增强其视觉推理能力。

尽管许多研究报告RL训练显著提升了MLLM的推理准确性，但RL训练是否真正使模型从视觉信息中学习，以及其如何提升多模态推理能力，仍不明确。

为解答RL训练MLLM的机制问题，研究人员提出了“幻觉即线索”（Hallucination-as-Cue）分析框架。该框架旨在从模型幻觉的角度，调查RL后训练对多模态推理模型的影响。

随着生成推理链的增长，MLLM倾向于更多地依赖内部生成的文本先验，而非视觉信息，这增加了幻觉的可能性。然而，幻觉并不总是导致视觉推理中的错误预测，这种现象促使研究人员将幻觉视为理解视觉推理训练的诊断信号。

研究人员在“幻觉即线索”框架中引入了三种模态特定损坏策略，这些策略通过移除或替换推导正确答案所需的关键信息，迫使模型通过幻觉进行推理。这些策略包括：空白图像替换（BI）、随机图像替换（RI）和文本信息移除（TR）。

该框架通过在训练和测试阶段应用模态特定损坏，迫使模型从损坏的输入和内部幻觉推理轨迹中生成响应。这种设置有助于系统分析模型行为，研究损坏对训练和测试数据的影响、模型规模效应以及现有视觉推理基准的特性。

研究发现，即使在纯粹的幻觉诱导设置下进行RL后训练，模型推理性能仍能显著提升，在某些情况下甚至超越标准训练。这表明RL训练可能更多地依赖文本先验而非视觉信息。

研究表明，大型MLLM从幻觉轨迹中受益更多，这暗示RL训练主要放大了底层LLM固有的推理能力。

幻觉诱导推理分析显示，视觉信息有时甚至会阻碍小型模型的性能。这挑战了关于MLLM推理训练的普遍假设，并促使开发更具模态感知能力的RL训练设计。

多模态大语言模型推理与幻觉研究进展

早期的多模态大语言模型（MLLM），如BLIP系列，主要关注视觉-语言对齐，展示了在视觉输入条件下改进文本生成的潜力。LLaVA通过引入视觉指令微调框架，进一步推动了多模态推理的发展。

尽管后续开发出更大模型容量和训练数据集的模型，并在视觉问答等任务上表现出色，但这些模型在视觉数学推理等复杂任务中仍面临挑战，这些任务需要多步骤推理能力。

为解决上述限制，近期研究探索了多种方法增强MLLM的推理能力，包括长链式思考生成、蒙特卡洛树搜索和潜在空间推理。受DeepSeek-R1等推理LLM成功的启发，许多研究开始探索基于强化学习（RL）的MLLM后训练策略。

当前推理MLLM中的幻觉研究仍处于早期阶段，大多数现有研究主要集中在幻觉缓解或基准评估。准确性下降被视为模型幻觉的隐式指标，或依赖大型MLLM检测幻觉输出。

近期一项研究表明，MLLM即使在没有图像访问权限的情况下，也能在多模态基准上保持高准确性。然而，目前尚无研究系统性地调查推理MLLM训练过程中幻觉的影响。

强化学习在推理后训练中的应用

基于规则的奖励函数强化学习（RL）已被证明能有效增强大型语言模型（LLM）的推理能力。这些奖励函数检查推理轨迹是否遵循特定格式以及预测答案是否正确。

其中，组相对策略优化（GRPO）算法通过对一组采样完成中的奖励进行归一化，扩展了标准策略梯度方法，从而无需训练奖励模型。

GRPO目标函数通过组相对优势和KL惩罚优化PPO风格的裁剪代理，以实现模型参数的更新。

在实践中，GRPO训练MLLM与训练LLM相似，所有模态都以token形式输入模型。

GRPO将策略函数扩展为同时考虑文本提示和视觉token，从而处理多模态输入。

幻觉即线索框架的实验分析

研究在Geometry3K、MMR1-V0和CLEVR三个数据集上训练模型。Geometry3K是常用的视觉数学推理数据集，MMR1-V0是组合型视觉数学问题数据集，CLEVR是经典的视觉推理数据集。

除了Geometry3K的测试集，模型还在MathVision、MathVerse、MathVista和We-Math四个多模态数学推理基准上进行评估。这些基准涵盖不同类型的视觉数学问题，难度、标注粒度和问题分布各异。

实验使用Qwen2.5-VL-3B和Qwen2.5-VL-7B模型，并遵循EasyR1训练框架中的GRPO实现。模型在每个数据集上训练15个epoch，使用AdamW优化器，学习率为$1\times 10^{-6}$，权重衰减为$1\times 10^{-2}$，梯度裁剪最大范数为1.0。GRPO特有超参数包括：rollout大小为5，采样温度为0.7，KL散度权重为0.01。

为全面理解RL后训练，研究考虑了八种评估设置，包括标准训练集/测试集性能、正常训练模型在损坏数据上的性能、幻觉诱导训练模型在正常/损坏数据上的性能。这些设置旨在揭示模型在不同输入条件下的行为。

在Geometry3K数据集上，RL后训练（GRPO）提升了Qwen2.5-VL基模型的训练和测试准确性。即使在模态特定损坏下，RL后训练仍能提升模型推理性能。

在空白图像替换（BI）训练下，模型纯粹基于文本信息进行“视觉”推理，并在训练早期就提升了训练和测试准确性，表明RL-MLLM训练倾向于文本信号。性能的持续提升表明，即使没有实际视觉内容，RL多模态推理方法也能从幻觉视觉推理中学习。

在随机图像替换（RI）训练下，性能在训练初期略有下降，但几步后显著提升。这表明即使训练图像提供不正确信息，模型也不会崩溃，仍能从RL训练中受益，幻觉推理甚至能增强MLLM的推理能力。

文本信息移除（TR）训练的整体趋势与RI训练相似。尽管训练中移除了关键文本条件，但部分图像仍提供问题上下文。然而，TR训练并未显示出比BI和RI训练更明显的性能提升，表明当前RL多模态推理训练可能尚未有效利用视觉信息。

一小部分积极的幻觉轨迹确实展现了正确的文本推理模式。奖励这些轨迹鼓励模型学习有效的推理行为，同时抑制消极的幻觉轨迹，防止过度幻觉。

在推理时应用模态特定损坏，GRPO训练和幻觉诱导训练模型在训练步骤中均显示出比基线Qwen2.5-VL-3B模型更明显的性能提升。这表明增强的推理能力增加了在损坏输入下产生正确答案的可能性。

即使模型以相同的损坏类型进行训练，幻觉诱导训练在损坏推理方面并未比标准GRPO训练显示出明显优势。这表明模型并未过度拟合训练中的幻觉内容，而是学习了通用的推理能力。

在Geometry3K数据集之外的视觉推理基准测试中，模态特定损坏的RL训练对多模态推理模型仍显示出积极影响。Qwen2.5-VL-3B模型的所有幻觉诱导训练变体在所有基准评估中均有所改进，尤其在MathVista上，GRPO-RI和GRPO-TR的性能与正常GRPO训练相当。

Qwen2.5-VL-7B模型的所有RL训练变体，包括模态特定损坏，其性能与使用正确配对图像-文本输入的标准训练相当。更令人惊讶的是，RI训练变体在平均性能上甚至超越了标准训练。这表明RL训练可能并未有效利用视觉输入，而是主要放大了底层语言模型的固有推理能力。

大型模型生成和学习幻觉正向轨迹的能力更强，表明模型容量在从这些训练信号中受益方面起着关键作用。例如，7B模型在Geometry3K-BI上的准确率从9.7%提高到14.1%，而3B模型从7.6%提高到10.4%。

幻觉诱导训练在组合数学数据集（如MMR1-V0）和传统视觉推理数据集（如CLEVR）上，也比基线模型有显著改进。这表明幻觉诱导训练的效果不限于特定训练分布，而是能泛化到不同类型的训练数据集。

随着模型规模的增加，幻觉诱导训练在视觉推理任务上的性能与标准GRPO训练相当，甚至更优。

在评估时应用损坏，模型性能在大多数情况下大幅下降，但下降幅度因基准而异。

在MathVision基准上，Qwen2.5-VL-3B模型在BI损坏推理下的准确率甚至高于正常推理。这可能是因为MathVision的问题来源于真实数学竞赛，视觉信息有时会分散注意力。对于小型模型，移除图像甚至可以简化推理过程。

当使用大型模型（如Qwen2.5-VL-7B）或应用RL后训练时，上述现象消失。这表明大型模型和RL训练能增强模型的推理能力，使视觉输入更具信息性而非干扰性。

在BI损坏推理下，BI损坏训练的性能下降幅度小于正常GRPO训练，尤其在Vision Dominant和Text Dominant问题上。这表明BI训练可能鼓励模型不过度依赖任何主导模态，从而形成更平衡的推理行为。

使用Qwen2.5-VL-7B模型，文本主导问题在BI损坏推理下的性能下降最少，这符合当前多模态模型严重依赖文本线索的预期。RL训练下，最大的性能提升也发生在文本主导类别。

损坏训练不会损坏模型，因为大多数幻觉轨迹是负面的，在训练中被忽略或抑制。RL训练比监督微调更具弹性，不易遗忘。一小部分积极的幻觉轨迹展现了正确的文本推理模式，奖励这些轨迹鼓励模型学习有效推理行为。幻觉诱导训练并未导致更高的幻觉诱导测试准确性，表明模型学习的是通用推理能力。

大型模型生成积极幻觉轨迹的能力更强，且能更好地从这些轨迹中学习。例如，7B模型在Geometry3K-BI上的初始准确率为9.7%，而3B模型为7.6%。7B模型准确率提升了4.4%，而3B模型提升了2.8%。

结论与展望

研究提出了“幻觉即线索”框架，通过引入三种模态特定损坏，系统分析了RL在多模态推理中的作用以及模型在幻觉诱导条件下的行为。

研究发现，幻觉诱导训练即使在严重损坏的数据上也能持续提升性能，有时甚至超越标准RL训练。大型MLLM从幻觉轨迹中受益更多，表明RL主要放大了底层LLM的固有推理能力。幻觉诱导推理分析显示，视觉信息甚至可能阻碍小型模型的性能。

这些发现挑战了RL后训练能有效利用视觉信息的普遍假设，为RL多模态训练的局限性提供了新见解，并启发了未来的改进方向。

尽管研究提供了初步分析，但观察到的行为背后的机制复杂且多方面，需要进一步深入调查。

本研究主要关注主流的RL训练方法，而其他推理范式（如潜在空间推理）则留待未来工作探索。