AAAI 2026 文档RAG终于会“边看边想”了:中科大提出LAT,用强化学习打通多模态推理链与视觉证据定位-夜雨聆风

AAAI 2026 文档RAG终于会“边看边想”了:中科大提出LAT,用强化学习打通多模态推理链与视觉证据定位

在多模态大模型越来越擅长“读图”“看文档”“回答问题”的当下，一个关键问题也越来越突出：

模型即使答对了，用户也未必知道它到底是“看对了”还是“蒙对了”。

尤其是在文档场景中，这个问题更严重。论文截图、网页文档、报告页面、表格页面，往往都包含大量密集信息。模型如果只是给出一个答案，却不能明确指出它究竟看了哪一页、哪一块区域、沿着什么推理路径找到证据，那么这样的回答，仍然很难被真正信任。

Shuochen Liu 等作者这篇论文，正是在解决这个问题。作者提出了一种新的思路：不仅让模型给答案，还要让模型像人一样，一边思考，一边指出自己正在看什么证据。

这篇论文最核心的创新，可以概括为两点：

提出 Chain-of-Evidence（CoE）范式

：把“推理链”与“视觉证据定位”统一起来；
提出 Look As You Think（LAT）框架

：用强化学习训练模型生成可验证的推理路径，而不仅仅是最终答案。

一、这篇论文到底在解决什么问题？

1.1 文档 RAG 已经很强，但“可验证性”还不够

作者关注的是 Visual Document Retrieval-Augmented Generation（VD-RAG），也就是视觉文档检索增强生成。简单来说，就是让视觉语言模型面对论文页面、网页截图、文档图片时，既能读取内容，又能回答问题。

这类任务的难点不只是“答出答案”，更在于：

文档页面信息密集，布局复杂；
同一个答案可能跨越标题、正文、表格、图注等多个区域；
多页场景下，模型还要先判断“哪一页相关”，再判断“页内哪一块相关”；
如果模型出现幻觉，用户很难回溯它到底错在什么地方。

已有工作虽然已经开始关注 visual evidence attribution（视觉证据归因），也就是让模型把答案和文档中的证据区域对应起来，但作者指出，现有方法仍有一个明显不足：

它们往往只给“最后答案对应的证据”，却没有把“中间推理过程”展示出来。

换句话说，过去很多方法更像是在做“结果归因”，而不是“过程归因”。

1.2 作者认为，真正可靠的文档问答，应该更像人类阅读

作者在论文中给出了一个非常直观的观察：人类在回答文档问题时，通常不是一下子就锁定最终答案，而是会经历一个逐步缩小范围的观察过程。

比如面对一个问题，人类可能会这样做：

先找到相关章节；
再定位相关句子或表格；
再确认具体数字或事实；
最后给出答案，并能说明依据是什么。

这其实是一种 从粗到细（coarse-to-fine） 的证据定位过程。

二、作者提出了什么新概念？——Chain-of-Evidence（CoE）

2.1 CoE 不是普通的 CoT，而是“带证据定位的推理链”

过去很多模型会生成 Chain-of-Thought（CoT），也就是文字化的思维链。但作者认为，这对于文档场景还不够。

因为在文档问答里，推理的每一步都最好能落回到一个具体的视觉证据上。于是，作者提出了 Chain-of-Evidence（CoE）。

可以把 CoE 理解为：

每一个推理步骤，不只是写出“想了什么”，还要同时标注“这一步看的证据在哪一页、哪个框里”。

这意味着，CoE 包含三层信息：

问题与文档输入

；
逐步推理文本

；
每一步推理所对应的页码与边界框

。

最后，模型除了输出答案，还要给出支撑最终答案的那一个关键证据区域。

2.2 CoE 的价值，不只是解释，更是“可核验”

CoE 的价值在于，它把原本模糊的多模态推理过程，变成了一条可以检查的轨迹。

这样的设计至少带来三层意义：

第一，结果更透明。用户不仅知道答案是什么，还知道答案是从哪里来的。

第二，过程更可追踪。如果模型答错了，可以回看它在哪一步开始偏离了正确证据。

第三，训练目标更明确。模型不再只被要求“最后答对”，而是被要求“每一步都尽量对齐正确证据”。

从这个角度看，作者并不是在原有的证据归因任务上做一点小修补，而是在重新定义“什么叫可靠的文档问答”。

三、围绕 CoE，作者设计了什么方法？——Look As You Think（LAT）

3.1 整体思路：先冷启动，再强化学习

为了让模型学会生成 CoE，作者提出了 Look As You Think（LAT） 框架。

这个框架分成两个阶段：

阶段一：冷启动数据构建与监督微调

作者先构建少量高质量 CoE 数据，让模型先学会“这种输出长什么样”。

阶段二：基于强化学习的细化优化

作者再让模型在奖励机制的引导下，进一步学习如何生成更可靠、更一致的证据化推理路径。

这个设计很重要，因为作者并不想依赖大规模人工标注的逐步证据数据。相反，作者希望：

用少量人工校验数据打底，再用强化学习把模型往“可验证推理”方向推上去。

四、阶段一做了什么？先把 CoE 数据“做出来”

4.1 冷启动数据不是人工全量标，而是“生成 + 过滤 + 人工校验”

作者没有一开始就依赖大规模人工构造 CoE 数据，而是采用了一种相对务实的路线：

从每个训练数据集中先采样 1000 个样本；
使用更强的专有模型 Gemini 2.5 Pro；
给它两个 CoE 示例作为 in-context demonstration；
让它自动生成带边界框标注的逐步推理；
再根据答案召回率过滤样本；
最后再人工核验和修正边界框漂移问题。

作者最终保留了回答正确、边界框也经过核验的样本，用这些高质量样本去做监督微调。

这一阶段的目标不是追求数据规模，而是让模型先形成一个基本能力：

知道“什么样的输出才算 CoE”。

4.2 这一阶段解决的是“格式感”和“初始行为模式”

作者用 LoRA 对视觉语言模型做参数高效微调，让模型学习如下能力：

如何把推理写成分步形式；
如何在步骤中插入证据框和页码；
如何把最终答案与关键证据对应起来。

论文把这一阶段得到的模型记为 Mdist。从后续消融实验来看，仅仅这个阶段，就已经能明显提升模型的表现，说明：

高质量的 CoE 冷启动样本，确实能让模型初步学会“边想边看”的输出习惯。

五、阶段二怎么做？作者把“过程正确”写进奖励函数里

如果说阶段一是在教模型“怎么写”，那么阶段二就是在教模型：

什么样的推理过程，才算真正有价值。

作者在强化学习阶段采用了 GRPO，并围绕任务目标设计了四类奖励。

5.1 奖励一：答案准确奖励（Accuracy Reward）

这一奖励首先关注的是：答案是否正确。

但作者并没有只用硬性的 exact match，而是做了一个更柔和的设计：

如果预测答案和真实答案可以软匹配，则给高奖励；
同时结合召回率，让部分语义相关但不完全一致的答案也能获得一定正向信号。

这样做的目的，是避免奖励过于稀疏，也避免模型因为表述形式略有差异就被完全否定。

这说明作者并没有把强化学习做成简单的“答对/答错”二分类，而是更注重训练信号的可持续性。

5.2 奖励二：步骤级证据归因奖励（Stepwise Attribution Reward）

这是整篇论文最核心的设计。

作者希望模型在每一步推理里，都能真正对齐对应的视觉证据，而不是随便给一个框。为此，作者做了两件事：

（1）衡量“这一步文字”和“这块图像区域”是否语义一致

作者把每一步推理文本，和它对应边界框裁出的图像区域，分别送入 ColQwen2 编码，再计算相似度。

也就是说，模型不能只写一句“我看到了表格中的数字”，还得让这句话和它框出来的区域在语义上匹配。

（2）限制不同步骤之间反复套用同一个大框

作者还额外计算不同边界框之间的重叠程度。如果多个步骤总是在重复使用高度相似的大区域，那么这种“看起来像在推理，实际上在偷懒”的行为，就会被抑制。

这一设计非常巧妙，因为它直接瞄准了一个常见漏洞：

模型可能会用一个又大又模糊的框，反复覆盖多个步骤，表面上像在做证据归因，实际上没有真正完成逐步定位。

作者通过重叠约束，鼓励模型形成真正的 粗到细定位路径，而不是机械重复。

更关键的是，这个步骤级奖励并不是独立发放的。作者要求：

只有当答案本身足够正确时，
这些步骤级证据对齐奖励才真正起作用。

这意味着，作者希望奖励的不是“形式上像推理”的过程，而是：

那些既能导向正确答案、又在过程上证据一致的推理路径。

5.3 奖励三：最终答案证据定位奖励（Grounding Reward）

除了过程中的每一步，作者还要求模型必须把最终答案的支撑证据找准。

这一奖励的标准很明确：

预测的答案证据页码要正确；
最终证据框与真实证据框的 IoU 要超过阈值。

这一步保证的是：模型不只是过程里“看过很多东西”，而且最后真的能把最关键的答案证据找出来。

5.4 奖励四：格式奖励（Format Reward）

作者还设计了格式奖励，要求模型严格输出：

<think> ... </think>
<answer> ... </answer>

格式对了就奖励，格式错了就惩罚。

这看起来像个小细节，其实并不小。因为在强化学习里，格式稳定本身就意味着训练目标更清晰，模型更容易收敛，也更利于后续评估。

六、实验是怎么做的？

6.1 数据集：作者主要在 VISA 基准上验证方法

作者使用的是 VISA benchmark，这是一个面向视觉证据归因的文档 RAG 数据集。它包含三个子集：

Wiki-VISA
Paper-VISA
FineWeb-VISA

论文的主要实验结果重点展示在 Wiki-VISA 和 Paper-VISA 上。

作者分别考察了两种设定：

单图设定（Single-image）

每个问题只给一页源文档，模型需要回答问题并定位证据。

多图设定（Multi-image）

每个问题会给多个候选文档页面，模型既要找对页面，又要在页面内找对证据。

后者显然更接近真实检索场景，也更能体现方法价值。

6.2 模型与训练细节

作者以 Qwen2.5-VL-7B-Instruct 为骨干模型，并采用 LoRA 进行参数高效训练。

训练流程上，作者先做 SFT，再做 RL。强化学习阶段只使用了 原始 QA 对中的 5% 样本，这一点非常值得注意，因为这意味着：

LAT 并不是依赖海量监督数据取胜，而是在有限监督下，通过奖励机制把模型能力“逼”出来。

多图设定下，作者还冻结了视觉编码器，只微调语言模型部分的 LoRA 参数，以减少显存开销。

6.3 评价指标：作者不只看答题准确率

作者用了三类指标评估模型：

EM（soft Exact Match）

：看答案是否正确；
IoU@0.5

：看最终证据框是否准确；
SA（Stepwise Attribution）

：看步骤级证据归因是否合理。

这组指标很重要，因为它体现了这篇论文的真正目标：

不只是要“结果正确”，还要“过程可信”。

七、结果说明了什么？LAT 不只是能答题，更能把证据链走通

7.1 主结果：答案准确率和证据定位都显著提升

作者在论文中指出，相比原始基线模型，LAT 在单图和多图设置下，平均带来了：

8.23% 的 soft EM 提升
47.0% 的 IoU@0.5 提升

这组数字说明，LAT 并不是用“更长的推理过程”换来“更差的准确率”，而是在提升可验证性的同时，也提升了实际任务表现。

如果进一步看具体结果，LAT-Full 在多个设定下都取得了很强的表现，例如：

Wiki-VISA 单图：EM 73.1，IoU@0.5 57.8
Paper-VISA 单图：EM 46.2，IoU@0.5 48.4
Wiki-VISA 多图：EM 64.8，IoU@0.5 41.4
Paper-VISA 多图：EM 50.6，IoU@0.5 49.3

最值得注意的是，多图场景中的提升尤其明显。因为在这种情况下，模型不仅要“读懂页面”，还要“先找对页面再找对区域”，这恰好放大了 CoE 和 LAT 的优势。

7.2 过程质量也显著变好：这不是“会说推理话术”，而是真的会逐步找证据

论文进一步在 CoE 推理场景下比较了不同模型的过程质量。结果显示，LAT 在 SA（步骤级证据归因） 上有非常明显的提升。

这说明 LAT 的优势不只是“最后那个答案框更准”，还体现在：

每一步推理和对应证据之间的一致性更强；
推理路径更像真实的阅读与检索过程；
模型不太容易只靠模板化输出“伪思维链”。

换句话说，LAT 学到的不是一种表面形式，而是一种更贴近文档理解规律的行为模式。

八、消融和对比

8.1 先看与 SFT 的比较：强化学习并不是装饰，而是关键增益来源

作者专门设置了 SFT 基线，与 LAT 做对比。结果显示，LAT 在答案准确率和证据定位精度上都优于仅靠监督微调的方法，尤其在多图设置下优势更明显。

这说明一个事实：

仅仅把模型训练成“会输出 CoE 格式”，还不够；只有把“过程是否可信”纳入奖励机制，模型才会真正学会证据化推理。

8.2 再看消融实验：四类奖励不是随便堆出来的

作者还做了非常关键的消融实验。实验结果表明：

仅有阶段一蒸馏得到的 Mdist，已经比原始模型好不少；
去掉 步骤级奖励 Rstep 后，SA 明显下降，IoU 也会跟着变差；
去掉 答案准确与最终 grounding 奖励 后，模型虽然还能维持部分过程一致性，但结果质量会明显受损；
如果不再用答案正确性去约束步骤奖励，那么模型会越来越偏向“学格式”，而不是“学真实推理”。

这组实验特别有说服力，因为它回答了一个关键问题：

LAT 的增益，究竟来自强化学习本身，还是来自奖励设计？

作者给出的答案很清楚：来自二者结合，但奖励设计是决定性的。

总结

总体来看，这篇论文最值得关注的地方，在于它把文档问答中的“证据归因”从最终答案层面，推进到了整个推理过程层面。作者提出的 Chain-of-Evidence，不只是一个新的输出格式，更是一种新的任务理解方式；而 LAT 则通过两阶段训练和精细化奖励设计，把这种任务理解真正落到了模型行为上。实验结果也说明，这种“边想边看、逐步归因”的路线，不仅更透明，而且更有效。对于未来希望构建可信、可核验、可追踪的多模态文档智能系统的研究来说，这篇论文提供了一个很有代表性的方向。