Doc-V*:主动探索范式在长文档理解中的突破与前瞻

一、核心思想与技术要点

Doc-V* 是由小米大模型 Plus 团队与华中科技大学 VLRLab 团队合作提出，并被ACL 2026会议录用的研究成果。其核心是倡导一种从 “静态阅读”到“主动探索” 的多页文档理解新范式，旨在让AI模型模仿人类高效阅读长文档的策略性能力。

核心理念：智能导航，主动探索

传统多页文档理解方法通常采用“静态输入”范式，即一次性将所有页面或通过RAG筛选出的部分页面输入模型。这类方法面临的根本矛盾在于：输入全部页面会导致计算成本高昂和中间信息遗忘，而依赖静态检索则性能高度受限于召回结果，一旦关键证据未被包含，模型便缺乏后续纠错能力。

Doc-V的核心思想挑战了这一传统假设，指出：与其给模型塞入更多页面，不如让模型学会“在合适的时机获取合适的页面”。这如同人类在处理长文档时，不会逐页通读，而是会先浏览目录、标题，找到相关部分后再精读。Doc-V的目标是将模型的理解过程从“被动接收信息”转化为策略驱动的、动态的证据获取与整合过程。

技术实现：三步走的交互式视觉推理

为了实现上述主动探索的范式，Doc-V*设计了一套三步走的交互式视觉推理Pipeline：

构建全局缩略图概览在推理开始时，模型并不直接处理所有高分辨率页面。而是先将每一页文档压缩为低分辨率缩略图，并按网格排列。这为模型提供了一个低成本观察文档整体结构的视角（例如章节分布、图表位置），作为一种结构性的导航信号，为后续的主动探索奠定基础。
执行交互式操作基于缩略图提供的结构线索，模型通过调用两类工具与文档进行动态交互：

全局语义检索
：这是一种粗粒度的探索操作。模型可以输入一段查询文本（可以是原始问题或动态生成的子问题），系统将从整个文档中召回Top-K个最相关但尚未访问的页面。其作用类似于在文档中进行页面级的“关键词搜索”，旨在从全局范围内快速定位候选证据页。
精确页面获取
：这是一种强约束、确定性的细粒度证据定位操作。模型直接输入一组明确的页码索引，系统返回对应页面的高分辨率图片。它主要用于三种场景：① 基于缩略图中的结构线索（如表格、图表、标题）直接跳转；② 为补全跨页表格或延续上下文而获取相邻页（前一页/后一页）；③ 精确响应明确提及页码的问题（如“第3页的表格中有多少个方法？”）。fetch_page（精确页面获取）与 retrieval（全局检索）功能互补，前者负责精准化定位，后者负责广谱召回。

采用SFT+GRPO两阶段训练策略通过监督微调（SFT）和分组相对策略优化（GRPO）的两阶段训练，使模型学会在推理过程中动态决策——何时调用哪种操作，以及如何基于已获取的证据进行综合判断与下一步行动规划。

性能体现：策略优于堆料

该方法的设计使其在性能上展现出与静态方法根本不同的特性：

整体性能显著提升
：在统一使用Qwen2.5-VL 7B作为基础模型的设定下，Doc-V*相比其RAG变体在多个多页文档问答基准上取得了49.7% 的性能提升。
克服RAG性能拐点
：传统RAG方法存在一个普遍现象：性能随输入页面数增加先提升后下降，因为过多无关信息会稀释有效信号。相比之下，Doc-V*并未表现出类似的明显退化趋势，因为它的输入是在推理过程中根据需求逐步、动态扩展的，有效避免了无关信息的过度积累。
更稳健应对长文档
：随着文档整体长度增加，无论是RAG还是输入全部页面的方法，其性能均显著下降。这证明单纯“给更多内容”无法解决长文档理解问题。Doc-V*通过策略驱动的信息获取，更有效地应对了这一挑战。

综上所述，Doc-V*的技术要旨在于，通过赋予模型“先概览全局，再有针对性地定位和精读关键部分”的智能，用 “动态证据获取与整合” 的策略，在不依赖更大模型或更长上下文窗口的前提下，实现更高效、更可靠的长文档理解。

二、超越RAG的亮点与意义

Doc-V* 对传统检索增强生成（RAG）范式的超越，并非仅是一个检索策略的优化，而是一次从底层逻辑到顶层设计的范式跃迁。其核心亮点在于将模型从“信息的被动接收者”重塑为“环境的主动探索者”，从而在多页文档理解这一复杂场景中，解决了RAG固有的结构性矛盾。

范式跃迁：从“静态检索”到“主动探索”

传统RAG及其变体遵循“静态输入”范式。无论是一次性输入全部页面，还是先检索出Top-K页面再输入，其共同点在于：在模型开始推理之前，输入内容就已经被固定。这导致两个根本局限：一是模型性能完全受限于初始检索的召回质量，一旦关键证据页面未被包含在内，后续过程缺乏动态纠错能力；二是模型需要被动处理所有给定的信息，无法自主优化信息获取的路径。

Doc-V* 的核心突破在于引入了 “主动探索” 的新范式。它模仿人类阅读长文档的策略：先快速浏览目录和结构（全局缩略图），再有目的地翻到相关章节精读（交互式操作）。这意味着，模型在推理过程中被赋予了自主决策权，可以基于当前对问题的理解和已掌握的证据，动态决定下一步是进行广谱检索（Retrieval）还是精准定位（Fetch_Page）。这种从“检索-生成”的线性管道，到“观察-思考-行动”的循环智能体（Agent）的转变，是性能得以大幅提升的哲学基础。

技术架构的核心突破

在这一范式指导下，Doc-V* 的技术设计实现了多个维度的突破：

信息获取的粒度与策略混合：

RAG
：通常基于文本语义相似度进行块（Chunk）级检索，目标是找到与查询最“像”的文本。
Doc-V
*：引入了视觉结构线索作为导航的先验知识。模型首先通过低分辨率缩略图感知文档的全局布局与结构（如章节标题位置、图表分布）。这使得信息获取策略升级为 “结构与语义的混合导航”。模型不仅可以进行语义检索，还能执行基于空间位置的精确操作，例如“直接翻到第三页查看右下角的图表”或“获取当前表格的下一页以补全数据”。这种能力是纯文本RAG难以实现的。

推理过程的动态性与自我修正：

RAG
：推理是单轮的。检索完成后，上下文固定，生成答案的过程无法因证据不足而重启检索。
Doc-V
*：推理是多轮迭代的。模型可以评估当前信息是否足够回答，若不足，则主动发起新一轮探索。这赋予了模型强大的自我修正与证据链构建能力。例如，当发现当前页面的表格提及“详见下页”，模型可以自动调用Fetch_Page获取下一页，完成跨页信息的无缝整合。

对长文档噪声的卓越鲁棒性：传统RAG方法面临一个众所周知的困境：随着输入页面数（K值）增加，性能会先上升后下降，出现 “性能拐点” 。初期增加页面能提高召回率，但后期过多无关信息会稀释关键证据，成为干扰模型的噪声。Doc-V* 通过按需、逐步地获取页面，确保了上下文窗口始终被高相关性的信息填充，有效避免了无关信息的堆积。实验数据表明，其性能没有出现随输入页面数增加而退化的趋势，证明了“策略性信息获取”在控制噪声上的有效性。

性能优势的量化体现

综合来看，Doc-V* 的超越性具体体现在以下量化结果上：

综合性能大幅领先
：在统一使用 Qwen2.5-VL 7B 作为基础模型（backbone）的公平设定下，Doc-V* 在其设计的多个多页文档问答基准（如 SlideVQA, LongDocURL, MMLongBench-Doc）上，相比其对应的RAG变体，取得了平均49.7% 的性能提升。这在不依赖更大模型或更长上下文窗口的前提下，证明了其策略本身的有效性。
长文档场景优势显著
：在论文重点关注的 “80页”左右的长文档场景中，Doc-V* 展现了更强的鲁棒性。当文档总页数持续增加时，无论是“输入全部页面”还是RAG方法，性能都呈现整体下降趋势，而Doc-V* 的下降幅度明显更小。这是因为其“主动探索”机制的核心优势随文档复杂度提升而愈发凸显。
效率与精度的新平衡
：Doc-V* 的成功实践揭示了在多页文档理解中一个更优的原则：“信息获取 ≠ 信息堆叠” 。它通过更智能的决策，用更少的高价值页面输入，获得了更准确的理解结果，在计算效率与任务精度之间找到了新的平衡点。

深远的方法学与实践意义

Doc-V* 的提出，其意义远超一项具体技术的改进：

为多模态长上下文处理提供了新思路：它证明，面对长文档挑战，一味地扩展模型上下文窗口或堆叠计算资源并非唯一解。通过赋予模型主动感知与规划能力，让模型学会“高效地看”，是比“看得更全”更根本的解决方案。这为未来处理更长、更复杂的多模态序列（如长视频、多轮对话记录）提供了可借鉴的范式。
推动了“Agentic AI”在感知领域的落地：Doc-V* 可被视为 “智能体化RAG”（Agentic RAG） 在多模态文档理解场景下的一个成功范例。它将大模型、工具调用（检索、翻页）和策略学习紧密结合，展示了智能体范式在解决需要复杂信息搜寻与推理的现实任务中的巨大潜力。
确立了“结构先验”在文档理解中的关键价值：通过利用文档的视觉布局和空间结构信息（缩略图），Doc-V* 显著提升了定位与导航的精度。这启示我们，在处理富含格式信息的载体（如文档、网页、幻灯片）时，视觉结构是与文本语义同等重要、甚至在某些任务中更为关键的特征源，未来的多模态模型应更深入地融合这类信息。

总之，Doc-V* 的亮点在于它完成了一次优雅的范式升级，其意义在于为大规模多模态模型如何更“类人”地、更高效地处理复杂非结构化信息，指明了一条具有广阔前景的技术路径。

三、论文本身的优缺点与未来工作

论文的主要优点与贡献

Doc-V*论文在多页文档理解的学术探索与工程实现上展现出一系列显著优点，其核心贡献在于实现了一次关键的范式跃迁。论文成功地将传统“检索-生成”的线性静态管道，重构为一种模仿人类阅读行为的**“观察-思考-行动”循环智能体范式**（从“静态阅读”到“主动探索”）。这一根本性创新不仅解决了传统RAG的“性能拐点”和关键证据漏检后无法修正的固有问题，也首次将视觉结构线索（全局缩略图网格） 提升到与文本语义同等重要的导航先验地位，为多模态长文档处理开辟了新路径。

在实验验证方面，论文的优势尤为突出。它在统一的骨干模型（Qwen2.5-VL 7B）设定下，相比其RAG变体取得了平均49.7%的综合性能提升，并在约80页的真实长文档场景中实现了约10个绝对性能点的显著优势。这些结果强有力地证明了“策略驱动的动态信息获取”比“堆叠更多的静态内容”更有效，达成了精度与效率的新平衡。论文还通过可视化的决策序列，增强了其算法策略的可解释性，让模型的“思考过程”变得有迹可循。

论文的局限性分析

然而，该研究也存在一些固有的局限性和待解决的挑战。首先，其范式训练依赖性与成本较高。Doc-V*模型“在合适的时机获取合适的页面”的核心能力，依赖于专门的SFT+GRPO两阶段训练策略来学习决策策略。这需要构建高质量的训练数据来教模型何时调用“检索”或“获取页面”操作，此类数据的构建成本可能较高，且学习到的策略在不同领域或类型的文档上的泛化能力仍需进一步验证。

其次，存在计算效率的潜在权衡。虽然主动探索避免了将全部页面一次性输入的高昂成本，但其交互式过程涉及多轮“检索-获取-推理”循环。在应对简单问题时，这种动态决策过程的累积耗时与延迟，有可能会超过经过一次快速检索就给出答案的传统RAG方法。论文需在“性能增益”与“推理步骤开销”之间进行更精细的权衡分析。

再次，性能与骨干模型强相关。论文的所有实验均基于Qwen2.5-VL 7B这一特定视觉语言模型进行。虽然这证明了方法框架本身的有效性，但该范式的性能上限和在不同规模、不同架构的骨干模型上的泛化表现，仍有待大规模验证。

最后，任务与场景的适用范围有限。当前的方法主要是针对多页文档视觉问答任务进行设计和优化的。其对于纯文本长文档的理解、需要进行深度跨模态推理（超出页面级定位）的复杂任务，或其他下游任务如文档摘要、信息生成等的适用性，是论文尚未充分探讨的局限性。

未来工作展望

基于论文自身指出的局限性与当前研究的边界，未来的工作可以从多个维度进行拓展与深化。

范式扩展与泛化研究：最直接的方向是将“主动探索”范式应用于更广泛的文档智能任务中，例如长文档摘要、合同关键信息提取、跨文档知识问答等。同时，研究如何降低该范式对特定任务数据和训练方式的依赖，提升其跨领域、跨文档格式（如扫描件、手写笔记）的鲁棒性和泛化能力。
探索策略与系统效率优化：未来研究可以致力于优化模型的探索策略。例如，设计更高效的全局缩略图分析算法以快速锁定关键区域，引入智能的查询重写或问题分解机制以提升检索精度，或通过强化学习进一步减少不必要的交互轮次，在保持高精度目标的同时，追求更优的端到端响应速度。
与先进基座模型的协同进化：探索将Doc-V*的交互框架与更大规模、能力更强的多模态大模型相结合。这有助于突破当前骨干模型在复杂语义理解、细粒度视觉解析等方面的瓶颈，从而处理更具挑战性的真实场景。
对复杂文档结构的细粒度理解：当前方法的核心操作单元是“页面”。未来工作可以深入探索对文档内部更细粒度结构的主动定位与理解，例如直接对特定段落、表格单元格、数学公式或图表中的趋势线进行“精确获取”，使模型的探索能力实现从“页面级”到“元素级”的飞跃。
推动实际应用与系统集成：最终，研究的价值在于落地。未来的重要方向是将Doc-V*框架集成到企业级文档处理平台、智能数字图书馆或辅助研究工具中，在实际的复杂业务场景中评估其可用性、稳定性与价值，并驱动技术迭代。

如有帮助，请一键三连：小心心、转、再看，评论区可留言讨论