让文档解析大模型提速 4.89*:一种无需训练的推理加速方法-夜雨聆风

让文档解析大模型提速 4.89*:一种无需训练的推理加速方法

近年来，文档解析技术正在经历一场范式转变：从传统的 pipeline 方法，逐步走向基于视觉语言模型（VLM）的端到端方案。这类方法能够直接从文档图像生成结构化文本，在语义理解、复杂结构解析等方面表现出显著优势。

但与此同时，一个几乎不可避免的问题也逐渐凸显出来——速度变慢了。

问题的根源其实很简单：当前主流 VLM 采用的是自回归生成机制，也就是一个 token 一个 token 地往外生成。而文档解析任务本身往往包含大量文本、表格和公式，输出序列动辄成百上千 token。结果就是，推理时间几乎随着输出长度线性增长，长文档尤其明显。这也让高精度模型在真实场景中很难“跑得动”。

从“逐字生成”到“批量验证”

这篇工作给出的解决思路并不复杂，但非常巧妙：让模型少走弯路。

具体来说，它引入了一种叫做 speculative decoding 的机制。可以把它理解为一种“先猜后验”的策略：先由一个轻量模型快速生成一段“草稿”，然后再由大模型一次性对多个 token 进行验证。如果草稿是对的，就直接跳过这些生成步骤；如果有问题，再从错误位置继续生成。

这样一来，原本必须逐 token 进行的生成过程，就被改造成了“多 token 批量推进”。解码步数减少，整体速度自然就提上来了。

利用文档结构：从一维序列到二维并行

如果只是简单套用 speculative decoding，其实提升是有限的。真正让这篇工作变得有意思的，是它进一步利用了文档本身的结构特性。

作者提出了一种分层推测解码（Hierarchical Speculative Decoding）的设计，将推理过程拆成两个阶段。

在第一阶段，模型不再把整页文档当作一个整体，而是先通过版面分析，将页面划分为多个语义区域，例如段落、表格、公式等。每一个区域都可以被看作一个相对独立的小任务，于是可以并行执行 speculative decoding。这一步的关键价值在于：把原本串行的问题，变成了并行问题。

不过，仅靠区域级处理是不够的。因为每个区域缺乏全局上下文，很容易在阅读顺序、跨区域逻辑等方面出现不一致。

因此，第二阶段引入了一次全局校正。具体做法是，把第一阶段得到的所有结果重新拼接成页面级“草稿”，然后再进行一次整页级别的验证。这一步通常只需要很少的推理步骤，却能够有效修正前面阶段的误差，从而保证最终输出的整体一致性。

图 1端到端文档解析层级推测解码框架总览。轻量级流水线首先执行版面分析并生成固定的区域草稿；第一阶段通过解耦推测验证（DSV）对裁剪后的区域进行并行解析，得到验证后的输出结果；第二阶段将这些结果聚合为页面级草稿，并通过一次全页面 DSV 验证完成最终解析。DSV 融合了窗口对齐与树状结构验证，可在单个并行多令牌步骤中评估多个草稿候选方案。

真正的难点：如何一次验证多个候选？

在实现层面，这个方法的关键不只是“猜和验”，而是如何高效地同时验证多个候选序列。作者为此设计了一套非常精巧的机制。

首先，通过一个滑动窗口，将当前已经生成的序列与草稿进行对齐，从而定位哪些位置可以继续验证。接着，将所有可能的候选序列组织成一棵前缀树，把共享的前缀合并在一起。这样一来，不同候选之间的重复计算就被消除了。在此基础上，再构造一种特殊的 attention mask，使得每个 token 只能关注当前前缀以及其“祖先路径”。这样就可以在一次前向计算中，同时验证整棵树上的多个候选路径，从而实现真正意义上的“并行验证”。

实验结果：不仅更快，而且几乎不降精度

在三个主流文档解析基准（OmniDocBench、olmOCR-Bench 和 Ocean-OCR-Bench）上，这一方法都表现出了稳定而显著的加速效果。

以 dots.ocr 这一当前主流模型为例，其端到端推理速度在不同数据集上分别达到了 2.42×、2.27× 和 3.68× 的提升，在长文档场景下甚至可以达到 4.89×。

更关键的是，这种加速几乎没有带来精度损失。实验表明，最终结果与 baseline 持平，甚至在部分指标上略有提升。这一点非常重要，因为很多推理加速方法往往以牺牲精度为代价，而这项工作基本做到了“又快又准”。

加速效果从哪里来？

图2 不同扰动下草稿质量对加速比的影响。草稿质量通过其在 OmniDocBench v1.5 基准上的得分来衡量。

进一步分析可以发现，加速效果主要受到三个因素影响。

首先是草稿质量。草稿越准确，被大模型接受的 token 就越多，从而能够跳过更多生成步骤。不过即便在草稿质量下降的情况下，该方法仍然能够保持较高的加速比，表现出不错的鲁棒性。

其次是文档类型。结构规整的文档，例如财务报表或标准论文，往往更容易生成高质量草稿，因此加速效果更明显。而在手写文本或复杂排版场景下，加速收益会有所下降。最后是文档长度。短文档由于前处理开销占比较高，加速空间有限；而长文档则可以充分发挥 speculative decoding 的优势，实现更明显的性能提升。

值得一提的是，该方法在中英文场景下表现一致，说明其具有良好的语言无关性。