0.9B模型登顶文档解析榜首:PaddleOCR-VL-1.6的技术路径拆解-夜雨聆风

0.9B模型登顶文档解析榜首:PaddleOCR-VL-1.6的技术路径拆解

PaddleOCR-VL-1.6: Expanding the Frontier of Document

Parsing with Under-Optimized Region Refinement and

Progressive Post-Training

报告原文地址：https://arxiv.org/pdf/2606.03264

报告概述

百度飞桨团队发布 PaddleOCR-VL-1.6。该模型参数量维持在0.9B，未改变主干架构，通过“未优化区域挖掘”与“渐进式后训练”策略，在 OmniDocBench v1.6 上取得96.33% 的综合得分，超越参数量数十倍甚至百倍的通用大模型，成为当前文档解析任务的新 SOTA。

核心洞察

数据效率优于规模堆叠。在模型进入高性能区间后，盲目扩充通用数据收益递减。针对预测不稳定、分布稀疏和标注不可靠的特定区域进行定向增强，能以更低成本换取更高性能。
强化学习在小模型上的应用需要严苛的样本筛选。直接对紧凑模型使用 RL 极易导致退化。PaddleOCR-VL-1.6 设计了一套基于“改进潜力、不确定性、奖励方差”的三重过滤机制，确保 RL 阶段只优化那些真正可学且有增益的样本。

图1 | PaddleOCR-VL-1.6在OmniDocBench v1.6和Real5-OmniDocBench上的性能表现

一、从“题海战术”到“精准补差”：找到模型没学会的三个死角

想象你在备考。做一千道你已经会的基础题，不如搞懂一道你总是出错的难题。PaddleOCR-VL-1.5 已经很强，剩下的错误不再是“不会”，而是“没学透”。

PaddleOCR-VL-1.6 的做法不是扔给它更多书，而是让它把做过的卷子拿出来复盘，找出了三类“错题”：

边界脆弱区：换个字体、截个图，答案就变了。这说明模型在这个知识点上站不稳。
覆盖稀疏区：遇到冷僻字、老古籍，模型懵了。这是训练时的“盲区”。
监督不可靠区：标注本身就是错的，模型死记硬背了错误答案。

图2. PaddleOCR-VL-1.6 升级路径概览

这张图展示了升级的核心逻辑。左侧是传统的“堆数据、改结构”，右侧是 PaddleOCR-VL-1.6 的路径：诊断（Diagnosis） ->数据工程（Data Engineering） ->分阶段训练（Progressive Post-Training）。重点在于，它不再试图让模型“学会所有东西”，而是专注于修补上一版留下的“坑”。

为了量化“边界有多脆”，论文设计了一个极其严苛的测试。对每个样本，用 8 个不同阶段的模型权重和 16 种图像扰动（模糊、压缩、位移等）组合，生成 128 个预测结果，计算它们之间的差异。

差异越大，说明这个样本所在的区域越不稳定。这就像用 8 种不同难度的模拟卷去考一个学生，看他成绩波动有多大。

二、自动修错题：多专家仲裁与“渲染比对”

找到错题后，需要标准答案来纠正。但在文档解析领域，标注极其昂贵且容易错。PaddleOCR-VL-1.6 引入了一个自动化流水线。

对于难以判断的样本，它不直接相信某一方，而是启动“多专家会诊”。

图3. 未优化区域驱动的数据引擎

这张图详细描绘了数据处理的闭环。关键在于右下角的Render-Guided Refinement（渲染引导精修）。对于表格和公式这类结构化数据，直接对比文本（LaTeX/HTML）很难发现细微的结构错位。系统会把模型生成的表格“画”出来，变成图片，再和原图做像素级比对。这比单纯看代码要直观得多，能精准定位“这一行的格子歪了”还是“那个字漏了”。

如果三个专家（Qianfan-OCR, GLM-OCR, MinerU2.5-Pro）意见不一致，就交给 ERNIE 5.0 这个“超级教师”来判断。为了防止偏见，系统只在第一次给参考，后续修正只看“学生”的答案和“标准图”的差距。

三、分阶段“补课”：CPT、SFT 与 RL 的接力赛

有了高质量的“错题集”，怎么喂给模型也是有讲究的。不能一股脑全塞进去，那样会造成消化不良。

表 8 清晰地展示了分阶段训练的效果。每一步都在前一步的基础上叠加增益。

表 8. 渐进式后训练各阶段的消融实验结果

训练阶段	综合得分 (Overall)	文本编辑距离 (TextEdit)	公式识别 (Formula CDM)	表格结构 (Table TEDS-S)
PaddleOCR-VL-1.5 (基线)	94.93	0.038	96.89	94.37
+ 继续预训练 (CPT)	95.62 (+0.69)	0.035	97.32	95.82
+ 监督微调 (SFT)	96.25 (+0.63)	0.034	97.37	97.09
+ 强化学习 (RL)	96.33 (+0.08)	0.033	97.49	97.11

数据揭示了训练策略的有效性。CPT 阶段负责“扫盲”，通过注入大量新数据和修正后的标注，大幅提升了表格结构识别能力（TEDS-S 提升显著）。SFT 阶段负责“攻坚”，专门针对那些专家都吵翻了的难题进行特训，带来了最大的边际收益。RL 阶段则是“抛光”，虽然整体得分提升只有 0.08，但在公式识别等精细指标上进一步逼近了上限。这说明对于已达到高水准的小模型，RL 的作用更多是查漏补缺，而非颠覆性改变。

特别是在 RL 阶段，为了避免小模型“学疯了”，团队设计了严格的样本筛选公式。他们不仅看模型能不能做对，还看模型做对这件事的“信心”波动有多大。只有那些“偶尔能做对，但大多数时候做不对”的样本，才被选入 RL 训练池。这确保了模型是在学习解题技巧，而不是死记硬背。

四、0.9B 打爆 235B：数据不会说谎

最终的性能榜单证明了这套方法的有效性。在 OmniDocBench v1.6 上，PaddleOCR-VL-1.6 以不到千亿分之一的参数量，击败了动辄几十亿、上百亿甚至万亿级的对手。

表 2. OmniDocBench v1.6 综合评测榜单（节选）

模型	参数量	综合得分 (Overall)
Qwen3-VL-235B	235B	89.78
Gemini 3 Pro	–	92.91
MinerU2.5-Pro	1.2B	95.75
PaddleOCR-VL-1.6	0.9B	96.33

参数量的悬殊对比极具冲击力。通用大模型（如 Qwen3-VL-235B）虽然在通用对话上无敌，但在文档解析这种需要精确结构和细粒度识别的任务上，往往不如专精的小模型。PaddleOCR-VL-1.6 证明了，通过精细化的数据治理，0.9B 的紧凑模型完全可以在特定领域超越参数怪兽。 这对于需要在端侧设备或低成本服务器上部署 OCR 能力的企业来说，意味着更低的延迟和更少的计算开销。

结语：小模型的生存法则

大模型竞赛正在从“谁更大”转向“谁更准”。PaddleOCR-VL-1.6 提供了一个清晰的范本：当模型规模触碰到物理或成本的极限时，挖掘数据中的“认知盲区”比单纯堆砌算力更有效。对于开发者而言，与其等待下一代更强的基座，不如审视现有的数据和训练流程——那些被忽略的错误样本，可能藏着通往 SOTA 的钥匙。