乐于分享
好东西不私藏

百度发布文档解析新王者:0.9B参数,96.33%得分新SOTA

百度发布文档解析新王者:0.9B参数,96.33%得分新SOTA

算泥社区是集 “AI 大模型开发服务 + 算法 + 算力” 于一体的开源生态社区,欢迎关注!

文档解析,能把一张张文档图片变成机器能读懂的结构化内容,包括文字、表格、公式、图表、印章,甚至阅读顺序和版面布局。

这件事做得好不好,直接决定了下游检索、推理、RAG(检索增强生成)系统能不能拿到干净靠谱的输入。

百度PaddlePaddle团队发布并开源了PaddleOCR-VL-1.6。

一个0.9B参数的紧凑模型,在OmniDocBench v1.6上拿下96.33%的总分,登顶榜首。

PaddleOCR-VL-1.6精准找到上一代模型的薄弱环节,对症下药补充了数据,然后用三阶段递进式训练(CPT-SFT-RL),把数据的价值榨干,从而获得了SOTA性能。 各类场景下,都比上一代模型有明显提升。例如:

表格识别

图表识别

公式识别

古籍识别

生僻字识别

印章识别

扭曲图像识别

弱点在哪里

PaddleOCR-VL-1.5已经是一个很强的基线模型,0.9B参数,在OmniDocBench v1.5上得分94.93%。

在基线的基础上,剩下的错误呈现出一个有趣的特征:它们不再均匀散布在各处,而是集中出现在模型特定的薄弱区域。

继续无差别地堆数据,收效甚微,因为大部分训练预算花在了模型已经搞定的部分上,对薄弱区域的改善有限。

PaddleOCR-VL-1.6的做法是,从上一代模型出发,系统性地诊断三类薄弱区域。

第一类叫Boundary-Fragile Regions(边界脆弱区域)。

有些样本,稍微做点不影响语义的视觉扰动,比如像素微移、JPEG压缩、轻微模糊,模型输出就大幅变动。甚至不同训练后期的checkpoint,对同一个样本的预测都不一致。

模型在这些区域的决策边界很不稳定,还没学到靠谱的映射。

第二类叫Coverage-Sparse Regions(覆盖稀疏区域)。

有些样本明明在训练集里出现过类似模式,模型就是预测不对。原因是周围的数据分布太稀疏,长尾文档模式被主流分布吞掉了。

基于这些覆盖稀疏区域,团队从内部大规模文档池中定向检索补充了长尾数据。

第三类叫Unreliable-Supervision Regions(不可靠监督区域)。

模型有时会稳定地输出高置信度的错误结果,问题不在输入难,在标签本身就错了。团队引入三个外部专家模型(Qianfan-OCR、GLM-OCR、MinerU2.5-Pro)对同一训练样本做独立预测,与原始标签交叉验证。

找出了薄弱区域,团队给这些区域精准补充了标注数据。

三步走练法

数据准备好了,PaddleOCR-VL-1.6 采用了 “模型驱动的数据引擎 + 渐进式后训练策略” 的整体优化框架。

先从PaddleOCR-VL-1.5出发定位弱点,再围绕这些弱点构建高价值数据,最后通过继续预训练、监督微调、强化学习的渐进式后训练流程,将新增数据的价值稳定注入模型。

在不改变 0.9B 高效架构的前提下,模型实现了更强的文档解析性能、鲁棒性和泛化能力。

PaddleOCR-VL-1.6整个系统由两个模型组成:PP-DocLayout V3做版面分析,PaddleOCR-VL-1.6-0.9B做视觉语言理解。

架构沿用PaddleOCR-VL-1.5的设计,包含Native Resolution Visual Encoder(原生分辨率视觉编码器)、Adaptive MLP Connector(自适应MLP连接器)和ERNIE-4.5-0.3B语言模型。

没有改架构,没有加大参数,提升全部来自更聪明的数据策略和更精细的训练流程。

第一阶段是CPT(Continued Pre-Training,持续预训练),1680万样本。这一步的目标是广撒网,把数据引擎新挖出来的长尾样本(古籍、罕见字符、工业表格等)和修正后的标注全部灌进去,让模型先覆盖新的分布。

第二阶段是SFT(Supervised Fine-Tuning,监督微调),730万样本。这一步聚焦难题精练,数据来源有三个:用UACS(Uncertainty-Aware Cluster Sampling,不确定性感知聚类采样)策略从CPT语料中挖出的难样本,三个专家达不成共识的困难样本,以及被Unreliable-Supervision挖掘修正了标签的样本。高质量、高难度,专门打磨模型在脆弱区域的表现。

第三阶段是RL(Reinforcement Learning,强化学习),用GRPO做强化训练,49K样本。这一步的难点在于,0.9B的小模型对RL数据质量非常敏感,随意选样本容易顾此失彼,在某个子集上提分的同时整体性能反而下降。

训练效果高度依赖每个输入能否产生有信息量的奖励差异。对于语言模型只有0.3B的紧凑模型,对噪声数据、过难数据、过易数据、奖励平坦数据都格外敏感。

PaddleOCR-VL-1.6 设计了面向GRPO的高潜力样本挖掘策略,用监督微调后的模型对候选样本进行多次轨迹采样,并从提升潜力、生成不确定性和奖励方差三个维度筛选真正“可学习、有区分度、有收益空间”的样本。

针对文档解析任务输出形式复杂、二值奖励过稀疏的问题,PaddleOCR-VL-1.6 进一步精心设计可验证的奖励函数,将输出映射到任务相关的规范表示,并通过合法性、结构修正约束、真实得分三个维度提供稳定、可验证、任务对齐的奖励信号。

0.9B登顶榜单

OmniDocBench v1.6是当前文档解析最权威的评测基准之一,新增了MGAM(Multi-Granularity Adaptive Matching,多粒度自适应匹配)以减少匹配偏差,还增加了296页的Hard子集,覆盖复杂嵌套表格、密集公式布局和非常规文档结构。

PaddleOCR-VL-1.6总得分96.33%,排名第一。和上一代PaddleOCR-VL-1.5的94.93%相比,提升了1.4个百分点。文本编辑距离降到0.033,公式CDM得分97.49%,表格TEDS得分94.76%,表格结构TEDS得分97.11%,阅读顺序得分0.127。

各项子任务都刷新了纪录。

更值得关注的是Real5-OmniDocBench上的表现。这个评测模拟真实场景,包括扫描、弯折、屏幕拍照、光照变化和倾斜五种情况,全部用手机实拍采集。

PaddleOCR-VL-1.6总得分93.19%,比上一代提升1.14个百分点,排名榜首。0.9B的模型,跑赢了Qwen3-VL-235B和Gemini 3 Pro这些百倍参数的通用大模型。

子能力方面同样全面领先。

困难表格识别(1258个样本,覆盖20种表格类型),PaddleOCR-VL-1.6的TEDS得分91.71,结构TEDS得分94.67,比MinerU2.5-Pro高出近2个百分点。图表解析(1801个样本,11种图表类型),RMS-F1总分91.74,中文图表93.37,比上一代提升11个百分点以上。文本定位(9个维度),总分87.47,在古文书、日文、手写中文等维度均有提升。印章识别,NED(Normalized Edit Distance,归一化编辑距离)低至0.119,远超Qwen3-VL-235B的0.382。

0.9B参数,跑赢了241B的InternVL3.5、1T的KimiK2.5、235B的Qwen3-VL,甚至超过了GPT-5.2。

对行业来说,PaddleOCR-VL-1.6以更低的部署成本,可以在端侧和边缘设备上运行,适合文档数字化、票据识别、档案管理等实际场景。

这套”诊断薄弱区域、精准补数据、递进训练”的方法论,提供了一条在紧凑模型上持续提升性能的可行路径。

参考资料:

https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6

https://modelscope.cn/models/PaddlePaddle/PaddleOCR-VL-1.6

https://github.com/PaddlePaddle/PaddleOCR

https://arxiv.org/pdf/2606.03264

END