乐于分享
好东西不私藏

96.3% 精度的轻量文档解析来了:PaddleOCR v3.6.0 用区域感知训练把小模型推上新高度

96.3% 精度的轻量文档解析来了:PaddleOCR v3.6.0 用区域感知训练把小模型推上新高度

96.3% · OmniDocBench · PaddleOCR-VL-1.6 · 区域感知优化 · 渐进式训练 ·
SDK 三件套 · 多页 TIFF —— PaddleOCR v3.6.0 把 0.9B 轻量文档
VLM 的精度天花板又推高了一截,同时补齐了异步 API 的多语言 SDK,
覆盖 Python、Go、TypeScript 三类生态。

定位:从 OCR 到文档智能的桥梁

PaddleOCR 是百度飞桨生态下的 OCR 工具包与文档 AI 引擎,GitHub
78,866 Stars,被 Dify、RAGFlow、Pathway、Cherry Studio 等主流
RAG / Agent 项目广泛集成。项目覆盖两条主线:一是 PP-OCRv5 为代表的
多语言场景文本识别(100+ 语言,单模型仅 2M 参数,推理极快),二是指
PaddleOCR-VL 系列——轻量文档视觉语言模型,将 PDF 和图片转为
Markdown / JSON,直接为 LLM 提供结构化输入。从 v3.3.0(2025 年 10 月)
首发 PaddleOCR-VL 至今,项目保持着约两个月一个大版本的密集发版节奏。
每次迭代都在文档解析精度和场景覆盖上往前推一步,v3.6.0 已是第四个
VL 能力迭代版本。

除了核心模型,PaddleOCR 还提供 PP-StructureV3 版面分析管线、
PP-DocTranslation 文档翻译、PP-ChatOCRv4 文档问答等 Pipeline,
以及最近新增的 MCP Server 和 Agent Skills,让 LLM Agent 可以直接
调用文档解析能力。

场景:文档 AI 管线里的精度痛点

将企业 PDF、扫描件、古籍或复杂表格转为 LLM 可读的结构化数据,
是 RAG 和 Agent 应用的第一道关卡。旧方案普遍面临几个硬骨头:

表格结构识别——多行合并单元格、跨页拆分表、无框线表,输出
常把行列关系打乱。表格数据一旦错位,后续的 LLM 提问环节全部产生
幻觉。

生僻字与古籍——中文 OCR 在生僻字、繁体竖排、古文异体字场景下
准确率骤降。古籍数字化项目里,一个字识别错误就可能导致搜索漏召回,
甚至语义误判。

印章遮挡与图文重叠——公文、合同、发票上印章经常覆盖正文关键字段。
传统 OCR 对此只能当作背景噪声忽略,导致关键信息(日期、金额、签章
方)系统性丢失。

多语言混合与公式——同一份学术论文可能混排中、英、日文和 LaTeX
数学公式。模型在语种切换处容易丢字符或误切分,公式结构更难还原。

v3.5.0(2026 年 4 月)的 PaddleOCR-VL-1.5 已在 OmniDocBench 拿到
94.5%,远超多数闭源方案。但对于表格完整性、古籍精度等专项场景,
用户实测仍能感知明显短板。v3.6.0 明确针对这几个方向做专项强化。

这一版的核心能力提升

精度再破纪录:OmniDocBench 96.33%

PaddleOCR-VL-1.6(保持 0.9B 参数规模)在权威文档解析评测集
OmniDocBench v1.6 上拿到 96.33%,同时在 v1.5 和
Real5-OmniDocBench 两个基准上也刷新了 SOTA。文本、公式、表格
三项核心任务的精度全面领先当前开源方案,并超越 GPT-4o 等闭源通用
大模型。对于「文档解析到底准不准」这个高频提问,这个数字给出了
足够强硬的答案。

专项场景显著增强

表格识别:跨行合并表、无框线表的输出完整度大幅改善,不再把跨页表
拆成两个独立片段。古籍与生僻字:竖排繁体、异体字、古文排版的识别
精度是这一版最突出的增量,古籍数字化团队可以期待接近可用的准召率。
印章识别与文本检测:被印章覆盖的字段不再被吞掉,印章本身也能被
独立检出。图表解析:饼图、柱状图、折线图的数值提取和结构还原
也有明显改进。

零成本迁移

1.6 的模型结构与 1.5 完全一致——输入输出格式、预处理方式、推理
入口均无变化。现有 PaddleOCR-VL-1.5 用户直接替换权重,无需改
业务代码即可完成升级。

官方异步 API SDK 三件套

v3.6.0 发布了 PaddleOCR 官方 API 的 Python、Go、TypeScript
三种异步 SDK。每个 SDK 都封装了完整的任务生命周期——提交文档解析
或 OCR 请求、异步轮询状态、拉取结果、处理超时与重试。Python SDK
基于 asyncio + aiohttp,Go SDK 使用 net/http + goroutine,
TypeScript SDK 基于原生 fetch + async/await。开发者只需几行
代码就能接入云端 API,不需要再手写 HTTP 轮询逻辑。

from paddleocr import AsyncPaddleOCRClient
client = AsyncPaddleOCRClient(api_key="...")
result = await client.parse_document("invoice.pdf")
print(result.to_markdown())

多页 TIFF 原生支持

直接传入多页 TIFF 文件路径,PaddleOCR 自动逐页解析并合并为结构化
输出,不需要手动拆页或调用外部工具预处理。

为什么 0.9B 能做出大模型级别的精度

0.9B 参数在 OmniDocBench 上拿到 96.33%,超过多数 7B+ 通用 VLM,
归结于两项训练侧创新:

区域感知数据优化框架(Region-Aware Data Optimization)——
传统训练流程对整张文档图片直接做 OCR 标注,表格线、公式符号等
细粒度区域边界会被全局 Loss 抹平。区域感知框架先通过布局检测做
区域级分割,然后对每个区域(表格、文本块、公式区)独立做标注质量
优化:表格区侧重单元格边界对齐,公式区侧重符号顺序和嵌套结构。
模型训练时能同时看到全局语义和局部边界信号。

渐进式后训练方案(Progressive Post-Training)——不一次性用全部
数据做微调。分阶段注入:第一阶段强化通用文本和公式识别;第二阶段
加入表格结构理解和古籍样本;第三阶段注入印章、图表、生僻字等长尾
场景。每阶段保留前序能力的同时叠加新技能,避免阶段性灾难性遗忘。
当新能力训练影响旧能力时,通过重放(replay)前序阶段的部分样本
做稳定化。

这种「数据精炼 + 课程学习」的组合,让 0.9B 模型在专项场景上做到
大模型级别的精度,同时推理耗时只有 7B 模型的 1/5 左右,适合批量
文档管线和边缘部署。

最后回到使用姿势:如果你的 RAG 管线刚好在用 PaddleOCR-VL-1.5,
v3.6.0 的升级几乎没有成本——换权重、调 API(如果用了异步 SDK)。
对那些还在用手动拆 PDF + 正则提取的老方案来说,现在是用一个
96.33% 精度的 0.9B VLM 一次性替换整套管线的好时机。