PDF 解析工具实测
你有没有遇到过这种场景:一份扫描版 PDF 财报,表格里全是合并单元格,公式夹在段落中间,页面还歪了 5 度——用现成工具一跑,表格错位、公式乱码、段落顺序全串了。
PDF 解析听起来是个”古老”的问题,但直到 2026 年,它依然是大模型落地最头疼的数据瓶颈之一。我们把 7 款主流工具拉到一起,从 Benchmark 到成本,用数据说清楚:现在走到哪了,还差什么。
一、PDF 解析为什么这么难?
PDF 本质上是一种面向打印的格式——它精确定义了每个字符在页面上的坐标位置,但不保留逻辑结构(标题层级、表格行列关系、公式边界)。一张 PDF 页面对人类来说一目了然,但对机器来说就是一堆坐标点。
再加上现实中的 PDF 千奇百怪:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
这六大痛点,至今没有任何一款工具能全部完美解决。但好消息是——2024-2026 年这一轮端到端大模型浪潮,正在快速缩小差距。
二、技术演进:三个阶段,从”拼规则”到”看一眼就懂”
PDF 解析技术经历了三个明显的阶段:
阶段一:传统 OCR 流水线(~2022)
路线:预处理 → 版面分析 → 文本检测 → OCR 识别 → 后处理
代表工具:Tesseract、早期 PaddleOCR、EasyOCR。
优点是轻量、CPU 就能跑;缺点是靠规则和启发式驱动,遇到没见过的排版就歇菜。复杂表格和公式?想都别想。
阶段二:深度学习增强管线(2023-2025)
路线:深度学习版面分析(YOLO/DETR)+ 专项模型(表格/公式各一个)+ OCR
代表工具:MinerU、Marker/Surya、PaddleOCR v3。
每个环节换上深度学习模型,精度大幅提升。但问题是流水线太长,误差在每个环节累积——版面分析切错一块,后面全跟着错。
阶段三:端到端多模态大模型(2024-至今)
路线:VLM(视觉语言模型)直接读取页面图像,一步输出结构化文本
代表工具:GOT-OCR 2.0、olmOCR、MinerU 2.5(已转向 VLM 架构)。
核心变化:不再显式拆流水线,模型”看一眼”页面就能理解布局、识别文字、输出结构。语义理解能力带来了对复杂场景的鲁棒性——公式嵌在段落里、表格跨了页、文字歪了 10 度,VLM 都能应付。
代价是推理成本高、存在幻觉风险。但 MinerU 2.5 用 1.2B 参数就打出了 OmniDocBench 最高分,成本问题正在快速缓解。
三、方法论:我们怎么做的对比
我们从 7 个参考源(见文末)+ 补充搜索采集了 7 款主流工具的关键维度数据,用 Python 脚本结构化为 6 个分析模块(技术演进、工具对比、痛点分析、Benchmark 数据、成本分析、功能矩阵),输出到 JSON 供交叉验证。
核心采集逻辑(code/collect_pdf_ocr_analysis.py):
def build_tool_comparison(): """主流开源工具横向对比""" return { "tools": [ {"name": "MinerU 2.5", "params": "1.2B", "benchmark": {"dataset": "OmniDocBench", "score": 90.67}, ...}, {"name": "olmOCR", "params": "7B", "benchmark": {"dataset": "olmOCR-Bench", "score": "ELO 1800+"}, ...}, # ... 共 7 款工具 ] }
注意:不同工具使用不同 Benchmark,不能直接比绝对数字。我们标注了每个数据点的评测集和指标单位,避免”苹果比橘子”。
四、7 款工具 Benchmark 数据对比
4.1 核心 Benchmark 汇总
|
|
|
|
|
|
|---|---|---|---|---|
| MinerU 2.5 |
|
综合 90.67 |
|
|
| olmOCR |
|
ELO 1800+
|
|
|
| GOT-OCR 2.0 |
|
F1 96.3%
|
|
|
| PaddleOCR v3 |
|
94.5% 准确率 |
|
|
| Marker (Surya) |
|
~92% 准确率 |
|
|
| Docling |
|
|
|
|
| Tesseract 5 |
|
~85% 准确率 |
|
|
数据来源:OmniDocBenc、olmOCR-Bench (arXiv:2502.18443)、ICDAR 2019、广州软件应用技术研究院 OCR 评测报告、社区测试。
4.2 关键发现
-
MinerU 2.5 用 1.2B 参数打了 90.67 的最高综合分——比 72B 的大模型还高,证明”小而精”在文档解析领域可行。速度还比 MonkeyOCR-pro-3B 快 4 倍。
-
olmOCR 超过了 GPT-4o,而成本只有后者的 1/32。Document-anchoring 技术(结合 PDF 原生元数据 + 页面图像)有效减少了 VLM 的幻觉问题。
-
GOT-OCR 2.0 只有 580M 参数(1.43GB),却支持 127 种语言,还能识别乐谱和几何图形。85ms 推理速度是实时应用的有力候选。
-
PaddleOCR v3 依然是中文场景的王者——94.5% 准确率,CPU 就能跑,生态最成熟。但复杂公式嵌入场景仍有短板。
-
Tesseract 已经掉队了——~85% 准确率,无表格/公式支持。如果你还在用它处理复杂 PDF,该升级了。
五、功能矩阵:谁能做什么?
2024 年底的一份 12 款开源工具对比(来自 liduos.com)揭示了一个残酷事实:
|
|
|
|
|
|
|
|
|
|---|---|---|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 复杂表格 | — | — | — | — | — | — | — |
| 公式识别 | — | — | — | — | — | — | — |
|
|
|
|
|
|
|
|
|
2024 年底:复杂表格和公式识别,12 款开源工具全军覆没。
但到了 2025-2026 年,MinerU 2.5、GOT-OCR 2.0、olmOCR 等新一代工具已经在这两项上取得重大突破。技术迭代速度快得惊人——一年内从”全不行”到”已可用”。
六、成本对比:百万页 PDF 要花多少钱?
这是很多团队最关心的问题。我们整理了不同方案处理百万页 PDF 的成本:
|
|
|
|
|
|---|---|---|---|
|
|
$6,240 |
|
|
|
|
$190 |
|
|
|
|
GPU 时间成本 |
|
|
|
|
极低 |
|
|
|
|
接近 0 |
|
|
olmOCR 的成本仅为 GPT-4o 的 1/32,精度还更高——这是 2026 年最重要的成本效率突破。
对于商业场景中的特殊需求:
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
七、六大痛点的当前解法与展望
痛点一:复杂表格 — 最硬的骨头
合并单元格、无线表、跨页表格——这是 PDF 解析里公认最难的。
为什么难? Markdown 语法天生不支持合并单元格,所以只输出 Markdown 的工具在这里注定有上限。必须走 HTML 表格输出。
当前最佳:商业端 TextIn 99.2%+;开源端 Surya 表格引擎表现最好,MinerU 2.5 大幅改善了旋转/无边框表格。
展望:VLM 端到端 + HTML 输出是方向。模型直接”看”表格图像理解结构,比传统”先检测单元格再拼关系”更鲁棒。
痛点二:数学公式 — 嵌在上下文里就废了
单独一张公式图片识别已经不错了,但嵌在段落里的行内公式,多数框架直接识别不出来。
当前最佳:商业端 Mathpix(英文)/ Doc2X(中文);开源端 MinerU 2.5 在中英混合长公式上有显著提升。
展望:专项公式模型 + VLM 语义理解结合。模型需要同时理解”这是公式”和”公式在说什么”。
痛点三:扫描件质量 — 垃圾进,垃圾出
模糊、歪斜、印章覆盖、手写批注——扫描件质量差一档,识别准确率可以掉十几个百分点。
当前最佳:PaddleOCR-VL-1.5 加入了自动去模糊、去噪、透视矫正。GOT-OCR 2.0 的自适应预处理把模糊文本识别率从 68% 拉到了 89%。
展望:超分辨率重建 + 几何校正作为前置模块正在成为标配。
痛点四:复杂版面 — 多栏阅读顺序是关键
人眼看多栏报纸很自然,但机器容易把左栏末尾和右栏开头拼到一起。
当前最佳:MinerU 2.5 在 OmniDocBench 的阅读顺序预测上表现领先。YOLO/DETR 版面检测 + 阅读顺序模型已经是标准组合。
痛点五:手写体 — 中文手写仍是短板
英文手写体在 GOT-OCR 2.0 上已经有明显改善(极端场景错误率 21%→7.3%)。但中文手写识别仍然是整个领域的短板——字符种类多、书写变化大、数据集不足。
痛点六:成本与规模 — 小模型在赢
olmOCR 把百万页成本压到了 $190(GPT-4o 的 1/32),MinerU 2.5 用 1.2B 参数打出最高分——“大力出奇迹”正在被”小而精”取代。
模型量化、分布式推理、针对文档场景的高效架构设计,正在让端到端方案的成本快速下降。
八、最新动态:2026 年初这些变化值得关注
以上对比基于各工具的里程碑版本。但这个领域迭代极快——我们获取了相关更新,一起看下:
8.1 MinerU 2.7.x:hybrid 后端,pipeline + VLM 两条腿走路
MinerU 在 2025 年 12 月推出了 hybrid 后端(v2.7.0),这是目前最务实的架构创新:
- 文本 PDF
→ 直接抽取原生文字,不走视觉通道,从根源减少 VLM 幻觉 - 扫描 PDF
→ VLM 视觉识别,支持 109 种语言 -
独立行内公式开关:不需要公式识别时关掉,减少误识别噪音 -
v2.7.2 还优化了跨页表格合并的成功率
另一个重要信号:v2.7.4-2.7.6 连续适配了 10+ 国产算力平台(昇腾、寒武纪、昆仑芯、摩尔线程、海光、燧原、沐曦、平头哥、天数智芯、太初)。这说明 MinerU 在国内政企场景的部署需求已经很大了——信创合规不是可选项,是刚需。
最新版本:v2.7.6 (2026-02-06),GitHub 56.5k stars
8.2 PaddleOCR-VL-1.5:0.9B 参数,OmniDocBench SOTA
2026 年 1 月 29 日,PaddleOCR v3.4.0 发布了 PaddleOCR-VL-1.5——一个 仅 0.9B 参数的 VLM,在 OmniDocBench v1.5 上拿下 94.5% SOTA,超越了全球顶尖通用大模型和文档解析专用模型。
关键突破:
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
架构上用了 NaViT 动态分辨率视觉编码器 + ERNIE-4.5-0.3B 语言模型,对真实拍摄场景(手机拍文档、歪斜扫描件)的鲁棒性极强。
最新版本:v3.4.0 (2026-01-29),GitHub 72.5k stars
8.3 olmOCR v0.4.27:PII 脱敏 + 大规模稳定性
olmOCR 的更新节奏很快(v0.4.14 → v0.4.27,两个多月迭代了十几个版本),重点放在生产环境稳定性上:
-
PII(个人隐私信息)标注流水线,支持大规模文档处理前的自动脱敏 -
并行重试机制,提升百万页级处理的可靠性 -
持续的 GPU 依赖优化
最新版本:v0.4.27 (2026-03-12),GitHub 17k stars
8.4 SmolDocling:256M 参数,消费级 GPU 就能跑
IBM Research 和 Hugging Face 在 2025 年 3 月推出的 SmolDocling 值得单独提一下:
- 256M 参数
——比 GOT-OCR 2.0 (580M) 还小一半 -
消费级 GPU 上 0.35 秒/页,仅需 0.489 GB VRAM -
与 27 倍大的模型在文档解析任务上竞争 -
输出 DocTags 通用标记格式(含内容、结构、空间位置)
这说明什么?端到端文档解析正在走向极度轻量化。 未来可能在手机端就能跑文档 OCR。
8.5 趋势总结:模型越来越小,架构越来越混合
|
|
|
|
|
|---|---|---|---|
|
|
256M |
|
|
|
|
|
|
|
|
|
0.9B |
|
|
|
|
|
|
|
|
|
|
|
|
两个趋势很清晰:
-
参数量在急剧缩小:从 7B → 1.2B → 0.9B → 256M,效果没降反升。”文档解析不需要大模型”正在成为共识。
-
纯 VLM 不是终点,hybrid 才是:MinerU 2.7 的 hybrid 后端说明——文本 PDF 直接抽取文字比让 VLM “看图猜字”更准更快。未来的最优方案大概率是”能抽就抽,抽不了再看”。
九、选型建议:别纠结了,看场景
|
|
|
|
|---|---|---|
| 通用高精度 PDF 解析 |
|
|
| 大规模文档处理(百万页+) |
|
|
| 中文文档为主 |
|
|
| 追求速度 |
|
|
| 学术论文(公式多) |
|
|
| 轻量级/嵌入式 |
|
|
| 简单印刷体纯文本 |
|
|
| 复杂表格(商业级精度) |
|
|
| 公式识别(商业级精度) |
|
|
如果要自建一套文档解析系统:以 MinerU 为基座,针对特定短板场景用 PaddleOCR 工具包训练专项模型补齐——这是目前社区的共识方案。
十、彩蛋:PDF 会消亡吗?
一个有意思的趋势:当越来越多的内容被 AI 生产和消费时,对人类友好的 PDF 可能反而会成为 AI 工作流的瓶颈。
已经有人在推动”Born-digital”文档标准——文档从诞生那一刻起就带有结构化元数据,不需要事后 OCR。前文有讲,Cloudflare 的 Markdown for Agents、WebMCP 的声明式工具,本质上都在做同一件事:让信息从源头就对机器友好。
如果这个趋势持续,PDF OCR 可能在未来 5-10 年内从”刚需”变成”遗留系统的适配层”。但在那之前——你手上那堆扫描件财报,还是得靠 MinerU、olmOCR ……
数据与来源说明
|
|
|
|
|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
数据整理自公开报告、官方文档与主流媒体报道,仅供讨论与参考;具体口径与时间以各机构最新发布为准。
夜雨聆风