乐于分享
好东西不私藏

PDF 解析工具实测

PDF 解析工具实测

你有没有遇到过这种场景:一份扫描版 PDF 财报,表格里全是合并单元格,公式夹在段落中间,页面还歪了 5 度——用现成工具一跑,表格错位、公式乱码、段落顺序全串了。

PDF 解析听起来是个”古老”的问题,但直到 2026 年,它依然是大模型落地最头疼的数据瓶颈之一。我们把 7 款主流工具拉到一起,从 Benchmark 到成本,用数据说清楚:现在走到哪了,还差什么。


一、PDF 解析为什么这么难?

PDF 本质上是一种面向打印的格式——它精确定义了每个字符在页面上的坐标位置,但不保留逻辑结构(标题层级、表格行列关系、公式边界)。一张 PDF 页面对人类来说一目了然,但对机器来说就是一堆坐标点。

再加上现实中的 PDF 千奇百怪:

难点
具体表现
严重度
复杂表格
合并单元格、无线表、跨页表格、嵌套结构
极高
数学公式
行内/行间公式、手写公式、中英混排长公式
扫描件质量
模糊、倾斜、光照不均、印章/手写批注干扰
复杂版面
多栏、图文混排、报纸/杂志排版
中高
手写体
手写中文、潦草签名、批注
中高
规模成本
百万页级处理的 GPU 成本与延迟

这六大痛点,至今没有任何一款工具能全部完美解决。但好消息是——2024-2026 年这一轮端到端大模型浪潮,正在快速缩小差距。


二、技术演进:三个阶段,从”拼规则”到”看一眼就懂”

PDF 解析技术经历了三个明显的阶段:

阶段一:传统 OCR 流水线(~2022)

路线:预处理 → 版面分析 → 文本检测 → OCR 识别 → 后处理

代表工具:Tesseract、早期 PaddleOCR、EasyOCR。

优点是轻量、CPU 就能跑;缺点是靠规则和启发式驱动,遇到没见过的排版就歇菜。复杂表格和公式?想都别想。

阶段二:深度学习增强管线(2023-2025)

路线:深度学习版面分析(YOLO/DETR)+ 专项模型(表格/公式各一个)+ OCR

代表工具:MinerU、Marker/Surya、PaddleOCR v3。

每个环节换上深度学习模型,精度大幅提升。但问题是流水线太长,误差在每个环节累积——版面分析切错一块,后面全跟着错。

阶段三:端到端多模态大模型(2024-至今)

路线:VLM(视觉语言模型)直接读取页面图像,一步输出结构化文本

代表工具:GOT-OCR 2.0、olmOCR、MinerU 2.5(已转向 VLM 架构)。

核心变化:不再显式拆流水线,模型”看一眼”页面就能理解布局、识别文字、输出结构。语义理解能力带来了对复杂场景的鲁棒性——公式嵌在段落里、表格跨了页、文字歪了 10 度,VLM 都能应付。

代价是推理成本高、存在幻觉风险。但 MinerU 2.5 用 1.2B 参数就打出了 OmniDocBench 最高分,成本问题正在快速缓解。


三、方法论:我们怎么做的对比

我们从 7 个参考源(见文末)+ 补充搜索采集了 7 款主流工具的关键维度数据,用 Python 脚本结构化为 6 个分析模块(技术演进、工具对比、痛点分析、Benchmark 数据、成本分析、功能矩阵),输出到 JSON 供交叉验证。

核心采集逻辑(code/collect_pdf_ocr_analysis.py):

def build_tool_comparison():    """主流开源工具横向对比"""    return {        "tools": [            {"name": "MinerU 2.5", "params": "1.2B",             "benchmark": {"dataset": "OmniDocBench", "score": 90.67}, ...},            {"name": "olmOCR", "params": "7B",             "benchmark": {"dataset": "olmOCR-Bench", "score": "ELO 1800+"}, ...},            # ... 共 7 款工具        ]    }

注意:不同工具使用不同 Benchmark,不能直接比绝对数字。我们标注了每个数据点的评测集和指标单位,避免”苹果比橘子”。


四、7 款工具 Benchmark 数据对比

4.1 核心 Benchmark 汇总

工具
评测集
核心指标
参数量
速度
MinerU 2.5
OmniDocBench (981页/9类文档)
综合 90.67
1.2B
2.12 页/秒 (A100)
olmOCR
olmOCR-Bench (1400 PDF)
ELO 1800+

 (超 GPT-4o)
7B
分布式可扩展
GOT-OCR 2.0
ICDAR 2019
F1 96.3%

, BLEU 0.972
580M
85ms/图 (V100)
PaddleOCR v3
通用 OCR 评测
94.5% 准确率
多模型组合
CPU 可运行
Marker (Surya)
社区评测
~92% 准确率
多模型组合
同类 4x 速
Docling
多模型组合
中等
Tesseract 5
通用 OCR 评测
~85% 准确率
轻量
快 (CPU)

数据来源:OmniDocBenc、olmOCR-Bench (arXiv:2502.18443)、ICDAR 2019、广州软件应用技术研究院 OCR 评测报告、社区测试。

4.2 关键发现

  1. MinerU 2.5 用 1.2B 参数打了 90.67 的最高综合分——比 72B 的大模型还高,证明”小而精”在文档解析领域可行。速度还比 MonkeyOCR-pro-3B 快 4 倍。

  2. olmOCR 超过了 GPT-4o,而成本只有后者的 1/32。Document-anchoring 技术(结合 PDF 原生元数据 + 页面图像)有效减少了 VLM 的幻觉问题。

  3. GOT-OCR 2.0 只有 580M 参数(1.43GB),却支持 127 种语言,还能识别乐谱和几何图形。85ms 推理速度是实时应用的有力候选。

  4. PaddleOCR v3 依然是中文场景的王者——94.5% 准确率,CPU 就能跑,生态最成熟。但复杂公式嵌入场景仍有短板。

  5. Tesseract 已经掉队了——~85% 准确率,无表格/公式支持。如果你还在用它处理复杂 PDF,该升级了。


五、功能矩阵:谁能做什么?

2024 年底的一份 12 款开源工具对比(来自 liduos.com)揭示了一个残酷事实:

功能
MinerU
PaddleOCR
Marker
gptpdf
Zerox
Chunkr
Unstructured
PDF/图像解析
其他格式 (PPT/Excel)
布局分析
简单表格
复杂表格
公式识别
Markdown 输出

2024 年底:复杂表格和公式识别,12 款开源工具全军覆没。

但到了 2025-2026 年,MinerU 2.5、GOT-OCR 2.0、olmOCR 等新一代工具已经在这两项上取得重大突破。技术迭代速度快得惊人——一年内从”全不行”到”已可用”。


六、成本对比:百万页 PDF 要花多少钱?

这是很多团队最关心的问题。我们整理了不同方案处理百万页 PDF 的成本:

方案
成本 (USD/百万页)
精度
适用场景
GPT-4o API (批量)
$6,240
预算充足、追求最高精度
olmOCR (自部署 GPU)
$190
高(超 GPT-4o)
大规模文档处理首选
MinerU 2.5 (A100)
GPU 时间成本
最高 (90.67)
综合性能最优
PaddleOCR v3 (CPU)
极低
中高 (94.5%)
中文文档、预算有限
Tesseract 5 (CPU)
接近 0
中 (~85%)
简单印刷体纯文本

olmOCR 的成本仅为 GPT-4o 的 1/32,精度还更高——这是 2026 年最重要的成本效率突破。

对于商业场景中的特殊需求:

场景
推荐方案
精度
复杂表格(财报/政务)
TextIn / PDFlux(商业)
99.2%+
英文数学公式
Mathpix(商业)
中文数学公式
Doc2X(商业)
通用高精度
MinerU 2.5 / olmOCR(开源)

七、六大痛点的当前解法与展望

痛点一:复杂表格 — 最硬的骨头

合并单元格、无线表、跨页表格——这是 PDF 解析里公认最难的。

为什么难? Markdown 语法天生不支持合并单元格,所以只输出 Markdown 的工具在这里注定有上限。必须走 HTML 表格输出。

当前最佳:商业端 TextIn 99.2%+;开源端 Surya 表格引擎表现最好,MinerU 2.5 大幅改善了旋转/无边框表格。

展望:VLM 端到端 + HTML 输出是方向。模型直接”看”表格图像理解结构,比传统”先检测单元格再拼关系”更鲁棒。

痛点二:数学公式 — 嵌在上下文里就废了

单独一张公式图片识别已经不错了,但嵌在段落里的行内公式,多数框架直接识别不出来

当前最佳:商业端 Mathpix(英文)/ Doc2X(中文);开源端 MinerU 2.5 在中英混合长公式上有显著提升。

展望:专项公式模型 + VLM 语义理解结合。模型需要同时理解”这是公式”和”公式在说什么”。

痛点三:扫描件质量 — 垃圾进,垃圾出

模糊、歪斜、印章覆盖、手写批注——扫描件质量差一档,识别准确率可以掉十几个百分点。

当前最佳:PaddleOCR-VL-1.5 加入了自动去模糊、去噪、透视矫正。GOT-OCR 2.0 的自适应预处理把模糊文本识别率从 68% 拉到了 89%。

展望:超分辨率重建 + 几何校正作为前置模块正在成为标配。

痛点四:复杂版面 — 多栏阅读顺序是关键

人眼看多栏报纸很自然,但机器容易把左栏末尾和右栏开头拼到一起。

当前最佳:MinerU 2.5 在 OmniDocBench 的阅读顺序预测上表现领先。YOLO/DETR 版面检测 + 阅读顺序模型已经是标准组合。

痛点五:手写体 — 中文手写仍是短板

英文手写体在 GOT-OCR 2.0 上已经有明显改善(极端场景错误率 21%→7.3%)。但中文手写识别仍然是整个领域的短板——字符种类多、书写变化大、数据集不足。

痛点六:成本与规模 — 小模型在赢

olmOCR 把百万页成本压到了 $190(GPT-4o 的 1/32),MinerU 2.5 用 1.2B 参数打出最高分——“大力出奇迹”正在被”小而精”取代

模型量化、分布式推理、针对文档场景的高效架构设计,正在让端到端方案的成本快速下降。


八、最新动态:2026 年初这些变化值得关注

以上对比基于各工具的里程碑版本。但这个领域迭代极快——我们获取了相关更新,一起看下:

8.1 MinerU 2.7.x:hybrid 后端,pipeline + VLM 两条腿走路

MinerU 在 2025 年 12 月推出了 hybrid 后端(v2.7.0),这是目前最务实的架构创新:

  • 文本 PDF
     → 直接抽取原生文字,不走视觉通道,从根源减少 VLM 幻觉
  • 扫描 PDF
     → VLM 视觉识别,支持 109 种语言
  • 独立行内公式开关:不需要公式识别时关掉,减少误识别噪音
  • v2.7.2 还优化了跨页表格合并的成功率

另一个重要信号:v2.7.4-2.7.6 连续适配了 10+ 国产算力平台(昇腾、寒武纪、昆仑芯、摩尔线程、海光、燧原、沐曦、平头哥、天数智芯、太初)。这说明 MinerU 在国内政企场景的部署需求已经很大了——信创合规不是可选项,是刚需。

最新版本:v2.7.6 (2026-02-06),GitHub 56.5k stars

8.2 PaddleOCR-VL-1.5:0.9B 参数,OmniDocBench SOTA

2026 年 1 月 29 日,PaddleOCR v3.4.0 发布了 PaddleOCR-VL-1.5——一个 仅 0.9B 参数的 VLM,在 OmniDocBench v1.5 上拿下 94.5% SOTA,超越了全球顶尖通用大模型和文档解析专用模型。

关键突破:

特性
说明
异形框定位
扫描/倾斜/弯折/屏幕拍摄/复杂光照下的文档元素精准定位
印章识别
首次集成到文档解析 VLM 中
Text Spotting
文本检测 + 识别一体化
跨页表格合并
支持跨页表格自动拼接
多级标题重建
还原文档逻辑结构
MLX-VLM 支持
Apple Silicon 原生推理加速

架构上用了 NaViT 动态分辨率视觉编码器 + ERNIE-4.5-0.3B 语言模型,对真实拍摄场景(手机拍文档、歪斜扫描件)的鲁棒性极强。

最新版本:v3.4.0 (2026-01-29),GitHub 72.5k stars

8.3 olmOCR v0.4.27:PII 脱敏 + 大规模稳定性

olmOCR 的更新节奏很快(v0.4.14 → v0.4.27,两个多月迭代了十几个版本),重点放在生产环境稳定性上:

  • PII(个人隐私信息)标注流水线,支持大规模文档处理前的自动脱敏
  • 并行重试机制,提升百万页级处理的可靠性
  • 持续的 GPU 依赖优化

最新版本:v0.4.27 (2026-03-12),GitHub 17k stars

8.4 SmolDocling:256M 参数,消费级 GPU 就能跑

IBM Research 和 Hugging Face 在 2025 年 3 月推出的 SmolDocling 值得单独提一下:

  • 256M 参数
    ——比 GOT-OCR 2.0 (580M) 还小一半
  • 消费级 GPU 上 0.35 秒/页,仅需 0.489 GB VRAM
  • 与 27 倍大的模型在文档解析任务上竞争
  • 输出 DocTags 通用标记格式(含内容、结构、空间位置)

这说明什么?端到端文档解析正在走向极度轻量化。 未来可能在手机端就能跑文档 OCR。

8.5 趋势总结:模型越来越小,架构越来越混合

模型
参数量
发布时间
定位
SmolDocling
256M
2025.03
极轻量端到端
GOT-OCR 2.0
580M
2024.09
轻量统一 OCR
PaddleOCR-VL-1.5
0.9B
2026.01
紧凑 VLM,真实场景 SOTA
MinerU 2.5/2.7
1.2B
2025.09/12
综合最高分,hybrid 架构
olmOCR
7B
2025.02
大规模处理,超 GPT-4o

两个趋势很清晰:

  1. 参数量在急剧缩小:从 7B → 1.2B → 0.9B → 256M,效果没降反升。”文档解析不需要大模型”正在成为共识。

  2. 纯 VLM 不是终点,hybrid 才是:MinerU 2.7 的 hybrid 后端说明——文本 PDF 直接抽取文字比让 VLM “看图猜字”更准更快。未来的最优方案大概率是”能抽就抽,抽不了再看”。


九、选型建议:别纠结了,看场景

你的场景
推荐工具
理由
通用高精度 PDF 解析
MinerU 2.5+
OmniDocBench 最高分,公式/表格/版面全能
大规模文档处理(百万页+)
olmOCR
成本仅 GPT-4o 的 1/32,分布式可扩展
中文文档为主
PaddleOCR v3
中文识别最强,CPU 可跑,生态成熟
追求速度
Marker (Surya)
同类 4 倍速,表格识别优秀
学术论文(公式多)
GOT-OCR 2.0 或 MinerU 2.5
端到端公式识别强
轻量级/嵌入式
GOT-OCR 2.0
580M 参数,1.43GB 模型
简单印刷体纯文本
Tesseract 5
免费,CPU,100+ 语言,够用就行
复杂表格(商业级精度)
TextIn / PDFlux
99.2%+ 准确率,花钱买确定性
公式识别(商业级精度)
Mathpix (英) / Doc2X (中)
公式场景的天花板

如果要自建一套文档解析系统:以 MinerU 为基座,针对特定短板场景用 PaddleOCR 工具包训练专项模型补齐——这是目前社区的共识方案。


十、彩蛋:PDF 会消亡吗?

一个有意思的趋势:当越来越多的内容被 AI 生产和消费时,对人类友好的 PDF 可能反而会成为 AI 工作流的瓶颈

已经有人在推动”Born-digital”文档标准——文档从诞生那一刻起就带有结构化元数据,不需要事后 OCR。前文有讲,Cloudflare 的 Markdown for Agents、WebMCP 的声明式工具,本质上都在做同一件事:让信息从源头就对机器友好

如果这个趋势持续,PDF OCR 可能在未来 5-10 年内从”刚需”变成”遗留系统的适配层”。但在那之前——你手上那堆扫描件财报,还是得靠 MinerU、olmOCR ……


数据与来源说明

数据维度
结论摘要
主要来源
Benchmark 综合评测
MinerU 2.5 在 OmniDocBench(981 页/9 类文档)综合 90.67,1.2B 参数超过 72B 大模型,速度比 MonkeyOCR-pro-3B 快 4 倍
OmniDocBench 论文(2025)、MinerU GitHub
成本效率
olmOCR 百万页成本 $190,为 GPT-4o($6,240)的 1/32,ELO 1800+ 超过 GPT-4o
olmOCR 论文(arXiv:2502.18443)
轻量模型性能
GOT-OCR 2.0 仅 580M 参数,F1 96.3%,85ms/图推理,支持 127 种语言
GOT-OCR 2.0 GitHub、ICDAR 2019
中文 OCR 精度
PaddleOCR v3 准确率 94.5%,CPU 可运行;PaddleOCR-VL-1.5(0.9B)在 OmniDocBench v1.5 拿下 SOTA
PaddleOCR 官方文档(v3.4.0, 2026-01-29)、arXiv:2601.21957
复杂表格与公式
2024 年底 12 款开源工具在复杂表格和公式识别上全军覆没;商业端 TextIn 达 99.2%+
liduos.com 12 款工具横评(2024)、TextIn 官网
扫描件预处理
GOT-OCR 2.0 自适应预处理将模糊文本识别率从 68% 提升至 89%
GOT-OCR 2.0 论文、社区测试报告
极轻量模型
SmolDocling 仅 256M 参数,消费级 GPU 0.35 秒/页、0.489 GB VRAM,与 27 倍大模型竞争
SmolDocling 论文(arXiv:2503.11576, 2025-03)
MinerU hybrid 架构
v2.7.0 引入 hybrid 后端(文本 PDF 直接抽取 + 扫描件 VLM),v2.7.4-2.7.6 适配 10+ 国产算力平台
MinerU GitHub releases(v2.7.6, 2026-02-06)
olmOCR 生产稳定性
v0.4.14→v0.4.27 迭代十余版本,新增 PII 脱敏流水线和并行重试机制
olmOCR GitHub releases(v0.4.27, 2026-03-12)
开源工具功能矩阵
7 款主流工具横向对比,不同评测集不可直接横比;Marker (Surya) 速度为同类 4 倍
知乎、Reddit、51CTO、CSDN、广州软件应用技术研究院 OCR 评测报告(截至 2026-03)

数据整理自公开报告、官方文档与主流媒体报道,仅供讨论与参考;具体口径与时间以各机构最新发布为准。

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » PDF 解析工具实测

猜你喜欢

  • 暂无文章