乐于分享
好东西不私藏

别瞎花钱了!我测完 18 个文档 6 类场景,告诉你怎么选适合你的OCR 模型?(项目已开源+实测数据)

别瞎花钱了!我测完 18 个文档 6 类场景,告诉你怎么选适合你的OCR 模型?(项目已开源+实测数据)

起因:73k Star 之后,朋友们问了个问题!

前几天 PaddleOCR 登顶 GitHub OCR 榜单,Star 数突破 73k+,成为全球最受欢迎的开源 OCR 项目。我在 X 上分享了这个消息,评论区直接炸了。

好几个朋友都在问同一件事:“智谱的 GLM-OCR 最近也挺火的,号称专门做文档识别,你能不能测一下,跟 PaddleOCR 比到底谁更好用?”

说实话,我也好奇。

两个模型参数量都是 0.9B,都有免费的 Cloud API,但架构思路完全不同。官方跑分看着都挺好,不如自己动手测测看。

我这里直接使用了本地脚本+API 的方式快速可以测试到结果的方式进行!

于是就有了这篇免费自来水,自己用了 Claude Code Sonnet4.6 帮我撰写测试脚本,最后来撰写实测的文章。

两位选手:同样 0.9B,不同的路

在开始测试之前,先介绍一下两个模型的背景和核心差异。

OCR(Optical Character Recognition,光学字符识别):把图片里的文字“读出来”,变成可编辑文本的技术。你手机扫描名片、银行识别卡号、PDF 论文转 Word,背后都是 OCR 在干活。就像给计算机装了一双能读字的眼睛。

传统 OCR 只认识印刷体,遇到公式、表格、手写笔记就会出错。近两年出现了基于视觉语言模型(VLM)的新一代 OCR,它们能同时理解图像内容和文字语义,识别能力大幅提升。

这次测试的两位选手,都采用了相同的两阶段架构,甚至共享同一个布局分析模型。

GLM-OCR(智谱 AI)

GLM-OCR 是智谱 AI 推出的轻量级 OCR 模型,参数量 0.9B,基于 GLM-V 编码器-解码器架构 + CogViT 视觉编码器。

它采用两阶段 Pipeline:先用 PP-DocLayout-V3 进行布局分析,将页面切分成不同区域,再通过 GLM-V 多模态模型对各区域进行并行识别。

模型引入了多令牌预测(MTP)损失和稳定的全任务强化学习,提升训练效率和泛化能力。

  • 擅长手写体、印章、代码、复杂表格和公式

  • 输出含版面坐标(bbox),可精确还原文档空间结构

  • 支持 vLLM / SGLang 本地部署,速度 1.86 页/秒

  • Cloud API 免费额度:open.bigmodel.cn

PaddleOCR-VL-1.5(百度飞桨)

PaddleOCR-VL-1.5 是百度飞桨团队的新一代文档识别模型,同样 0.9B 参数。

它同样采用两阶段 Pipeline:先用自家开发的 PP-DocLayout-V3 进行布局分析,将页面切成若干区域(标题、正文、表格、公式……),再让 VLM 按区域逐一识别,最后拼接成完整的 Markdown。

  • Pipeline 架构对复杂版面耗时更稳定

  • 支持 80+ 语言,中英文混排开箱即用

  • GitHub 73k+ Star,国内最广泛使用的开源 OCR 项目

  • 支持昆仑、昇腾等国产 GPU

  • Cloud API 免费额度:aistudio.baidu.com

架构对比一览

对比项
GLM-OCR
PaddleOCR-VL-1.5
参数量
0.9B
0.9B
架构
两阶段 Pipeline(PP-DocLayout-V3 + GLM-V)
两阶段 Pipeline(PP-DocLayout-V3 + VLM)
布局分析
PP-DocLayout-V3(百度飞桨开发)
PP-DocLayout-V3(自研)
推理框架
vLLM / SGLang
PaddlePaddle
语言支持
中英文为主
80+ 语言
国产 GPU
暂无官方支持
昆仑、昇腾适配
开源生态
GitHub 新项目
73k+ Star,成熟生态
独特能力
MTP 损失 + 强化学习训练
optionalPayload 预处理调控

一句话总结:两个模型都采用“先布局分析、再识别”的两阶段流程,甚至共享同一个布局分析模型 PP-DocLayout-V3(百度飞桨开发)。

性能差异主要来自识别阶段:GLM-OCR 使用 GLM-V + 强化学习训练,PaddleOCR 使用 VLM + 传统监督学习。

测试怎么做的

评测基准:OmniDocBench

OmniDocBench:由上海人工智能实验室(OpenDataLab)发布的文档理解评测基准,发表于 CVPR 2025。完整版包含 1355 页真实文档,涵盖 9 种文档类型。可以理解为 OCR 界的“高考”。

本次我用的是 OmniDocBench 的公开 Demo 子集,共 18 张图片,覆盖 6 类典型场景:中文电子书(4 张)、学术论文(2 张)、教材(4 张)、报纸(2 张)、手写笔记(2 张)、PPT/研报(4 张)。

测试流程

  1. 将 18 张图片逐一通过 Cloud API 发给两个模型,收集 Markdown 格式的识别结果

  2. 使用 OmniDocBench 官方评测脚本(pdf_validation.py),将模型输出与人工标注 Ground Truth 逐块对比

  3. 计算各项指标并生成对比报告

为了大家方便自己测试,我直接将我的测试脚本开源给大家使用。

记得 Star⭐️啊,兄弟们!

基于 OmniDocBench 的 OCR 模型基准测试框架,对比评测 GLM-OCR 和 PaddleOCR-VL-1.5 两款 0.9B 参数多模态模型在真实文档场景下的识别能力。

覆盖文本识别、表格解析、公式识别、版面检测、阅读顺序等多维度评测,支持一键运行推理、评测和报告生成。

项目地址:

https://github.com/andyhuo520/ocr_benchmark

测试环境

  • 硬件:Apple M1 Pro 32GB

  • 网络:Cloud API 调用

  • 评测工具:OmniDocBench v1.5 官方脚本

  • 测试时间:2026 年 4 月 1 日

💡 所有测试图片和输出结果均来自真实测试,数据可复现验证。

评估指标说明

指标
通俗含义
方向
文本编辑距离
把 OCR 输出“改成”标准答案需要多少次增删改,除以总字数
越低越好(0 = 完美)
公式编辑距离
同上,专门针对数学公式(LaTeX 格式)
越低越好
表格 TEDS
把表格看作树形结构,计算识别结果与标准答案的相似度
越高越好(1.0 = 完美)
阅读顺序 ED
识别出的段落排列顺序与正确阅读顺序的差距
越低越好

综合分公式:综合分 = ((1−文本 ED) + (1−公式 ED) + 表格 TEDS + (1−阅读顺序 ED)) ÷ 4 × 100,满分 100。

总成绩:PaddleOCR 领先近 4 分

直接上结果:

分项(正向分)
GLM-OCR
PaddleOCR-VL-1.5
胜者
文本识别
86.44
87.96
PaddleOCR
公式识别
47.03
59.45
PaddleOCR
表格结构
93.80
96.89
PaddleOCR
阅读顺序
89.93
88.83
GLM-OCR
综合分
79.30
83.28
PaddleOCR

PaddleOCR 在文本、公式、表格三个维度全面领先,GLM-OCR 只在阅读顺序上小幅胜出(差距不到 1.1 分)。

两个模型的公式识别都是短板,错误率超过 40%。这个方向,整个行业还有很长的路要走。

但总分只是一个数字,真正有价值的是逐个场景看细节。下面我把每一类文档的测试图片和两个模型的实际 OCR 输出都展示出来,大家自己判断。


📚 场景一:中文电子书

测试样本:双栏混合排版 · 学术讨论类正文胜者:GLM-OCR(ED 0.0958 vs 0.2195)

指标
GLM-OCR
PaddleOCR
胜者
文本 ED ↓
0.0958
0.2195
GLM 胜

GLM-OCR 输出(耗时 7.2s)

与通常一般意义上理解的文学创作或文学作品的“文学”字面一样,所以,弄得“比较文学”成为一个“有缺陷的词”。$^{1}$ 因此,为了减少像比较文学那样的歧义,我们在学科的命名上使用“美术学”,而不使用“美术”这个名称来框定这个跨越中西双方的美术研究的工作,是为了使“中西比较美术学”中的“美术学”不让人往“美术作品”或“美术创作”方面认识。不仅如此,仅从名称上看,“美术学”是一个学科名称(1990 年国务院学位委员会专业目录调整会议决定,将“美术历史与理论”专业正式改名为“美术学”,成为一级艺术学下属的二级学科),与“美术”(Fine Art)这个词是有区别的。

PaddleOCR-VL-1.5 输出(耗时 17.9s)

与通常一般意义上理解的文学创作或文学作品的“文学”字面一样,所以,弄得“比较文学”成为一个“有缺陷的词”。$^{1}$ 因此,为了减少像比较文学那样的歧义,我们在学科的命名上使用“美术学”,而不使用“美术”这个名称来框定这个跨越中西双方的美术研究的工作,是为了使“中西比较美术学”中的“美术学”不让人往“美术作品”或“美术创作”方面认识。不仅如此,仅从名称上看,“美术学”是一个学科名称(1990 年国务院学位委员会专业目录调整会议决定,将“美术历史与理论”专业正式改名为“美术学”,成为一级艺术学下属的二级学科),与“美术”(Fine Art)这个词是有区别的。

这一页两个模型输出几乎一模一样,标点、注释编号、专业术语都没问题。GLM 的编辑距离更低,可能得益于其强化学习训练策略对长文本连贯性的优化。

中文书籍场景,GLM-OCR 明显更强。


📄 场景二:学术论文(公式密集)

测试样本:英文 SciHub 论文 · LaTeX 公式 · 化学数据表胜者:GLM-OCR(ED 0.0125 vs 0.0194,但耗时差距巨大)

指标
GLM-OCR
PaddleOCR
胜者
文本 ED ↓
0.0125
0.0194
GLM 胜

GLM-OCR 输出(耗时 87.2s)

Removal of sulfur and lipids

The sulfur present in sewage sludges has to be removed before the GC-EI-MS and GC-EI-MS-MS determination to avoid any interference. Copper bars (0.5 cm) were activated with 30% HCl for 30 s and then cleaned with acetone, n-hexane and the dried bars was added to the extract. Bio-Beads were used to remove the co-extracted lipids…

PaddleOCR-VL-1.5 输出耗时 23.4s

Removal of sulfur and lipids

The sulfur present in sewage sludges has to be removed before the GC–EI-MS and GC–EI-MS–MS determination to avoid any interference. Copper bars (0.5 cm) were activated with 30% HCl for 30 s and then cleaned with acetone, n-hexane and the dried bars was added to the extract. Bio-Beads were used to remove the co-extracted lipids…

分析:两个模型对标准英文学术排版都能轻松应对,输出几乎一致。但耗时差距巨大:GLM 花了 87.2 秒,PaddleOCR 只用了 23.4 秒。公式密集页面让 GLM 的识别阶段承受了很大的计算压力。结论:文本质量两者不相上下,但 GLM 在公式密集页面的耗时不可预期。

📖 场景三:教材(中英文)

数学练习册 · 分数符号 · 多选项排布 · 图文混排

测试样本:英文数学练习册 · GLM 文本 ED 0.0957 vs Paddle 0.1353

指标
GLM-OCR
PaddleOCR
胜者
文本 ED ↓
0.0957
0.1353
GLM 胜

GLM-OCR 输出耗时 2.1s

再看一张中文彩色教材:

测试样本:小学语文练习卷(含拼音和手写生字)

题目和分数选项两个模型都识别对了。有个小区别:GLM 按原文横向排列(A-C-B-D),PaddleOCR 自动重排成了顺序(A-B-C-D)。中文教材那张,GLM 把“咩咩”看成了“哗哗”,拼音声调也有点问题;PaddleOCR 在生字上也有偏差,但拼音整体更准

教材场景 GLM 稍微领先一点,不过两个都够用。

📰 场景四:报纸(复杂多栏)

三至四栏混合 · 小字体 · 高密度文本 · 差距最大的场景

测试样本:中文传统报纸 · GLM 文本 ED 0.5246 vs Paddle 0.0658(差距 8 倍)

指标
GLM-OCR
PaddleOCR
胜者
文本 ED ↓
0.5246
0.0658
Paddle 胜

GLM-OCR 输出耗时 100.8s

本报记者 蔡茂楷

在中央财政支款下,融资安全受较大影响,可用“财政、金融等各类资金支持”。中央财政支持的资金,95% 将选在 30% 的 3M 办公软件上,资金供应量占全省 30% 的 9 单办公软件,出出国资金

改生态,要宜居好环境。在其“大院”门厅的东端,早在 1990 年,有数百名白鹭自南向北飞来于门廊山坡上山林。

记者采集本地大型鸟类各产区区鸟类,在城镇核心区的大型鸟类采集数据,每隔 300 米就收集了一台 TFC 型太阳能出虫器

自理设备应用在安保实验以来,多次通过建立击虫监测点,配备 TEC 太阳型灭虫虫,击虫灯,双眼灭虫灯,生物显微镜,机示显微镜等设备提升茶叶质量。

PaddleOCR-VL-1.5 输出耗时 15.3s

在中央财政支持下,福建突出无性系良种大面积推广应用,现在,全省拥有国家级茶树良种 19 个,省级良种 21 个,无性系良种推广面积达 95%,远高于全国 35% 的平均水平,居全国领先地位。

☑本报记者蔡茂楷

福建具有“茶之乡”“茶之祖”等诸多美誉。2008 年以来,为推进现代茶产业,围绕“五促进,两带动”的目标,中央财政连续三年注入资金,总额达 2.29 亿元,整合省相关部门资金 4.33 亿元投入茶产业。

记者来到全国最大乌龙茶主产区安溪县,在城区茶叶公园的生态茶园里,记者看到,每隔 500 米就安装了一台 TFC 型太阳能灭虫器。工作人员李旭云介绍说,灭虫器收集取之不尽的太阳能作为能源,针对害虫生活习惯,诱杀害虫。

红色标注的是 GLM-OCR 的“幻觉”输出。原文说的是“福建茶产业”,GLM 输出了“3M 办公软件”“出出国资金”;原文说“乌龙茶主产区安溪县”,GLM 读成了“大型鸟类各产区区鸟类”;“太阳能灭虫器”变成了“太阳能出虫器”。这些词在原文中根本不存在。

再看第二张报纸(英文联邦公报):

测试样本:英文联邦公报(多栏法律文书)

两个模型使用同一个布局分析模型(PP-DocLayout-V3),但 GLM 在多栏复杂版面上表现不稳定,问题出在识别阶段:GLM-V 在处理复杂切分区域时容易产生幻觉内容。PaddleOCR 的 VLM 识别模型更稳健,就算某一块出问题,也不会把整页带偏。

报纸场景是 GLM 的重灾区。如果你的业务会碰到多栏复杂版面,这个风险得考虑清楚。

✍️ 场景五:手写笔记

印刷+手写混合 · 含表格 · GLM 出现严重乱码

测试样本:中文课堂手写笔记 · GLM 文本 ED 0.1885 vs Paddle 0.0359(差距 5 倍)

指标
GLM-OCR
PaddleOCR
胜者
文本 ED ↓
0.1885
0.0359
Paddle 胜

GLM-OCR 输出耗时 2.7s

(4) 天气预报的内容:

① 卫星云图:蓝色表示海洋,绿色表示陆地,白色表示云区

② 斑币天报搬胀、配币一日内削膈、PL 晶光挂水晕常烦痛。另外还护莎尘雾空晕雾、痰水、太象雾所报报。

PaddleOCR-VL-1.5 输出耗时 14.8s

(4) 天气预报的内容:

① 卫星云图:蓝色表示海洋,绿色表示陆地,白色表示云区

② 城市天气预报:说明一日内阴晴、风、气温和降水等常规情况,另外还有沙尘暴、空气质量、海浪、冰雹、大雾等特殊预报。

前半部分两者都正确。但到了第②条手写内容,GLM-OCR 彻底崩溃:“城市天气预报”变成了“斑币天报搬胀”,“降水”变成了“痰水”,“大雾”变成了“空晕雾”。

再看第二张手写笔记(英语语法笔记):

测试样本:英语语法手写笔记(以印刷体为主)

GLM-OCR 输出耗时 2.0s

Which hotel have you booked for your holiday?

(为了度假你预订了哪家族馆?)

(4) 疑问代词不分单复数,视它所替代的人或事物决定单复数,但是通常用单数;如果修饰名词,则以名词的单复数力填。

each other, one another 是相互代词,译为“互相”。可以通用。each other 表示两者之间,而 one another 表示许多人之间,它们有绚丽格形式。

PaddleOCR-VL-1.5 输出耗时 10.9s

—Which hotel have you booked for your holiday?

(为了度假你预订了哪家旅馆?)

(4)疑问代词不分单复数,视它所替代的人或事物决定单复数,但是通常用单数;如果修饰名词,则以名词的单复数为准。

each other, one another 是相互代词,译为“互相”,可以通用。each other 表示两者之间,而 one another 表示许多人之间。它们所有格形式:each other‘s, one another’s.

就算是印刷体为主的笔记,GLM 也翻车了好几处:“哪家旅馆”→“哪家族馆”,“为准”→“力填”,“所有格”→“绚丽格”。PaddleOCR 这些全对。

手写笔记场景,PaddleOCR 稳定性强太多了。

📊 场景六:PPT / 研报

语文教学 PPT · 金融研报 · 图文并茂 · 含表格数据

测试样本:语文教学 PPT(诗词赏析)

指标
GLM-OCR
PaddleOCR
胜者
文本 ED ↓
0.1417
0.1575
GLM 胜

GLM-OCR 输出耗时 35.1s

“游人”指那些忘了国难,苟且偷安,寻欢作乐的南宋统治阶级。诗人面对这不停的歌舞,看着这些“游人们”陶醉其中,不由得表现出自己的感慨之情。其中,“暖风”一语双关,在诗歌中,既指自然界的春风,又指社会上淫靡之风。在诗人看在,正是这股“暖风”把“游人”的头脑吹得如醉如迷,忘记了自己的国家正处于危难之中。

PaddleOCR-VL-1.5 输出耗时 9.9s

“游人”指那些忘了国难,苟且偷安,寻欢作乐的南宋统治阶级。诗人面对这不停的歌舞,看着这些“游人们”陶醉其中,不由得表现出自己的感慨之情。其中,“暖风”一语双关,在诗歌中,既指自然界的春风,又指社会上淫靡之风。在诗人看在,正是这股“暖风”把“游人”的头脑吹得如醉如迷,忘记了自己的国家正处于危难之中。

再看一张金融研报:

测试样本:常熟银行投资研报(含财务数据表格)

两个模型都正确识别了股票代码(601128. SH)、股价(7.15 元)、表格中的财务数据(总市值 196 亿元、资产负债率 92.1%)等。GLM 的输出保留了 bbox 坐标信息,PaddleOCR 的表格 HTML 结构更完整。

结论:PPT 和研报场景,两者表现接近,GLM 略胜。排版相对简单时,两个模型都很稳。


阅读顺序:共享 PP-DocLayout-V3 却结果不同?

两个模型都使用 PP-DocLayout-V3 做版面分析,按理说阅读顺序应该完全一致。实测发现并非如此:

数据来源
GLM 阅读顺序 ED
Paddle 阅读顺序 ED
胜者
书籍
0
0.5667
GLM
教材
0
0.0370
GLM
笔记
0 0
平局
PPT
0 0
平局
学术论文
0.2391
0.1101
Paddle
报纸
0.2297
0.1692
Paddle
研报
0.1111
0.2222
GLM
杂志
0.3333
0.5000
GLM

原因分析:虽然两者共用 PP-DocLayout-V3 做版面检测,但从 API 端输出 Markdown 时,区块的拼接顺序受到各自后处理逻辑的影响。PaddleOCR API 严格按 block_order 拼接(有时表格/副文被提前),而 GLM-OCR 的 Pipeline 在拼接时做了额外的顺序调整,某些场景下更贴近人类阅读习惯。


⏱️ API 响应耗时:平均值骗人

两个模型的平均 API 响应耗时几乎相同:GLM-OCR 17.1 秒,PaddleOCR 17.2 秒。但这个平均值掩盖了本质差异。

图片类型
GLM-OCR 耗时
PaddleOCR 耗时
电子书页面
2.7 ~ 7.2s
11.3 ~ 17.9s
学术论文(公式密集)
87.2s
23.4s
教材
2.1 ~ 3.2s
10.3 ~ 12.0s
报纸(复杂多栏)
100.8s
15.3s
报纸(第二张)
26.2s
10.5s
手写笔记
2.0 ~ 2.7s
10.9 ~ 14.8s
PPT / 研报
3.7 ~ 35.1s
9.9 ~ 61.2s

GLM 的耗时像坐过山车:简单页面 2-3 秒飞快,但遇到报纸直接飙到 100.8 秒,公式密集的论文也要 87.2 秒。去掉这两个极端值,GLM 平均只要 7.4 秒左右。

PaddleOCR 的耗时就稳多了,大部分在 10-30 秒之间,唯一的例外是一张 PPT 用了 61.2 秒。

这就是两种架构的性格差异。GLM 处理简单页面快得飞起,但复杂版面就说不准了。PaddleOCR 速度不是最快的,但基本不会慢到离谱。对企业应用来说,稳定性往往比峰值速度更重要。

一个有趣的统计学现象

看完分场景数据,你可能注意到一个矛盾:按文档来源细分,GLM-OCR 在 9 个类别中赢了 6 个,PaddleOCR 只赢了 3 个。但综合分反而是 PaddleOCR 领先。

这是统计学中经典的辛普森悖论

辛普森悖论(Simpson‘s Paradox):一个趋势出现在几组不同的数据中,但当数据合并时,趋势反转了。就像一支篮球队在大多数节次得分领先,但因为某一节被对手暴打,总分反而落后。

原因很简单:GLM 赢的那些类别,赢得很小(书籍 ED 差距 0.12);但 GLM 输的两个类别,输得很大(报纸 ED 差距 0.46,手写笔记差距 0.15)。巨大的落差吞噬了所有优势。

这也提醒我们:选模型不能只看“赢了几个场景”,还得看“输的时候输得有多惨”。

场景选型建议

说了这么多数据,最实际的问题是:我的场景该选哪个?

应用场景
推荐
理由(实测依据)
合同 / 法律文书
PaddleOCR
文本 ED 更低(0.120 vs 0.136),中文语料积累更深
财报 / 金融研报
PaddleOCR
表格 TEDS 0.969 vs 0.938,结构还原更精确
学术论文 / 科研文献
PaddleOCR
公式 ED 0.406 vs 0.530,低 23%;耗时更稳定
中文书籍 / 教材
GLM-OCR
书籍 ED 0.096 vs 0.219,GLM 明显更优;有 bbox 坐标输出
多栏报纸 / 杂志
PaddleOCR
报纸 ED 0.066 vs 0.525,GLM 会严重幻觉
手写笔记 / 表单
PaddleOCR
手写 ED 0.036 vs 0.189,GLM 出现严重乱码
高并发 / 实时处理
PaddleOCR
耗时更可预测,不会出现 100s 级别异常
信创 / 国产 GPU
PaddleOCR
百度飞桨原生支持昆仑、昇腾
版面坐标精确还原
GLM-OCR
独有 bbox 坐标输出,适合精确排版还原
已接入智谱生态
GLM-OCR
与 GLM-4、CogView 统一 API,减少供应商管理

总体建议:如果你不确定选哪个,默认选 PaddleOCR-VL-1.5。它在文本、公式、表格、耗时稳定性上综合更优,开源生态成熟(73k+ Star),国内生产环境验证也多。

GLM-OCR 适合两个明确场景:一是中文书籍/教材的高精度识别(特别是需要版面坐标还原的时候),二是团队已经在用智谱 AI 生态的。

最后说几句

写这篇文章的初衷很简单,就是想给大家一个客观的参考。两个模型都是 0.9B 参数量,都有免费 Cloud API,都在快速迭代。今天的测试结论,可能几个月后就会因为模型更新而变。

但有一点值得记住:短板决定下限。

GLM 在报纸上输出“3M 办公软件”“太阳能出虫器”那一刻,不只是一个 OCR 错误。它意味着如果你的文档流水线里混进了一张复杂排版的扫描件,整条流水线的结果都不可信了。

PaddleOCR 的 Pipeline 架构虽然不是每个场景都最优,但它有种“优雅的降级”能力:某个区域识别不好,不会把整页带崩。

这次测试用的只是 OmniDocBench 的 18 页 Demo 子集。有时间的话,我后面会跑完整版 1355 页的测试,到时候再跟大家分享。

有问题欢迎留言讨论。


项目地址:

https://github.com/andyhuo520/ocr_benchmark

交流:358848136