乐于分享
好东西不私藏

Multimodal OCR:文档理解的「全能选手」

Multimodal OCR:文档理解的「全能选手」

研究背景

你有没有遇到过这样的场景:拿到一份 PDF,里面有大段文字、复杂的表格、精心绘制的图表,还夹杂着化学分子式和数学公式。你想提取里面的信息,结果传统 OCR 只认字,图表直接被裁成一张图片丢在一边——这些信息就这样丢了。

今天介绍的这篇工作,想要做的事情很简单,也很大胆:把文档里的「一切」都解析出来。文字要认,表格要认,图表要变成可编辑的 SVG 代码,公式要变成 LaTeX,流程图也不放过。这就是 Multimodal OCR(MOCR)

▲ Figure 1:MOCR 整体流程。给定一张文档图片,MOCR 将页面上所有元素统一解析为结构化文本表示,实现原始文档的忠实重建。

上面这张图很直观地展示了 MOCR 的核心理念。左边是一个包含文字、表格和图表的原始文档,中间是模型的解析输出——文字变成纯文本、表格变成 HTML 标记、图表变成 SVG 代码、公式变成 LaTeX——右边则是根据这些结构化输出重建出来的文档。对比左右,几乎完美还原。


1. 传统 OCR 到底丢了什么?

我们日常接触的文档,信息量远不止文字。一张精心制作的柱状图,可能浓缩了一整页报告的核心结论;一个化学结构式,承载着关键的分子信息。但在传统 OCR 流程里,这些非文字区域的命运只有一个——被框出来,裁成一张图片,然后丢掉。

▲ Figure 3:传统 OCR vs MOCR 范式对比。传统 OCR 把图形当像素处理并丢弃;MOCR 将图形解析为结构化代码(如 SVG),实现忠实重建和更广泛的下游应用。

MOCR 的核心洞察:文档中最有价值的信息,往往是视觉的而非文字的。但长期以来,这些视觉元素一直被 OCR 管线当作「二等公民」丢弃。MOCR 把它们升级为一等解析目标,统一转化为可复用的结构化输出。


2. 技术方法

MOCR 的实现系统叫 dots.mocr,由华中科技大学和小红书 hi lab 联合开发,是一个仅 3B 参数的紧凑模型,却覆盖了从文档解析到图形重建的完整能力。

2.1 模型架构

整体架构遵循经典的视觉-语言模型范式,但每个组件都针对文档场景做了深度优化:

组件
参数
说明
视觉编码器
1.2B
从零训练的高分辨率编码器,支持约1100万像素原生输入,不做降采样
语言解码器
1.5B
Qwen2.5-1.5B,从base模型初始化,为学习SVG等强结构化输出留出空间

2.2 三阶段渐进式预训练

训练策略是纯数据驱动的,通过精心设计的课程逐步降低学习难度:

  • 阶段一:建立视觉-语言接口。通用视觉训练,让语言模型学会「看图说话」
  • 阶段二:广泛预训练。混合通用视觉数据和文档解析监督信号,打下坚实基础
  • 阶段三:MOCR 专项强化。重点强化图形转 SVG 能力,逐步提升输入分辨率

预训练之后还有一轮高质量的指令微调(SFT),团队发布了两个版本:

  • dots.mocr:均衡能力
  • dots.mocr-svg:SVG 解析增强版

2.3 数据引擎

训练数据从四个互补渠道构建:

  • PDF 文档 → 文本解析监督
  • 网页渲染 → 复杂布局和天然 SVG 图标/图表
  • 原生 SVG 资产 → 图像-代码配对数据
  • 通用视觉数据 → 保持模型广泛能力

3. 实验结果

团队从两个维度进行了系统评估:文档解析结构化图形解析

▲ Figure 2:整体性能对比。(a) 图形解析任务指标;(b) 文档解析任务指标(olmOCR-Bench、OmniDocBench 1.5、XDocParse)。

3.1 文档解析:开源最强,直逼 Gemini 3 Pro

团队采用了基于 Elo 评分的自动化评估框架 OCR Arena——让 Gemini 3 Flash 做「裁判」,对模型输出进行两两对比打分。

模型
olmOCR
OmniDoc
XDocParse
平均 Elo
Gemini 3 Pro
1180
1128
1324
1211
dots.mocr 1104 1059 1211 1125
dots.ocr
1041
1027
1190
1086
HunyuanOCR
998
1004
951
984
PaddleOCR-VL-1.5
897
998
866
921
GLM-OCR
884
973
821
893
MonkeyOCR-pro-3B
895
811
637
781

在 olmOCR-Bench 上的逐类别评测:

模型
ArXiv
扫描数学
表格
多栏
长小字
总分
dots.mocr 85.9 90.7 48.2 81.6 99.7 83.9
Infinity-Parser 7B
84.4
85.0
47.9
86.4
99.8
82.5
olmOCR v0.4.0
83.0
84.9
47.7
81.9
99.7
82.4
PaddleOCR-VL
85.7
84.1
37.8
85.7
98.5
80.0
dots.ocr
82.1
88.3
40.9
81.2
99.5
79.1
MonkeyOCR-pro-3B
83.8
74.6
36.1
80.1
95.3
75.8
MinerU 2.5.4
76.6
84.9
33.7
83.5
93.7
75.2
DeepSeek-OCR
77.2
80.2
33.3
79.4
99.8
75.7

3.2 图形解析:反超 Gemini 3 Pro

如果说文档解析是 MOCR 的「基本功」,那图形到 SVG 的重建就是它真正亮眼的地方:

模型
UniSVG
ChartMimic
Design2Code
SciGen
ChemDraw
dots.mocr-svg 0.902 0.905 0.834 0.797 0.901
OCRVerse
0.763
0.799
0.881
Gemini 3 Pro
0.735
0.788
0.760
0.783
0.839
dots.mocr
0.894
0.772
0.801
0.660
0.790

一个 3B 参数的小模型,在自己擅长的方向上比顶级闭源模型还强!

▲ Figure 7:dots.mocr-svg 对各类统计图表的 SVG 重建效果。柱状图、折线图、散点图、复合图表等均可忠实还原为可编辑的向量图形。

▲ Figure 8:dots.mocr-svg 对跨学科复杂插图的 SVG 重建。覆盖化学分子结构、物理示意图、数学图形、信息设计等多个领域。


4. 总结与展望

MOCR 不只是在刷榜——它提出了一个更深层的问题:我们从文档里提取的信息,一直以来都远远不够。

在大模型时代,文档解析是预训练和检索增强生成(RAG)的核心数据引擎。但现有管线都是「文本中心」的,图表里蕴含的丰富结构化信息被大面积浪费。MOCR 把这些「丢弃的金矿」捡了回来——每一张解析为 SVG 的图表,都可以成为(图像, 代码, 文本)三元组的训练数据。

而且,MOCR 的范式并不局限于 SVG。未来可以扩展到 TikZ(科学图形)、D3.js(交互式可视化)、CAD(工程图)、SMILES(化学结构)等各种程序化表示。


一句话总结

dots.mocr 是一个 3B 参数的「全能选手」——文档解析排开源第一(仅次于 Gemini 3 Pro),图形重建反超 Gemini 3 Pro,同时在通用视觉问答上保持了不俗的竞争力。更重要的是,它定义了一个新的范式:文档解析不应该只关注文字,而应该理解页面上的一切视觉语言


资源
链接
论文
https://arxiv.org/abs/2603.13032[1]
代码
https://github.com/rednote-hilab/dots.mocr[2]
研究团队
华中科技大学 × 小红书 hi lab

引用链接

[1]https://arxiv.org/abs/2603.13032

[2]https://github.com/rednote-hilab/dots.mocr

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » Multimodal OCR:文档理解的「全能选手」

猜你喜欢

  • 暂无文章