解析文档中的一切元素!论文里的图表、公式终于能编辑了?这个开源的多模态OCR刷新SOTA

传统文档解析模型的文本+图像识别

现在的OCR模型解析上面的文档已经不成问题。

但除了提取文字、布局等文档元素外，我们可能还会有一个需求：

论文里的图表，产品文档里面的UI，这些想编辑但只能截图的内容怎么办？

现有的文档解析流程仍然以文本为中心，这些承载着密集信息的视觉元素，统统被裁剪掉、丢弃掉。

这不仅是信息的损失，更是对构建文档理解预训练语料库的巨大浪费。

文本、图表、公式、示意图的解析

文档不仅通过文本传递信息，还通过图表、流程图、UI元素和科学插图等图形传递信息。

那文档解析模型是否可以超越文本提取，解析文档里的一切元素呢？

一个UI界面，布局比文字更关键，我们希望可以将UI截图转换为代码，将图标转换为可渲染的向量代码。

最近小红书HiLab联合华中科技大学研究团队，开源了一个多模态OCR模型：dots.mocr。

其目标是要把文档里的一切，将文本、图表、示意图、UI元素和领域绘图等都转换为可重用、可编辑、可渲染的表示。

# 论文Multimodal OCR: Parse Anything from Documents# Arxivhttps://arxiv.org/pdf/2603.13032# 数据https://github.com/rednote-hilab/dots.mocr

一、把图变代码，让文档可解析

dots.mocr的核心思想很简单，就是把文档里的一切都视为一等解析目标。

文字？解析成文本。图表？解析成SVG。UI界面？解析成HTML。

通读完论文，我先来给大家总结下dots.mocr的优势：

优势一：性能指标，开源模型最强

在olmOCR-Bench数据集上：83.9分，超越Paddle-OCR-VL，创造新的SOTA。

在OCR竞技场Elo排行榜上：仅次于Gemini 3 Pro，位居第二，超越所有现有的开源文档解析系统。

在结构化图形解析测试上：超越Gemini 3 Pro，在图表、UI布局、科学图形和化学图表上有更好的重建质量。

优势二：完全重建，不再是有损压缩

输出的是完整的、可渲染的文档。

比如将解析后的SVG代码扔进渲染器，出来的图表和原图一模一样，颜色、形状、位置，分毫不差。

优势三：解锁海量多模态监督数据

Dots.mocr把图也变成代码，等于把现有文档都变成了多模态训练数据。

我们可以用现成的文档，构建大规模的多模态预训练语料库，而不用依赖昂贵的人工标注。

二、训练数据和模型架构是怎样的？

数据层面：从PDF文档、渲染网页和原生SVG图形三个来源构建数据引擎。

从图标库、设计稿中收集原生SVG文件，渲染成图像，就构建了海量的图像-SVG对。

而网页本身就是结构化的，把网页截图作为输入，HTML代码作为输出，这就是天然的训练数据。

模型层面：结构化语言解码器采用Qwen2.5-1.5B，视觉编码器从零训练，专门为文档解析优化。

比如针对文档里的小字、图表的精细线条、示意图的微小标注，都需要足够的分辨率才能看清。

传统视觉编码器224×224的输入，在这里根本不够用。而专门训练的能处理高达1100万像素的原生高分辨率输入，不需要切图。

文档解析已成为预训练和检索的核心数据引擎，当文档里的图形也能变成代码，OCR就不再是文字提取工具，而是文档理解引擎。

下一次，当你遇到一张不能编辑的图表时，可以试试它能否帮你把图变回代码。

另外，关注视觉大模型与多模态大模型的小伙伴们可回复‘加群’进入大模型交流群、视觉应用落地交流群！

近期文档解析热门文章

真实文档理解有多难？文档图像矫正新范式

解析文档中的一切元素!论文里的图表、公式终于能编辑了?这个开源的多模态OCR刷新SOTA

布局分析、文字识别与关系预测三位一体！