乐于分享
好东西不私藏

解析文档中的一切元素!论文里的图表、公式终于能编辑了?这个开源的多模态OCR刷新SOTA

解析文档中的一切元素!论文里的图表、公式终于能编辑了?这个开源的多模态OCR刷新SOTA

传统文档解析模型的文本+图像识别

现在的OCR模型解析上面的文档已经不成问题。

但除了提取文字、布局等文档元素外,我们可能还会有一个需求:

论文里的图表,产品文档里面的UI,这些想编辑但只能截图的内容怎么办?

现有的文档解析流程仍然以文本为中心,这些承载着密集信息的视觉元素,统统被裁剪掉、丢弃掉。

这不仅是信息的损失,更是对构建文档理解预训练语料库的巨大浪费。

文本、图表、公式、示意图的解析

文档不仅通过文本传递信息,还通过图表、流程图、UI元素和科学插图等图形传递信息。

那文档解析模型是否可以超越文本提取,解析文档里的一切元素呢

一个UI界面,布局比文字更关键,我们希望可以将UI截图转换为代码,将图标转换为可渲染的向量代码。

最近小红书HiLab联合华中科技大学研究团队,开源了一个多模态OCR模型:dots.mocr。

其目标是要把文档里的一切,将文本、图表、示意图、UI元素和领域绘图等都转换为可重用、可编辑、可渲染的表示。

# 论文Multimodal OCR: Parse Anything from Documents# Arxivhttps://arxiv.org/pdf/2603.13032# 数据https://github.com/rednote-hilab/dots.mocr

一、把图变代码,让文档可解析

dots.mocr的核心思想很简单,就是把文档里的一切都视为一等解析目标。

文字?解析成文本。图表?解析成SVG。UI界面?解析成HTML。

通读完论文,我先来给大家总结下dots.mocr的优势:

优势一:性能指标,开源模型最强

在olmOCR-Bench数据集上:83.9分,超越Paddle-OCR-VL,创造新的SOTA。

在OCR竞技场Elo排行榜上:仅次于Gemini 3 Pro,位居第二,超越所有现有的开源文档解析系统。

在结构化图形解析测试上:超越Gemini 3 Pro,在图表、UI布局、科学图形和化学图表上有更好的重建质量。

优势二:完全重建,不再是有损压缩

输出的是完整的、可渲染的文档。

比如将解析后的SVG代码扔进渲染器,出来的图表和原图一模一样,颜色、形状、位置,分毫不差。

优势三:解锁海量多模态监督数据

Dots.mocr把图也变成代码,等于把现有文档都变成了多模态训练数据。

我们可以用现成的文档,构建大规模的多模态预训练语料库,而不用依赖昂贵的人工标注。

二、训练数据和模型架构是怎样的?

数据层面:从PDF文档、渲染网页和原生SVG图形三个来源构建数据引擎。
从图标库、设计稿中收集原生SVG文件,渲染成图像,就构建了海量的图像-SVG对。
而网页本身就是结构化的,把网页截图作为输入,HTML代码作为输出,这就是天然的训练数据。
模型层面:结构化语言解码器采用Qwen2.5-1.5B,视觉编码器从零训练,专门为文档解析优化。
比如针对文档里的小字、图表的精细线条、示意图的微小标注,都需要足够的分辨率才能看清。
传统视觉编码器224×224的输入,在这里根本不够用。而专门训练的能处理高达1100万像素的原生高分辨率输入,不需要切图。
文档解析已成为预训练和检索的核心数据引擎,当文档里的图形也能变成代码,OCR就不再是文字提取工具,而是文档理解引擎。
下一次,当你遇到一张不能编辑的图表时,可以试试它能否帮你把图变回代码。
另外,关注视觉大模型与多模态大模型的小伙伴们可回复‘加群’进入大模型交流群、视觉应用落地交流群!
//
近期文档解析热门文章

真实文档理解有多难?文档图像矫正新范式

开源OCRFlux工具:跨页段落及表格合并精准还原!

布局分析、文字识别与关系预测三位一体!

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 解析文档中的一切元素!论文里的图表、公式终于能编辑了?这个开源的多模态OCR刷新SOTA

猜你喜欢

  • 暂无文章