dots.mocr文档解析能力超越现有开源模型-夜雨聆风

dots.mocr文档解析能力超越现有开源模型

💻 HyperAI 官网（hyper.ai）的教程版块已上线「dots.mocr 多模态文档解析教程」，在线体验多模态文档解析新范式。

在线运行链接：
* https://go.hyper.ai/tx8FW

近日，华中科技大学联合小红书 hi lab 共同提出了 Multimodal OCR（MOCR）这一文档解析范式，并开源 dots.mocr，该模型能够将图表、示意图、表格、图标等视觉元素视为一等解析对象，使系统在解析文档时能够保留各类元素之间的语义关系。

dots.mocr 具备以下优势：

1️⃣ 将文本和图形共同重建为结构化输出，从而实现更高保真度的文档还原
2️⃣ 支持对异构文档元素进行端到端训练，使模型可以利用文本与视觉组件之间的语义关联
3️⃣ 将以往被丢弃的图形信息转化为可复用的代码级监督信号，从而激活文档中蕴含的多模态监督信息

👑 在性能方面：

1️⃣ 在文档解析基准测试中，其在 OCR Arena Elo 排行榜上仅次于 Gemini 3 Pro，超越了现有开源文档解析系统
2️⃣ 在 olmOCR Bench 上取得了 83.9 的最新 SOTA 成绩
3️⃣ 在结构化图形解析任务中，该模型在图像到 SVG 的基准测试中，其重建质量优于 Gemini 3 Pro，在图表、UI 布局、科学插图以及化学结构图等场景中表现出色

#科技爱好者必看 #人工智能应用实例 #OCR技术新突破 #开源AI

名称已清空

微信扫一扫赞赏作者

喜欢作者其它金额

赞赏后展示我的头像

作品

暂无作品

喜欢作者

其它金额

最低赞赏 ¥0

其它金额

赞赏金额

最低赞赏 ¥0

北京,22分钟前,