dots.mocr文档解析能力超越现有开源模型
dots.mocr文档解析能力超越现有开源模型
💻 HyperAI 官网(hyper.ai)的教程版块已上线「dots.mocr 多模态文档解析教程」,在线体验多模态文档解析新范式。
在线运行链接:
* https://go.hyper.ai/tx8FW
近日,华中科技大学联合小红书 hi lab 共同提出了 Multimodal OCR(MOCR)这一文档解析范式,并开源 dots.mocr,该模型能够将图表、示意图、表格、图标等视觉元素视为一等解析对象,使系统在解析文档时能够保留各类元素之间的语义关系。
dots.mocr 具备以下优势:
1️⃣ 将文本和图形共同重建为结构化输出,从而实现更高保真度的文档还原
2️⃣ 支持对异构文档元素进行端到端训练,使模型可以利用文本与视觉组件之间的语义关联
3️⃣ 将以往被丢弃的图形信息转化为可复用的代码级监督信号,从而激活文档中蕴含的多模态监督信息
👑 在性能方面:
1️⃣ 在文档解析基准测试中,其在 OCR Arena Elo 排行榜上仅次于 Gemini 3 Pro,超越了现有开源文档解析系统
2️⃣ 在 olmOCR Bench 上取得了 83.9 的最新 SOTA 成绩
3️⃣ 在结构化图形解析任务中,该模型在图像到 SVG 的基准测试中,其重建质量优于 Gemini 3 Pro,在图表、UI 布局、科学插图以及化学结构图等场景中表现出色
#科技爱好者必看 #人工智能应用实例 #OCR技术新突破 #开源AI
其它金额
赞赏金额
¥
最低赞赏 ¥0
1
2
3
4
5
6
7
8
9
0
.
北京,22分钟前,
夜雨聆风