
CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第五十二期于2026年4月21日成功举行。
本沙龙由中国图象图形学学会主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。本场活动邀请华中科技大学直博生郑汉东分享最新成果:Multimodal OCR: 解析文档中的一切内容;邀请南开大学硕士生刘亿超分享最新成果:DRS-GUI: 基于动态区域搜索的GUI指令定位方法。微沙龙活动在B站、蔻享学术、中国图像图形学报视频号进行了同步直播。三个平台共计约2900人次的相关领域的老师同学观看学习。
1
第一场报告活动由华中科技大学李长博士担任主持人。

报告人为华中科技大学博士生郑汉东。

报告以“Multimodal OCR:解析文档中的一切内容”为题,围绕文档智能解析技术展开。报告首先介绍了文档解析在办公自动化、信息检索和预训练数据获取等场景中的价值,指出传统 OCR 主要关注文本识别,面对图表、公式和示意图等复杂视觉元素时,往往只能保存为像素,难以理解和复用其中的结构化信息。随后,报告梳理了 Pipeline 与端到端两类方法:前者容易产生级联误差,后者在高分辨率、密集文字和长输出场景下仍面临成本高、稳定性不足等挑战。针对这些问题,报告重点介绍了 MOCR 范式及 dots.mocr 系统。该系统将文本、表格、公式与图形转化为 Markdown、HTML、LaTeX、SVG 等结构化代码,实现从页面到代码的统一解析。实验结果表明,dots.mocr 在 OCR Arena 上表现优异,在多语言文档解析 MDPBench 上取得数字文档解析 SOTA 与拍照文档解析开源 SOTA,并在 olmOCR-Bench 和 image-to-SVG 任务中展现出较强能力。报告最后指出,MOCR 拓展了传统 OCR 的边界,为文档智能从“文本中心”走向“多模态结构理解”提供了新的技术路径。
参考论文
[1]. Zheng H, Li Y, Zhang K, et al. Multimodal OCR: Parse Anything from Documents[J/OL]. arXiv:2603.13032, 2026.
[2]. Li Z, Lin Z, Liu Q, et al. MDPBench: A Benchmark for Multilingual Document Parsing in Real-World Scenarios[J/OL]. arXiv:2603.28130, 2026.
[3]. Poznanski J, Rangapur A, Borchardt J, et al. olmOCR: Unlocking Trillions of Tokens in PDFs with Vision Language Models[J/OL]. arXiv:2502.18443, 2025.
2
第二场报告活动由中国科学院信息工程研究所的申化文博士担任主持人。

报告人为南开大学的硕士生刘亿超。

报告以“DRS-GUI: 基于动态区域搜索的GUI指令定位方法”为题,深入探讨了多模态大模型时代下的GUI指令精准定位技术。报告首先强调了该技术的应用价值与研究意义:无论是高分辨率、元素密集的专业软件界面,还是日常通用界面,准确定位与用户指令相关的目标元素,直接决定了GUI Agent的指令理解与操作能力。报告进而指出了当前GUI指令定位领域的核心挑战,即如何在不依赖额外训练的前提下,从信息杂乱的界面中高效筛选出任务相关区域。为应对这些难题,DRS-GUI项目从两方面入手:一是借鉴人类“动态调整注意范围、逐步缩小目标区域”的感知机制,引入了轻量级UI元素感知器,通过聚焦、转移和发散三种类人视野动作实现渐进式搜索;二是设计了基于蒙特卡洛树搜索的动作规划器,结合区域质量奖励机制,动态调度感知动作并自动评估区域相关性,从而显著减少无关元素的干扰。得益于其即插即用的设计,DRS-GUI能够无缝集成到现有多模态大模型中,在多种高分辨率任务上稳定提升通用模型与GUI专有模型的表现。报告在结尾同样指出了当前技术的局限与未来方向。尽管当前think with image的范式提升了GUI定位的准确性,但在实时性要求较高的应用场景中效率仍有不足,未来需要探索将外部工具的感知与规划能力蒸馏到模型自身,使模型内化类人的动态搜索机制,无需额外工具调用即可实现高效、端到端的GUI指令定位。
参考论文
[1]. Yichao Liu, Huawen Shen, et al. "DRS-GUI: Dynamic Region Search for Training-Free GUI Grounding." CVPR 2026.
报告回放
B站视频链接:
https://www.bilibili.com/video/BV1k2RWB6EEW/
或扫描二维码观看:

END
加入学会:
关注我们:
夜雨聆风