
CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第五十一期于2026年4月14日成功举行。
本沙龙由中国图象图形学学会主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。本场活动邀请香港中文大学博士生董和军分享最新成果:通过扩散解码重构文档OCR为逆渲染问题;邀请华南理工大学博士生曲晨帆分享最新成果:生成式人工智能时代的伪造文本图像检测。微沙龙活动在B站、蔻享学术、中国图像图形学报视频号进行了同步直播。三个平台共计约3480人次的相关领域的老师同学观看学习。
1
第一场报告活动由上海人工智能实验室与北京大学联培博士生牛俊博担任主持人。

报告人为上海人工智能实验室与香港中文大学联培博士生董和军。

报告以“MinerU-Diffusion:将文档 OCR 重新思考为基于扩散解码的逆渲染问题”为题,深入探讨了大模型时代文档智能解析技术的新范式。传统文档 OCR 与结构化解析任务通常依赖自回归解码,将复杂文档内容序列化后逐步生成,这一方式在面对长文本、复杂版面、表格与公式等高密度信息时,容易带来推理延迟高、误差逐步累积以及对语言先验过度依赖等问题。针对这些挑战,MinerU-Diffusion 从“逆渲染”的角度重新审视文档识别任务,认为文档解析并非天然需要从左到右生成,而是可以在视觉条件约束下,通过并行扩散去噪逐步恢复结构化文本序列。报告重点介绍了 MinerU-Diffusion 的统一扩散式文档 OCR 框架,包括块级扩散解码器、面向长序列稳定训练的不确定性驱动课程学习策略,以及用于检验模型视觉识别能力与语言先验依赖程度的 Semantic Shuffle 评测基准。实验结果表明,MinerU-Diffusion 在保持高质量文档识别能力的同时,相比自回归基线实现了最高 3.2 倍的解码加速,并在鲁棒性、复杂文档理解和视觉驱动识别方面展现出明显优势。最后,报告指出,尽管 MinerU-Diffusion 为突破自回归瓶颈提供了新的技术路径,但在超长文档建模、复杂结构一致性、推理步数与精度平衡、以及真实业务场景落地等方面仍面临挑战,未来仍需要在模型架构、训练范式和评测体系上持续探索。
参考论文
[1]. Dong H, Niu J, Wang B, et al. MinerU-Diffusion: Rethinking Document OCR as Inverse Rendering via Diffusion Decoding[J]. arXiv preprint arXiv:2603.22458, 2026.
[2]. Niu J, Liu Z, Gu Z, et al. MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing[J]. arXiv preprint arXiv:2509.22186, 2025.
[3]. Arriola M, Gokaslan A K, Chiu J T, et al. Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models[C]. International Conference on Learning Representations, 2025.
[4]. Cheng S, Bian Y, Liu D, et al. SDAR: A Synergistic Diffusion-AutoRegression Paradigm for Scalable Sequence Generation[J]. arXiv preprint arXiv:2510.06303, 2025.
2
第二场报告活动由华南理工大学的何汇国博士担任主持人。

报告人为华南理工大学直博生曲晨帆。

报告以"生成式人工智能时代的伪造文本检测"为题,深入探讨了新时代中的文字图像防伪取证问题。报告首先强调了该技术的应用价值与研究意义:文字图像包含高密度敏感信息,但文字图像伪造门槛越来越低,文字图像防伪对保障社会信息安全具有举足轻重的重要意义,但因视觉痕迹缺少、伪造手法的迭代而颇具挑战性。报告指出,在当今生成式人工智能时代,copy-paste伪造与生成式伪造成为两大最主流的文字图像伪造手段。报告首先简要介绍了针对copy-paste伪造的防御方案。在数据层面上,通过选择式伪造生成方法解决了伪造文字图像数据制作成本高的问题,又通过自动标注网络手工伪造图像的方法进一步解决了仅合成数据训练对真实世界手工伪造泛化性的局限问题;在建模层面上,通过建模频域块效应网格连续性解决无视觉痕迹伪造的检测问题,又通过模态门进一步解决频域该建模鲁棒性问题。报告后着重介绍了针对生成式伪造的防御方案。在数据层面上,通过纹理抖动方法在生成器资源不足时稳定高效模拟高质量伪造,并进一步通过创新提案者方法在生成器资源充足时自动高效获取高质量伪造数据。在建模层面上,通过特征差异感知取证方法提升检测模型的跨生成器泛化性,并进一步通过痕迹外观解耦与分类定位任务协同方法进一步提升模型检测性能。所介绍的一系列方法全面且显著地提升了真实世界中对文字图像伪造的检测能力,在业界获得广泛应用,取得ICDAR2023、AFAC2023、DCIC2026及CVPR2026防伪竞赛冠军及Kaggle2026防伪竞赛金牌。尽管这些先进技术带来了巨大进步,防伪模型在大量噪声且面对未知伪造手法时的检测性能仍有进步空间,需要探索新的技术路线以求进一步突破。
参考论文
[1]. Chenfan Qu, et al., Lianwen Jin*, Towards robust tampered text detection in document image: New dataset and new solution. CVPR2023
[2]. Chenfan Qu, et al., Lianwen Jin*, Towards Modern Image Manipulation Localization: A Large-Scale Dataset and Novel Methods. CVPR2024
[3]. Chenfan Qu, et al., Lianwen Jin*, Revisiting Tampered Scene Text Detection in the Era of Generative AI. AAAI 2025
[4]. Chenfan Qu, et al., Lianwen Jin*, TextShield-R1: Reinforced Reasoning for Tampered Text Detection. AAAI 2026
[5]. Chenfan Qu, et al., Lianwen Jin*, Omni-IML: Towards Unified Interpretable Image Manipulation Localization. ICLR 2026
[6]. Chenfan Qu, et al., Lianwen Jin*, Detect Any AI-Counterfeited Text Image. CVPR 2026
报告回放
B站视频链接:
https://www.bilibili.com/video/BV1psRsByECE/
或扫描二维码观看:

END
加入学会:
关注我们:
夜雨聆风