乐于分享
好东西不私藏

2026年CSIG文档图像分析与识别专委会多语言多民族文档智能技术及应用系列论坛成功举办

2026年CSIG文档图像分析与识别专委会多语言多民族文档智能技术及应用系列论坛成功举办

2026年5月16日,2026年CSIG文档图像分析与识别专委会多语言多民族文档智能技术及应用系列论坛在河南安阳成功举办。本次论坛由中国图像图形学会(CSIG)主办、CSIG文档图像分析与识别专业委员会与安阳师范学院计算机与信息工程学院联合承办。

本次论坛以“大模型技术及古籍文档智能处理”为主题,紧扣“技术赋能与人文重构”核心议题,聚焦大模型如何突破古籍文档文本识别、语义理解、知识关联等关键技术瓶颈,汇聚全国高校、科研院所与企业的专家学者、青年学子,共同推动中华优秀传统文化在数智时代的创造性转化与创新性发展。

论坛开幕式上,主办方及承办单位相关领导、专家依次致辞。安阳师范学院副校长杜记民教授、中国图像图形学会副理事长金连文教授、CSIG文档图像分析与识别专委会主任殷绪成教授、安阳师范学院计算机与信息工程学院院长孙华教授先后发言,向与会嘉宾表示热烈欢迎。各位致辞嘉宾立足行业发展与学术研究实际,阐明多语言多民族文档智能技术在古籍保护、民族文化传承、数字人文建设领域的重要价值,并纷纷表示,希望借助本次论坛搭建的交流平台,不断深化产学研协同交流,凝聚科研合力,共同推动古籍文献智能保护与研究工作迈向新台阶。

出席论坛开幕式的嘉宾包括:安阳师范学院副校长杜记民教授,中国图像图形学会副理事长、华南理工大学金连文教授,CSIG文档图像分析与识别专委会主任、北京科技大学殷绪成教授,CSIG文档图像分析与识别专委会秘书长、北京大学高良才教授,CSIG文档图像分析与识别专委会副秘书长、南开大学周宇教授,中组部万人青拔、IET Fellow宫辰教授,北京大学冯岩松教授,华中科技大学刘禹良教授,上海人工智能实验室、中国科学院深圳先进技术研究院付彬教授,上海人工智能实验室青年科学家、上海交通大学王斌教授,曲阜师范大学熊晶教授,安阳师范学院甲骨文信息处理教育部重点实验室主任刘永革教授,安阳师范学院计算机与信息工程学院院长孙华教授,安阳师范学院李邦教授等业内知名专家学者。

本次论坛主题报告内容聚焦大模型与古籍文档处理全链条技术。主题报告环节分为上下两个阶段有序开展,前四场报告由 CSIG文档图像分析与识别专委会秘书长、北京大学高良才教授主持,后四场报告由安阳师范学院计算机与信息工程学院院长孙华教授主持。金连文、周宇、冯岩松、宫辰、刘禹良、王斌、熊晶、李邦八位专家依次登台分享最新研究成果,内容全面覆盖古籍数字化修复、文本编辑翻译、低资源语言学习、模型压缩、文档数据治理、甲骨文智能考释与 AI 赋能甲骨学等多个前沿研究方向,系统梳理行业发展趋势,全方位展现大模型赋能古籍文献研究领域的最新技术突破、创新实践与落地应用进展。

主题报告1:“AI驱动的古籍文化遗产数字化修复:从扩散模型到多模态大模型”,中国图像图形学会副理事长、华南理工大学金连文教授

报告简要介绍近年来基于AIGC和LLMs的古籍文档图像数字化修复一些研究进展,包括基于扩散模型与文字先验的修复方法、基于OCR+MLLM方法、基于统一生成理解大模型的修复技术、训练数据构建方法等,并对AGI时代的古籍数字人文研究进行讨论和展望。

主题报告2:“从局部编辑到全局翻译:可视文本编辑与翻译技术”,CSIG文档图像分析与识别专委会副秘书长、南开大学周宇教授

报告以“从局部编辑到全局翻译:可视文本编辑与翻译技术”为主线,探讨从细粒度文本操控到整图语义转换的技术发展路径。在局部文本编辑层面:TextCtrl基于扩散模型,引入字形结构与视觉风格解耦的“风格-结构”先验,通过显式建模字形结构与细粒度风格特征,有效提升文本编辑过程中的渲染准确性与视觉一致性;StyleTextGen则进一步增强了对文本风格的建模能力,提出支持外部风格参考的风格条件控制机制,使模型不仅能够复用原图风格进行编辑,还能够根据外部参考实现跨语言、跨字体的风格迁移,提升了编辑任务的可控性与泛化能力。在全局图像翻译层面:IMTBench构建了覆盖多场景与多语言的真实评测基准,并提出融合翻译质量、图像质量与跨模态一致性的多维评估体系,系统揭示了当前统一多模态模型在复杂布局与低资源语言上的性能瓶颈;MMTIT-Bench进一步从建模范式上进行拓展,引入“认知-感知-推理”(CPR)框架,将视觉理解、文本解析与翻译推理过程统一建模,从而提升模型在复杂场景下的翻译准确性与过程可解释性。

主题报告3:“大语言模型如何学习新语言?”,北京大学冯岩松教授

报告聚焦大语言模型通过在线学习完成极低资源语言翻译的机制问题。我们以现有数据资源极其匮乏的壮语为主要研究对象,探索了大语言模型是如何通过在线学习运用语法规则提高极低资源语言翻译质量的。实验表明现有大语言模型在基于在线学习的低资源语言翻译场景中,仍难以准确解读并运用语法规则;而将语法规则进行形式化表示,可以显著提高大语言模型运用语法规则的有效性。

主题报告4:“面向非理想条件的深度网络压缩”,中组部万人青拔、IET Fellow宫辰教授

报告主要探究如何在非理想条件下基于知识蒸馏实现模型压缩,并提出了跨域直接蒸馏、基于标签带噪搜集数据的无数据蒸馏等方法。相关工作发表于ICCV、ECCV、IEEE T-IP等国际权威期刊及会议。

主题报告5:“多源异构文档数据治理与应用”,华中科技大学刘禹良教授

报告围绕多源异构文档数据治理与应用展开,重点介绍非结构化文档解析技术的最新进展,并结合实际应用场景,展望多源异构文档数据治理未来向智能化演进的方向。

主题报告6:“MinerU——构筑大模型时代的文档数据基石”,上海人工智能实验室青年科学家,上海交通大学王斌教授

报告以 MinerU 系列的演进为主线,梳理文档解析领域的三次飞跃:第一跃·工程范式(MinerU v1):以自研布局检测与公式识别打通端到端解析流程,两个月 GitHub Star 破万,成为开源社区事实标准。第二跃·模型范式(MinerU 2.5):二阶段解耦式多模态架构,以 1.2B 参数率先在 OmniDocBench 突破 90 分,超越 Gemini 2.5 Pro 与 Qwen2.5-VL-72B。第三跃·数据范式(MinerU 2.5-Pro):架构不变,纯以数据工程将 OmniDocBench 推至 95.69,以小两个数量级的参数量领先 Gemini 3 Pro、GPT-5 等通用大模型。从”工程拼装”到”模型能力”再到”数据驱动”,MinerU 的每一次跨越都在拓展文档解析的能力边界。当 OpenClaw 等 AI 应用真正走进日常工作流,高质量的文档解析,正是这些上层智能体能否可靠落地的那块地基。

主题报告7:“大模型驱动的甲骨文辅助考释”,曲阜师范大学熊晶教授

报告立足甲骨文专家考释的实际情况,充分考虑甲骨文考释的动态性,从大模型微调、RAG、知识增强、神经符号推理等多策略探索计算机辅助考释的新途径。以期为甲骨文专家提供大模型驱动的、可解释的考释线索。

主题报告8:“AI赋能甲骨学——从数据基础、入口性工作到综合研究”,安阳师范学院李邦教授

报告围绕 AI 进入甲骨学研究的现实路径,梳理其从数据基础、入口性工作到综合研究的三个层次。第一层是数据基础:现有甲骨文智能研究所依赖的数据,仍较多建立在工具书整理成果之上,而工具书往往保留的是专家综合分析后的结果,尚不能完整反映真实研究过程,同时许多重要工具书和资料体系仍未充分数据化。第二层是入口性工作:检测、识别、检索、匹配、去噪与生成等任务,早期更多以算法问题的形式出现,而随着数据基础的逐步完善,其意义正日益回到服务研究者进入材料、整理材料与利用材料的实际需求之上。第三层是综合研究:校重、缀合、断代、部件分析、字形演化以及面向考释的多模态理解等任务表明,甲骨文研究本质上依赖多源材料、上下文关系与知识链条的综合分析,人工智能只有逐步参与这一过程,才能真正成为甲骨学研究的辅助力量。报告希望借此说明,AI赋能甲骨学的关键,不只是提升单项任务性能,而在于推动甲骨文研究由数字化整理进一步走向面向真实学术问题的智能化辅助。

伴随着深入研讨与热烈交流,2026年CSIG多语言多民族文档智能技术及应用系列论坛(安阳站)圆满落幕。本次论坛为大模型赋能古籍文档智能处理搭建了学术桥梁,凝聚了领域发展共识,为推动多语言多民族文档智能技术创新、助力中华优秀传统文化数字化传承与活化利用注入了新动能。

END

加入学会:

欢迎加入中国图象图形学学会!(附入会攻略)

关注我们: