乐于分享
好东西不私藏

【49期】 CSIG文档图像分析与识别专业委员会学术微沙龙

【49期】 CSIG文档图像分析与识别专业委员会学术微沙龙

CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第四十九期于2026年3月10日成功举行。

本沙龙由中国图象图形学学会主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。

本场活动邀请北京信息科技大学青年教师吴贤杰分享最新成果:面向多维复杂度的表格推理问答方法研究;邀请清华大学硕士生王逸凡分享最新成果:Render-of-Thought:基于文本图像渲染的隐空间推理。微沙龙活动在B站、蔻享学术、中国图像图形学报视频号进行了同步直播。三个平台共计约4680人次的相关领域的老师同学观看学习。

1

第一场报告活动由中国人民公安大学的青年教师张顺老师担任主持人。

报告人为北京信息科技大学助理教授吴贤杰博士。

报告以“面向多维复杂度的表格推理问答方法研究”为题,围绕大语言模型在复杂表格理解与推理中的关键挑战,介绍了团队在表格问答方向的系列研究进展。

报告指出,表格作为典型的结构化与半结构化数据,在金融分析、政务管理、企业决策等场景中广泛存在。相较于纯文本任务,表格推理问答不仅要求模型准确理解数据内容,还需处理结构对齐、多跳推理和复杂数值计算等问题,因此具有更高的建模难度。当前大语言模型在复杂表格场景下仍面临三方面挑战:一是复杂推理任务中跨单元、跨类型信息整合能力不足;二是在大尺寸表格输入下易出现信息截断与推理幻觉;三是在复杂结构和视觉表格场景中结构感知能力仍然有限。围绕上述问题,报告从推理问题复杂度、表格尺寸复杂度和表格结构复杂度三个维度展开系统研究,并介绍了相应成果:构建覆盖18类复杂推理任务的TableBench,提出多思维链融合模型TableLLM;构建大尺寸表格评测集LSTR,提出动态上下文感知推理方法SAT;构建多模态评测集MMTableBench,系统分析视觉结构对表格推理性能的影响。

相关研究从评测基准与建模方法两个层面,揭示了当前大语言模型在表格理解、结构建模和数值推理方面的能力边界,也为复杂数据分析场景下表格智能研究提供了有力支撑。

参考论文

[1]. Xianjie Wu, et al. TableBench: A Comprehensive and Complex Benchmark for Table Question Answering. AAAI 2025.

[2]. Xianjie Wu, et al. Breaking Size Barrier: Enhancing Reasoning for Large-size Table Question Answering. DASFAA 2025.

[3]. Xianjie Wu, et al. MMTableBench: A Multi-level Multimodal Benchmark for Reasoning and Layout Complexity in TableQA. WWW 2026.

2

第二场报告活动由腾讯PCG的高级算法工程师汤洋老师担任主持人。

报告人为清华大学硕士生王逸凡。

报告以“Render-of-Thought:基于文本图像渲染的隐空间推理”为题,深入探讨了大模型时代的隐式思维链(Implicit CoT)推理技术。

报告首先强调了该技术的应用价值与研究意义:无论是为了解决传统显式思维链在复杂任务中的推理冗余,还是为了打破显式语言对模型潜在思维自由度的限制,推理过程在隐空间中的表征精度与连续性都决定了模型推理的效率与最终回答的准确性。报告进而指出了隐式推理领域的核心挑战,即如何克服视觉表征中的“空间跳跃”现象,并确保模型在不依赖明文输出的情况下实现高质量的逻辑推演。为应对这些难题,RoT项目从两方面入手:一是创新性地提出了单行动态宽度渲染技术,有效维护了视觉语义的连续性;二是通过“视觉对齐”与“隐空间推理”两阶段训练方案的精密设计,最终实现了高效、精准的隐空间推理能力。得益于其出色表现,RoT在多个权威基准测试中刷新了纪录,其在MultiArith数据集上实现的97.2%准确率显著优于现有同类方案。

报告在结尾同样指出了当前技术的局限与未来方向。尽管RoT在常规逻辑与数学任务中表现优异,但在面对固定Token预算的最优分配以及超大规模跨模态场景时仍面临挑战,需要探索更优的Token分配机制以求进一步突破。

参考论文

[1]. Wang Y, Li S, Li P, Yang X, Tang Y and Wei Z. Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning. arXiv preprint arXiv:2601.14750.

报告回放

B站视频链接

https://www.bilibili.com/video/BV1XJwYzvEeA/

扫描二维码观看:   

END

加入学会:

欢迎加入中国图象图形学学会!(附入会攻略)

关注我们: