【48期】CSIG文档图像分析与识别专业委员会学术微沙龙

CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第四十八期于2026年2月3日成功举行。
本沙龙由中国图象图形学学会主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。
本场活动邀请中国科学院自动化研究所博士生赵宏博分享最新成果:VTCBench:视觉语言模型能否通过视觉文本压缩理解长上下文?邀请新加坡南洋理工大学博士生俸朗分享最新成果:AgentOCR:用光学自压缩重塑智能体历史。微沙龙活动在B站、蔻享学术、中国图像图形学报视频号进行了同步直播。三个平台共计约5420人次的相关领域的老师同学观看学习。
1
第一场报告活动由新加坡南洋理工大学博士生杨富超主持。

报告人为新加坡南洋理工大学博士生俸朗。

报告以“AgentOCR:用光学自压缩重塑智能体历史”为题,介绍了一种面向长程智能体系统的上下文压缩方法。
报告指出,在多轮交互与强化学习训练中,历史观测与动作会不断累积为超长文本上下文,迅速推高 token 预算与内存开销,成为训练和部署的重要瓶颈。受“以图代文”压缩范式启发,AgentOCR 将累积的观测与动作轨迹渲染为图像输入,利用视觉 token 更高的信息密度,在不扩展文本窗口的前提下支持更长交互历史。针对长轨迹下重复重渲染整段历史造成的延迟,报告进一步提出分段光学缓存机制,将历史切分为可哈希片段并建立视觉缓存,命中时直接复用渲染结果,仅对新增片段增量处理,从而减少冗余计算。与此同时,AgentOCR 还引入智能体自压缩策略,使模型能够在每一步主动输出压缩倍率,并通过“压缩感知奖励”在强化学习中动态平衡任务成功率与 token 效率,实现自适应压缩。
实验结果表明,在 ALFWorld 与搜索式 QA 等基准上,AgentOCR 在平均减少 50%以上 token 消耗、峰值最高达 80% 的同时,仍保持了 95%以上的任务性能;分段光学缓存还带来了约 20 倍的渲染加速。报告最后指出,AgentOCR 为缓解长上下文带来的推理与存储压力提供了新思路,也为构建更高效、可扩展的长程智能体系统提供了新的研究方向。
参考论文
[1]. Feng L, Yang F, et al. AgentOCR: Reimagining Agent History via Optical Self-Compression[J]. arXiv preprint arXiv:2601.04786, 2026.
2
第二场报告活动由中国科学院香港创新研究院的朱飞老师担任主持人。

报告人为中国科学院自动化研究所的赵宏博同学。

报告以“VTC Bench:视觉语言模型能否通过视觉文本压缩理解长上下文?”为题,深入探讨了新兴的视觉文本压缩(Vision-Text Compression, VTC)技术及其评估基准。
报告首先介绍了VTC技术的核心背景:为了实现大语言模型(LLM)在处理超长文本时节省token开销,VTC将长文本渲染为高密度的2D图像,利用多模态模型的视觉处理能力实现2-10倍的Token压缩率。报告进而指出了该领域的关键评估缺失,即现有基准未能有效衡量模型在压缩状态下对信息的理解质量。为此,团队构建了VTC Bench基准测试,从检索、推理和记忆等维度全面评估了主流多模态模型。
实验结果表明,渲染参数(如字体大小、行距)对模型性能有显著影响,且当前模型在极高压缩比下的信息提取能力仍有较大提升空间。报告在结尾指出,未来的研究将致力于优化VTC的压缩效率与还原精度,探索更具鲁棒性的多模态长文本处理架构。
参考论文
[1]. Zhao H, Wang M, Zhu F, et al. VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?[J]. arXiv preprint arXiv:2512.15649, 2025.
[2]. Wei H, Sun Y, Li Y. Deepseek-ocr: Contexts optical compression[J]. arXiv preprint arXiv:2510.18234, 2025.
报告回放
B站视频链接:
https://www.bilibili.com/video/BV11YwYzdEet/
或扫描二维码观看:

END
加入学会:
关注我们:
夜雨聆风