CVPR 2026 · 文档智能与OCR方向综述-夜雨聆风

CVPR 2026 · 文档智能与OCR方向综述

本文汇总 CVPR 2026 中 文档智能与OCR 方向的 22 篇论文，按推荐指数排序，一文速览该方向今年的进展与亮点。

本方向聚焦文档理解、版面分析与 OCR,把多模态能力应用到结构化文档与富文本图像。

📌 本方向速览

论文数量

：22 篇
平均推荐指数

：4.0/5
高分论文（≥4 分）

：22 篇
热门子主题

：文档理解（9）、OCR（5）、多智能体系统（4）、目标检测（2）、化学信息学（2）、场景图生成（2）、多模态学习（2）、3D几何视觉（1）、Code Generation Benchmark（1）、Paper-to-Code（1）

🔥 本方向值得优先精读：

⭐⭐⭐⭐ 3D几何计算机视觉中博士级编码能力的基准测试
⭐⭐⭐⭐ LLM 引导的概率融合用于标注高效的文档布局分析
⭐⭐⭐⭐ MCHDoc：阅读多载体中国历史文献的综合基准
⭐⭐⭐⭐ MarkushGrapher-2：化学结构的端到端多模态识别
⭐⭐⭐⭐ ORCA：基于协作智能体编排推理的文档视觉问答
⭐⭐⭐⭐ OmniDocLayout：基于由粗到精 LLM 学习的多样化文档布局生成
⭐⭐⭐⭐ PIX-TAB: 基于推测解码和区域图像分割的高效像素精确表格结构识别方法
⭐⭐⭐⭐ Paper2Figure：面向学术研究论文图表生成的多智能体协作系统

📚 论文逐篇解读

1. 3D几何计算机视觉中博士级编码能力的基准测试

Benchmarking PhD-Level Coding in 3D Geometric Computer Vision

👥 Wenyi Li, Renkai Luo, Yue Yu, Huan-ang Gao, Mingju Gao, Li Yuan

🏛️ AIR Tsinghua University, Qiuzhen College Tsinghua, BAAI, Peking University, Nanjing University, University of Toronto 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

3D几何视觉Code Generation BenchmarkPaper-to-Code长上下文科学理解

🎯 解决什么问题：当前LLM在通用软件工程上已较成熟，但仍难以为复杂3D几何视觉编写数学精确、物理可靠的代码。现有代码生成基准多为竞赛导向或整篇论文复现，缺乏针对3D几何推理、长上下文paper-to-code映射与隐藏测试鲁棒性的专门评测，因此无法衡量模型在真实3D科研编码上的进展。

🔧 怎么做的：提出GeoCodeBench，包含100道fill-in-the-function填空式代码补全题，全部取自2025年CVPR/ICCV/ICLR等顶会论文及其官方仓库（限定2025年以降低预训练泄漏）。构建流程：用MinerU OCR将论文解析为按章节组织的结构化JSON；用Cursor从仓库自动提议10-20个候选函数，再由3D视觉研究者人工筛选出3-5个核心几何/算法函数，将函数体替换为EMPTY占位符；用Cursor为每题自动生成10个覆盖默认与边界/退化配置的unit test并经专家复核，将原始实现与模型生成版在沙箱中对相同输入比对输出。评测输入含结构化论文、带掩码源码与统一执行模板，以pass rate（各题通过测试数占比的平均）打分。

✨ 核心贡献：

首个面向3D几何视觉的博士级（PhD-level）代码生成基准，强调数学精确的几何算子与物理化公式的可执行实现
提出两级能力分类法：General 3D Capability（Geometric Transformations 24%、Mechanics/Optics 31%）与Research Capability（Novel Algorithm Implementation 34%、Geometric Logic Routing 11%）
建立expert-in-the-loop构建+自动化unit test的可复现评测管线，并观察到creative correctness现象（模型用数学等价但不同的解法仍通过全部测试）
通过context ablation发现’更多论文文本未必更好’：在Method章节处截断的输入在统计上优于全文输入，揭示长上下文科学理解的未解难题

📊 效果：评测8个开源与闭源模型，最佳的GPT-5仅达36.6% pass rate，其后依次为Claude-Sonnet-4.5(31.1%)、Gemini-2.5-Pro与Kimi-K2-Instruct(均30.4%)、Doubao-Seed-1.6(26.9%)、Qwen3-Coder-480B(23.5%)、DeepSeek-R1(21.0%)、Llama-3.1-405B(14.3%)。Research类任务明显比General类更难，但两轴正相关，说明扎实的几何基础是研究级实现的必要但非充分条件。

📝 点评：选题契合实际科研痛点、构建严谨且可复现，揭示了当前LLM在3D科学编码上的明显短板与有价值的context发现，但规模偏小、领域较垂直限制了普适影响。

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Li_Benchmarking_PhD-Level_Coding_in_3D_Geometric_Computer_Vision_CVPR_2026_paper.pdf

2. LLM 引导的概率融合用于标注高效的文档布局分析

LLM-Guided Probabilistic Fusion for Label-Efficient Document Layout Analysis

👥 Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma

🏛️ Iowa State University 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

文档理解半监督学习目标检测

🎯 解决什么问题：文档布局分析依赖大规模标注数据，现有半监督方法继承教师模型的系统偏差，在稀有布局元素和细粒度区分（如 caption vs footer）上表现不佳。尽管人类通过文本语义理解文档结构，但现有检测器主要依赖视觉线索，未能充分利用文本结构先验。

🔧 怎么做的：提出将 LLM 结构先验与视觉检测器融合的半监督框架。通过 OCR 提取文本块并输入 LLM 推断文档层次结构，再与教师检测器预测通过逆方差加权（inverse-variance weighting）进行概率融合生成精炼伪标签。引入学习的实例自适应门控（instance-adaptive gating）机制替代固定权重，通过轻量 MLP 预测融合权重。添加跨模态一致性损失（cross-modal consistency）利用 CLIP 文本编码器对齐视觉查询表示和文本嵌入，采用课程学习策略逐步引入 LLM 知识。

✨ 核心贡献：

提出概率融合框架，通过逆方差加权结合视觉检测与 LLM 结构先验，并提供学习的实例自适应门控和数据依赖的 PAC 泛化界
证明 LLM 结构先验对轻量级（SwiftFormer 26M 参数达 88.2 AP）和文档预训练模型（LayoutLMv3 133M 参数达 89.7 AP）均有互补作用，仅用 5% 标注
理论分析表明跨模态融合具有低维结构（k=22 vs d=64K 参数），实现样本高效学习；验证开源 LLM 可实现隐私保护部署且性能损失极小

📊 效果：在 PubLayNet 5% 标注设定下，轻量级模型达 88.2±0.3 AP，显著优于 Dense Teacher（85.3±0.4 AP）和 STEP-DETR（84.8±0.4 AP）。LayoutLMv3 变体达 89.7±0.4 AP，超越标准半监督 LayoutLMv3（89.1±0.4 AP, p=0.02），匹配需要 100M+ 页面多模态预训练的 UDOP（89.8 AP）。学习门控比固定权重提升 +0.9 AP，开源 Llama-3-70B 在轻量级和 LayoutLMv3 设定下分别达 87.1 和 89.4 AP。

📝 点评：方法新颖且理论扎实，实验充分证明跨架构的有效性，但理论界松弛且边界案例仍有提升空间

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Shihab_LLM-Guided_Probabilistic_Fusion_for_Label-Efficient_Document_Layout_Analysis_CVPR_2026_paper.pdf

3. MCHDoc：阅读多载体中国历史文献的综合基准

MCHDoc: A Comprehensive Benchmark for Reading Multi-Carrier Chinese Historical Documents

👥 Yijun Sheng, Shipeng Zhu, Ruijia Zuo, Na Nie, Hui Xue

🏛️ 东南大学计算机科学与工程学院, 南京大学博物馆, 南京大学语言战略研究中心 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

文档分析OCR多模态

🎯 解决什么问题：阅读跨不同载体的中国历史文献对于理解中华文明演进至关重要，但仍然依赖稀缺的专家知识且耗费大量人力。现有大规模模型虽在孤立的历史集合上展现潜力，但未系统性地探测跨异构载体阅读历史文献的基础能力。现有基准多局限于单一载体、数据规模小，且忽视了文本后校正这一专家工作流程的关键环节。

🔧 怎么做的：构建MCHDoc基准，涵盖6种主要载体（古籍、简牍、书法、碑刻、帛书、甲骨）共15,724份高分辨率文档，时间跨度超3000年。模拟专家工作流程，设计4项评估任务：页面级识别、字符级识别、基于LLM内部知识的文本后校正、基于外部知识库（代之阁古籍库，17亿字符）的RAG增强后校正。采用分层分块策略构建知识库，使用AR、CR、1-NED三项指标评估超过20个代表性MLLM和LLM模型。

✨ 核心贡献：

首个大规模多载体中国历史文献阅读基准，涵盖6种载体、15,724份文档，时间跨度公元前16世纪至20世纪
系统评估了MLLMs和LLMs在识别与后校正任务上的能力，揭示了顶级模型在多载体场景下的性能波动
构建17亿字符的古籍知识库，并通过全面分析揭示了大模型适配中国历史文本的关键因素

📊 效果：页面级识别中Doubao-Seed-1.6-VL表现最佳，Qwen2.5-VL-3B (SFT)和GLM-4.5V-106B紧随其后，但所有模型在简牍载体上表现不佳。字符级识别中Qwen-VL-Max整体最优，但在简牍、帛书、甲骨上所有模型均表现较差。LLM后校正实验表明，仅依靠内部知识的后校正往往降低性能，而基于知识库的RAG增强后校正能带来一定提升，但效果仍受载体特性影响显著。

📝 点评：首个系统性多载体中国历史文献基准，数据规模大、任务设计完整，实验全面但模型性能仍有较大提升空间

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Sheng_MCHDoc_A_Comprehensive_Benchmark_for_Reading_Multi-Carrier_Chinese_Historical_Documents_CVPR_2026_paper.pdf

4. MarkushGrapher-2：化学结构的端到端多模态识别

MarkushGrapher-2: End-to-end Multimodal Recognition of Chemical Structures

👥 Tim Strohmeyer, Lucas Morin, Gerhard Ingmar Meijer, Valéry Weber, Ahmed Nassar, Peter Staar

🏛️ IBM Research, ETH Zurich 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

化学信息学文档理解光学结构识别

🎯 解决什么问题：从文档中自动提取化学结构对化学文献的大规模分析至关重要，但现有方法无法有效识别Markush结构（同时包含图像和文本描述的多模态化合物家族表示），精度不足且无法用于自动化大规模处理。Markush结构在专利分析中发挥核心作用，但其识别面临三大挑战：主干图像遵循广泛的绘制规范、文本定义缺乏标准化且常含条件或递归描述、缺乏带全面标注的真实训练数据。

🔧 怎么做的：MarkushGrapher-2采用encoder-decoder架构，通过两阶段训练策略融合双编码器。首先，引入ChemicalOCR模块从化学图像中提取文本。其次，通过Vision-Text-Layout (VTL) encoder和预训练的OCSR vision encoder联合编码图像、文本和布局信息。最后，两个编码器的输出经过投影拼接后送入文本decoder，自回归生成Markush结构的CXSMILES表示和变量基团替换表。训练分两阶段：Phase 1冻结vision encoder训练projector和decoder适应OCSR特征空间；Phase 2冻结vision encoder和projector，引入VTL encoder端到端训练用于CXSMILES预测。

✨ 核心贡献：

开发了MarkushGrapher-2，可同时识别分子图像和多模态Markush结构的通用模型
引入ChemicalOCR专用模块实现端到端处理，并改进缩写识别能力
设计两阶段训练策略改进编码器融合效果
构建USPTO-MOL-M数据集，从USPTO提供的MOL文件和图像自动生成真实Markush主干训练样本的pipeline
发布IP5-M基准：包含1000个来自IP5专利局的手工标注真实Markush结构

📊 效果：在Markush结构识别任务上，MarkushGrapher-2在多个benchmark上大幅超越现有方法。在M2S benchmark上CXSMILES准确率显著优于MolParser-Base、MolScribe、GPT-5、DeepSeek-OCR和MarkushGrapher-1。ChemicalOCR模块在OCR任务上也明显优于PaddleOCR v5和EasyOCR，能准确识别化学结构中的长缩写和文本描述。同时模型在标准OCSR benchmarks（USPTO、JPO、UOB、WildMol）上保持了竞争力表现。

📝 点评：针对专利化学文档理解的重要实际问题，提出完整技术方案并构建大规模数据集和benchmark，实验结果显著优于现有方法，但创新主要在工程集成和数据构建层面

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Strohmeyer_MarkushGrapher-2_End-to-end_Multimodal_Recognition_of_Chemical_Structures_CVPR_2026_paper.pdf

5. ORCA：基于协作智能体编排推理的文档视觉问答

ORCA: Orchestrated Reasoning with Collaborative Agents for Document Visual Question Answering

👥 Aymen Lassoued, Mohamed Ali Souibgui, Yousri Kessentini

🏛️ Digital Research Center of Sfax, Computer Vision Center (Universitat Autònoma de Barcelona), École Polytechnique de Tunisie 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

视觉问答文档理解多智能体系统

🎯 解决什么问题：现有Vision-Language Models在文档视觉问答（DocVQA）任务中表现不足，特别是面对复杂推理和多步骤工作流时。现有方法难以将复杂问题分解为可管理的子任务，无法针对不同文档元素（文本、表格、图表、手写内容）启用专门处理路径，且缺乏自验证机制和跨模态协调能力。

🔧 怎么做的：ORCA采用五阶段多智能体协作框架：(1) 思考智能体生成推理路径并分解问题；(2) 路由器从九种专门智能体（OCR、表格、图表、表单、手写等）中动态选择并编排执行序列；(3) 当专家答案与初始答案不一致时启动压力测试，通过辩论智能体生成挑战性问题验证答案可靠性；(4) 若压力测试显示不确定性，则启动正反方三轮辩论机制由裁判智能体裁决；(5) 最终通过格式检查器确保答案与文档格式一致。采用推理路径掩码防止确认偏差，仅在8.3%案例中条件激活辩论机制。

✨ 核心贡献：

提出多智能体框架整合显式推理、专门文档理解和对抗验证，实现透明化、可分解、自适应和自验证的DocVQA
设计九种任务专门智能体和推理引导的动态路由机制，实现细粒度文档组件理解
引入压力测试和多轮辩论机制进行答案可靠性验证，仅在必要时激活以控制计算开销
在DocVQA、InfographicsVQA和OCRBench-v2三个基准上超越现有最优方法，建立协作智能体系统的新范式

📊 效果：在DocVQA基准上，ORCA(Qwen3VL-8B)达到97.2% ANLS分数，相比单模型基线(96.1%)提升1.1个百分点；在InfographicsVQA上达到88.0%，相比基线(83.1%)提升4.9个百分点；平均性能92.6%，整体提升3.0个百分点。在OCRBench-v2上同样取得显著改进，证明多智能体协作和辩论验证机制的有效性。

📝 点评：创新性强的多智能体协作框架，在多个基准上取得SOTA，但计算复杂度较高且改进幅度相对有限

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Lassoued_ORCA_Orchestrated_Reasoning_with_Collaborative_Agents_for_Document_Visual_Question_CVPR_2026_paper.pdf

6. OmniDocLayout：基于由粗到精 LLM 学习的多样化文档布局生成

OmniDocLayout: Towards Diverse Document Layout Generation via Coarse-to-Fine LLM Learning

👥 Hengrui Kang, Zhuangcheng Gu, Zhiyuan Zhao, Zichen Wen, Bin Wang, Weijia Li

🏛️ 上海交通大学, 上海人工智能实验室, 清华大学深圳国际研究生院(SIGS) 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

文档布局生成 (Document Layout Generation)LLM 自回归生成大规模数据集构建

🎯 解决什么问题：文档布局生成（layout generation）相比文档布局分析（DLA）严重欠研究，且现有公开数据集存在严重长尾偏差——学术论文的 Manhattan 式简单布局占主导，而报纸、杂志、教科书等开放世界复杂版式严重缺失。同时，现有方法在元素更多、类别更细、序列更长的复杂真实场景中表现很差，难以连贯排布长序列。

🔧 怎么做的：整体思路是先构建大规模多样化数据集，再用由粗到精（Coarse-to-Fine）两阶段 LLM 学习范式实现少样本细粒度适配。Stage 1 在 OmniDocLayout-1M 上用粗粒度标签让 0.5B LLM 学习对齐、避免重叠等通用布局美学原则；Stage 2 仅用少量（通常几百个）细粒度标注样本，通过 Coarse-to-Fine Mapping (ϕ: Ccoar→Cfine) 迁移到特定复杂域。布局被表示为 (c,x,y,w,h) 五元组并序列化，采用 LGGPT 风格的纯字符串 prefix-aware 编码（坐标归一化量化到 [0,999]），将任务建模为条件序列生成，支持 U-Cond、C→S+P、C+S→P、Completion、Refinement 五种条件设定。

✨ 核心贡献：

提出首个百万级多样化文档布局数据集 OmniDocLayout-1M：约 100 万样本、约 4800 万元素实例、6 种常见文档类型、10 类元素，源自 36 个合规来源，并用 MinerU 全自动标注（报纸用微调 DocLayout-YOLO），还提供符合自然阅读顺序的元素序列
提出轻量级 0.5B 模型 OmniDocLayout-LLM 及由粗到精两阶段学习范式，先学多样布局美学规则再用少量细粒度样本适配特定域，同时克服细粒度标注稀缺与复杂布局直接学习困难
在 M6Doc 等多个文档域上达到 SOTA，显著超越现有布局生成专家模型与多个最新通用 LLM，可视化结果同时符合美学原则与用户预期

📊 效果：OmniDocLayout-1M 在元素数(~~48M)、文档类型(6 种最新版式)、数据量(~~1M)和来源多样性(36 源)上全面超越现有数据集；盲测人工评估显示模型自动标注与人工标注感知质量相似度 ≥92%。在 M6Doc 多个域上方法一致取得 SOTA，明显优于现有布局生成专家与最新通用 LLM。

📝 点评：数据集贡献扎实（首个百万级多样化文档布局数据）且 Coarse-to-Fine 范式针对真实痛点设计合理、被 CVPR 接收，但方法创新偏工程化、对外部解析工具有依赖。

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Kang_OmniDocLayout_Towards_Diverse_Document_Layout_Generation_via_Coarse-to-Fine_LLM_Learning_CVPR_2026_paper.pdf

7. PIX-TAB: 基于推测解码和区域图像分割的高效像素精确表格结构识别方法

PIX-TAB: Efficient PIXel-Precise TABle Structure Recognition Approach with Speculative Decoding and Region-Based Image Segmentation

👥 Viktor Zaytsev, Olena Vynokurova, Pavlo Tytarchuk, Dmytro Kozii, Vitalii Pohribnyi, Olga Radyvonenko

🏛️ Samsung R&D Institute Ukraine, Institute for Information Recording NASU, Taras Shevchenko National University of Kyiv, BrilliantFlux 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

文档理解表格结构识别多任务学习

🎯 解决什么问题：表格结构识别(TSR)面临布局不一致、合并单元格、复杂嵌套结构等挑战，且大规模标注数据集稀缺。现有方法多依赖流水线式子任务拆解，误差累积且计算开销大，难以在移动端设备部署。此外，现有模型难以准确识别长表格和复杂表格，且语言迁移需重新训练整个模型。

🔧 怎么做的：提出PIX-TAB方法，采用轻量级encoder-decoder模型输出Position-Aware Pixel-Precise(PAPP) tokens与OTSL tokens，实现像素级精确结构预测。核心技术包括：(1)位置感知像素精确tokens，将行列坐标显式编码到token序列中，使单元格边界框可直接从序列重建；(2)规则驱动的Speculative Decoding，利用表格行间规律性分析生成推测token块，减少解码步数；(3)训练时辅助bounding box监督头稳定空间定位学习，推理时移除；(4)基于flood fill的区域图像分割(RBIS)模块处理具有明确几何边界的复杂表格；(5)聚合模块整合多模块结果并配合外部OCR提取文本。

✨ 核心贡献：

提出PAPP tokens表示法，将像素级行列坐标编码进序列，实现确定性单元格重建，序列长度比HTML表示缩短近50%
引入分析式Speculative Decoding技术，无需额外模型，通过规则推测未来tokens显著提速解码过程，移动优化模型比全尺寸版本快3倍以上
设计训练时box监督机制与Region-Based Image Segmentation(RBIS)模块，前者稳定空间学习，后者针对带完整边框的复杂表格提供鲁棒识别
提出TEDS_struct100和TEDS_100新评估指标，克服现有TSR评估方法的局限性
构建大规模合成表格数据集生成pipeline，缓解标注数据稀缺问题，模型语言无关可通过替换OCR模块支持新语言

📊 效果：消融实验验证了各模块有效性。Speculative Decoding在保持识别准确率的同时显著提升推理速度。结合所有技术的移动优化模型相比全尺寸版本速度提升超过3倍。PAPP tokens表示对长表格和复杂表格识别精度提升明显。RBIS模块对具有明确边界的表格实现可靠单元格检测。

📝 点评：方法创新性强(PAPP tokens、分析式推测解码)，工程实用性高(移动端部署、语言无关)，但公开数据集实验结果未充分展示且泛化性需更多验证

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Zaytsev_PIX-TAB_Efficient_PIXel-Precise_TABle_Structure_Recognition_Approach_with_Speculative_Decoding_CVPR_2026_paper.pdf

8. Paper2Figure：面向学术研究论文图表生成的多智能体协作系统

Paper2Figure: A Multi-Agent Collaborative System for Figure Generation Towards Academic Research Paper

👥 Siwei Han, Haonian Ji, Siyang Xin, Juanquan Shi, Shi Qiu, Xinyu Ye

🏛️ UNC-Chapel Hill, University of Chicago, Microsoft 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

AI4Science图表生成多智能体系统LLM Agent

🎯 解决什么问题：为学术论文自动生成清晰、准确且具有美感的主图非常困难：基于LLM代码（SVG、Mermaid）的方法结构化但布局僵硬、美感差；基于文生图模型（GPT-Image-1、Nano Banana）的方法视觉效果好却存在文字渲染错误、布局难控、不可编辑等问题。现有方法无法同时满足语义精度、视觉质量与灵活可编辑性。

🔧 怎么做的：提出Paper2Figure，一个双多智能体框架并配备交互式Web编辑器。设计中间表示语言FigScript，编码图表语义、样式与布局；生成阶段由Plan Agent（提取实体并制定高层规划）、Module Agent（构建节点/边/容器等可视模块）、Layout Agent（调整对齐、走线与间距）协作生成初始FigScript并渲染；细化阶段由Critic Agent检测视觉问题、Refine Agent制定修订方案、Edit Agent执行修改并重渲染，形成闭环反馈。所有Agent基于GPT-4o实现，用户还可通过Web编辑器进行自然语言指令编辑或直接画布操作。

✨ 核心贡献：

提出Paper2Figure双多智能体系统及结构化中间语言FigScript，将语义推理、视觉细化与灵活编辑统一在一个交互式Web平台中
构建Paper2Figure Bench基准，包含100张精选的arXiv复杂论文主图及配对的概要+细节融合描述，用于评测真实学术场景下的文本到图表生成
在准确性、美观度、完整性上分别相较最强基线提升12.0%、13.5%和17.0%，平均提升14.1%，并提出基于rubric的LLM-as-a-Judge三维度评测框架

📊 效果：在Paper2Figure Bench上，Paper2Figure在准确性、美观度、完整性三维度全面超越基于SVG（GPT-o3/4o/5、Claude 4.5 Sonnet/Opus 4、Gemini 2.5 Flash/Pro）、Mermaid（GPT-5、Claude 4.5 Sonnet）以及文生图（GPT-Image-1、Nano Banana）的所有基线，平均较最强基线提升14.1%，其中准确性+12.0%、美观度+13.5%、完整性+17.0%；100张人工评分样本表明其自动评测指标与人类判断高度一致，优于BERTScore与F1。

📝 点评：系统设计较完整，将中间语言、双Agent闭环与交互式Web编辑器结合，并提供配套Benchmark与rubric评测，实用性与工程价值较高，但创新主要在系统集成层面，单点技术深度有限。

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Han_Paper2Figure_A_Multi-Agent_Collaborative_System_for_Figure_Generation_Towards_Academic_CVPR_2026_paper.pdf

9. Robo-SGG：利用面向布局的归一化与恢复改进鲁棒场景图生成

Robo-SGG: Exploiting Layout-Oriented Normalization and Restitution Can Improve Robust Scene Graph Generation

👥 Changsheng Lv, Zijian Fu, Mengshi Qi

🏛️ Beijing University of Posts and Telecommunications (State Key Laboratory of Networking and Switching Technology) 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

场景理解场景图生成鲁棒性

🎯 解决什么问题：现有场景图生成（SGG）方法假设输入图像是干净的，但在真实场景中图像往往受到噪声、模糊、天气等各种corruption的影响。这些corruption导致视觉特征发生domain shift，使得传统SGG模型性能大幅下降。核心挑战是如何在干净图像和corrupted图像之间存在domain shift的情况下，保持模型对结构特征（对象间位置和语义关系）的鲁棒表征。

🔧 怎么做的：提出Robo-SGG，一个即插即用的鲁棒SGG模块。核心思路是利用layout信息（全局结构）对domain shift具有鲁棒性的特点来增强模型。具体包括两个关键组件：(1) Layout-Oriented Normalization and Restitution Module (NRM)：使用Instance Normalization消除corruption带来的domain-specific变化，再通过layout-aware attention机制从残差特征中恢复鲁棒的结构特征；(2) Layout-Embedded Encoder (LEE)：通过门控机制自适应融合bounding box坐标嵌入和视觉特征，针对object和predicate分别建模，降低corrupted图像中检测框不准确带来的噪声影响。整个方法可无缝集成到任意现有SGG基线模型中。

✨ 核心贡献：

提出NRM模块，通过Instance Normalization和layout-aware attention获取对corruption鲁棒的结构特征，解决feature domain shift问题
设计LEE编码器，利用门控机制自适应融合空间坐标和视觉特征，在检测框不可靠时提高object和predicate表征的鲁棒性
Robo-SGG是即插即用的模块，可集成到任意SGG基线；在VG-C上相比SOTA方法DPL在PredCls、SGCls、SGDet三个任务的mR@50指标分别获得6.3%、11.1%、8.0%的相对提升，在VG-C和GQA-C上达到新的SOTA

📊 效果：在VG-C基准上，集成Robo-SGG后，SOTA模型DPL在PredCls任务的mR@50从基线相对提升6.3%，SGCls提升11.1%，SGDet提升8.0%。相比专门为鲁棒SGG设计的HiKER方法，在PredCls和SGCls的mR@50上分别提升3.7%和5.7%。在传统基线模型MOTIFS、VCTree、VTransE上也均获得显著性能提升。消融实验表明NRM和LEE两个模块均对最终性能有重要贡献。

📝 点评：针对真实场景中的corruption问题提出有效解决方案，方法设计合理且即插即用，在多个基线上验证有效，达到SOTA性能

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Lv_Robo-SGG_Exploiting_Layout-Oriented_Normalization_and_Restitution_Can_Improve_Robust_Scene_CVPR_2026_paper.pdf

10. RxnCaption：将反应图谱解析重构为视觉提示引导的描述生成

RxnCaption: Reformulating Reaction Diagram Parsing as Visual Prompt Guided Captioning

👥 Jiahe Song, Chuang Wang, Bowen Jiang, Yinfan Wang, Hao Zheng, Xingjian Wei

🏛️ 上海交通大学, 上海人工智能实验室, 北京航空航天大学, 北京大学, 华南师范大学, 西北工业大学 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

文档理解多模态学习目标检测化学信息学

🎯 解决什么问题：化学反应数据大多以图像形式存在于科学文献中，无法机器读取和用于训练模型。现有的化学反应图谱解析方法（如RxnScribe和RxnIM）采用BROS策略要求大型视觉语言模型（LVLM）同时预测分子边界框坐标和角色，但坐标预测超出了LVLM的核心能力范围，导致性能不佳且泛化能力有限。此外，现有数据集规模小（RxnScribe仅1378样本）或为合成数据（RxnIM存在domain shift），限制了模型发展。

🔧 怎么做的：提出RxnCaption框架，将化学反应图谱解析重新定义为图像描述任务。核心是BBox and Index as Visual Prompt（BIVP）策略：使用自研的MolYOLO分子检测器预先在输入图像上标注分子边界框和索引号，生成预标注图像；然后让LVLM通过引用索引号以自然语言描述反应来完成解析，绕过了坐标预测难题。开发了基于YOLOv10的MolYOLO检测器，在MolDet-33k数据集上训练达到P=0.98、R=0.98的state-of-the-art性能。基于Qwen2.5-VL-7B微调得到RxnCaption-VL模型，使用扩充的训练集（23,432张图像）进行训练。

✨ 核心贡献：

提出BIVP策略，将反应图谱解析转化为图像描述任务，充分发挥LVLM的自然语言生成能力，避免其在坐标预测上的短板
构建U-RxnDiagram-15k数据集，包含15,128张训练图像和400张平衡测试图像（涵盖Single-line、Multi-line、Tree、Cyclic四种布局），比现有真实文献基准数据集大一个数量级
开发MolYOLO分子检测器，在MolDet-33k数据集上达到state-of-the-art性能
训练RxnCaption-VL模型，在RxnScribe-test和U-RxnDiagram-15k-test上均达到最优性能

📊 效果：在RxnScribe-test上，RxnCaption-VL使用HybridMatch指标达到F1=72.2%，SoftMatch指标达到F1=86.2%，均为最优。在更具挑战性的U-RxnDiagram-15k-test上，HybridMatch指标F1=59.8%，SoftMatch指标F1=70.4%，比最强竞争模型Gemini-2.5-Pro（BIVP）在HybridMatch上高出19.4个百分点。实验充分验证了BIVP策略相比BROS策略的显著优势，零样本测试的主流LVLM在BROS策略下性能接近0，而在BIVP策略下性能大幅提升。

📝 点评：创新性强（BIVP策略巧妙绕过LVLM短板），构建了大规模高质量数据集，开发了state-of-the-art检测器，在多个基准上取得显著性能提升，对化学信息学交叉领域有重要实际价值

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Song_RxnCaption_Reformulating_Reaction_Diagram_Parsing_as_Visual_Prompt_Guided_Captioning_CVPR_2026_paper.pdf

11. SEA-Vision：面向东南亚文档与场景文本理解的多语言综合基准

SEA-Vision: A Multilingual Benchmark for Comprehensive Document and Scene Text Understanding in Southeast Asia

👥 Pengfei Yue, Xingran Zhao, Juntao Chen, Peng Hou, Wang Longchao, Jianghang Lin

🏛️ 厦门大学 (Xiamen University), Shopee, 同济大学 (Tongji University) 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

文档理解/Document Parsing文本中心视觉问答 (TEC-VQA)多语言 OCR

🎯 解决什么问题：现有文档与场景文本理解基准多聚焦于英文、中文等高资源语言，难以评估模型在真实多语言场景下的能力。东南亚地区语言多样、书写系统复杂（Latin、Brahmic、Arabic-based、logographic 等）、文档类型高度异构，且 Document Parsing 与 TEC-VQA 通常被分开评测，缺乏统一的跨任务、跨脚本评估手段。

🔧 怎么做的：构建 SEA-Vision 基准，在统一框架下联合评估 Document Parsing 与 TEC-VQA，覆盖 11 种东南亚语言与多种脚本。设计混合标注流水线：Document Parsing 采用关键词爬取、layout detection、MLLM 语言与页面类型识别、基于规则的打分排序（block 数量、文本面积比、元素类型多样性、是否含图/表），再经 UniMERNet 公式重解析、表格识别与 MLLM 区域校正，最后由 native-speaker 人工核验。TEC-VQA 针对 visual-textual misalignment，将翻译后文本通过 font-matched inpainting 重渲染回图像，由 MLLM 生成英中双语 QA 候选并经跨语言一致性校验、back-translation 与人工核验。整体大幅降低人工标注成本同时保证质量。

✨ 核心贡献：

首个统一评估 Document Parsing 与 TEC-VQA 的多语言基准，覆盖 11 种东南亚语言（含 7 种低资源语言）和多种脚本，数据来自真实场景
发布 15,234 个文档解析页（含 page/block/line 三级层次标注、243,643 个 block 标注）与 7,496 条 TEC-VQA 问答对，通过自动化流水线结合母语者核验确保视觉-语义对齐
提出通过 re-rendering 将翻译文本重绘回图像的策略，解决纯文本翻译造成的 visual-textual misalignment，并系统性 benchmark 了 pipeline/expert/general 三类模型

📊 效果：对主流多模态模型的评测显示，在高资源语言（英文、中文）上表现良好的模型在低资源东南亚语言上性能显著下降：Document Parsing 的 NED 高出 3–5 倍，TEC-VQA 准确率低 5–7 倍，暴露出当前 MLLM 在多语言文档与场景文本理解上的巨大差距。

📝 点评：针对东南亚低资源多语言场景填补了统一评测空白，数据规模与标注流程扎实，但方法以基准构建为主、技术创新性相对有限。

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Yue_SEA-Vision_A_Multilingual_Benchmark_for_Comprehensive_Document_and_Scene_Text_CVPR_2026_paper.pdf

12. VinQA：面向真实世界多模态文档问答的视觉元素交错式长答案生成

VinQA: Visual Elements Interleaved Long-form Answer Generation for Real-World Multimodal Document QA

👥 Young Rok Jang, Hyesoo Kong, Kyunghwan An, Jae Sub Huh, Gyeonghun Kim, Stanley Jungkyu Choi

🏛️ LG AI Research 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

多模态文档问答多模态RAG长答案/引用生成

🎯 解决什么问题：真实文档由文本与表格、图表、照片、示意图等多种视觉元素以多样版式组合而成，但现有面向文档QA的MLLM研究几乎只产出纯文本答案，未能充分利用这些视觉元素。论文要解决的是如何生成将被引用的视觉元素显式交错插入到其支撑文本中、并接地于相关文档页面的长答案。

🔧 怎么做的：作者构建VinQA数据集，每个实例包含需文本与视觉理解的Question、经多模态RAG检索得到的top-K相关页面Context，以及把视觉元素插入到引用它的句子之前的多模态接地长答案。提出两种把原始页面图像喂入MLLM并支持视觉元素引用的编码策略：Page Encoding直接将整页图像编码为视觉token并附上DocLayout检测的bounding box，把框选区域作为可引用单元；Modality Encoding先用OCR抽取文本并按bounding box裁剪视觉元素，分别编码，把裁剪片段作为可引用单元。数据由MLLM对页面文本化、再用LLM生成问答并经三步（文本、视觉、人工）验证。评测上提出扩展GroUSE的M-GroSE评估groundedness，并用Visual Source F1度量视觉引用准确率、Visual G-Eval由MLLM评判视觉插入恰当性。

✨ 核心贡献：

提出VinQA：长答案中将被引用视觉元素与其支撑文本交错的文档接地QA数据集，覆盖论文/网页/教科书/指南/研报/财报/幻灯片七类领域，支持跨页、跨模态、不可回答及多文档问题
提出两种带视觉元素引用机制的编码策略（Page Encoding与Modality Encoding），系统比较从原始页面图像到MLLM输入的不同处理路径
提出M-GroSE多模态接地评估框架（completeness、answer relevancy、faithfulness、unanswerability），并辅以Visual Source F1与Visual G-Eval直接评估视觉引用
实证发现：在VinQA上微调后，Page Encoding无需显式parsing即可追平Modality Encoding；微调显著缩小开源模型与闭源前沿模型差距

📊 效果：在VinQA测试集上，闭源前沿模型仍取得最佳整体分数；在VinQA训练集上微调开源Qwen2.5-VL后性能大幅提升并明显缩小与闭源模型差距。Modality Encoding在长文本、视觉元素多、引用需求多样的复杂文档上初始更鲁棒，但经VinQA训练后Page Encoding达到可比水平。Visual G-Eval确认微调模型能在语义恰当位置插入视觉元素并配以忠实支撑文本。

📝 点评：在被忽视的视觉元素交错答案生成方向上提出了高质量数据集与配套评测框架，编码策略对比与发现具实用价值，但方法本身偏数据/工程组合、创新性中等。

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Jang_VinQA_Visual_Elements_Interleaved_Long-form_Answer_Generation_for_Real-World_Multimodal_CVPR_2026_paper.pdf

13. 从人类经验到多模态软件教程：Demo2Tutorial

Demo2Tutorial: From Human Experience to Multimodal Software Tutorials

👥 Zechen Bai, Zhiheng Chen, Yiqi Lin, Kevin Qinghong Lin, Difei Gao, Mike Zheng Shou

🏛️ 新加坡国立大学 Show Lab 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

GUI自动化计算机视觉软件教程生成

🎯 解决什么问题：人类在数字环境中的交互经验（屏幕录制）包含丰富的程序性知识，但原始演示视频是被动的、冗长的、缺乏口头指导和视觉高亮，难以被人类学习者和AI agent有效利用。现有方法无法自动将这些原始经验转化为结构化、可复用的多模态教程，而人工制作高质量教程需要大量劳动成本。

🔧 怎么做的：Demo2Tutorial框架包含四个核心组件：(1) HE-Recorder专用录制器同步捕获屏幕视频和低级用户操作（鼠标、键盘）并进行时间对齐；(2) Action Parser使用VLM（GPT-4o）通过Chain-of-Thought提示策略将低级动作解析为包含观察、动作和意图的自然语言描述；(3) Step Planner采用自底向上的层次化抽象策略，通过actor-critic迭代refinement将动作序列组织为三级任务图（步骤-章节-目标），Planner生成结构化草稿，Critic从覆盖度、粒度、有序性和可学习性等维度评估并提供反馈；(4) Tutorial Composer基于多维评分函数进行智能关键帧选择，并应用adaptive visual highlight（SAM2分割、OCR检测、点击标记、拖拽轨迹、放大效果等）生成图文交错教程。

✨ 核心贡献：

提出Demo2Tutorial，首个自动将原始人类计算机使用演示转化为结构化多模态教程的agentic框架
构建TutorialBench基准测试，包含110个样本覆盖7个常用软件（MS Office和Adobe套件），并设计Content Score和Visual Score两类五维评估指标
双重验证教程价值：在GUI agent方面集成到Agent-S3框架在OSWorld基准上提升规划性能；在人类学习方面通过用户研究证明减少任务完成时间并获得强烈偏好

📊 效果：在TutorialBench上，Demo2Tutorial生成的教程质量在Content Score（可操作性、完整性、简洁性）和Visual Score（标注质量、图像相关性）上均显著优于baseline方法并超过人工编写的官方教程。在下游应用中，集成生成教程的Agent-S3在OSWorld基准上获得规划性能提升；用户研究显示使用生成教程比观看原始演示视频完成任务更快，且用户强烈偏好教程格式。

📝 点评：创新性将演示转教程自动化，构建高质量基准，双重验证实用价值（人类+agent），技术方案完整但应用场景仍局限于桌面软件

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Bai_Demo2Tutorial_From_Human_Experience_to_Multimodal_Software_Tutorials_CVPR_2026_paper.pdf

14. 共识熵：利用多VLM一致性实现自验证和自改进OCR

Consensus Entropy: Harnessing Multi-VLM Agreement for Self-Verifying and Self-Improving OCR

👥 Yulong Zhang, Tianyi Liang, Erfei Cui, Guoqing Wang, Xu Guo, Chenhui Li

🏛️ 复旦大学, 上海创新研究院, 上海交通大学, 华东师范大学 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

OCRVision-Language Models不确定性估计

🎯 解决什么问题：当前OCR评估方法存在显著局限：即使是顶级VLM在实际应用中仍频繁出现语义错误和格式不一致，且这些错误难以被传统指标检测到。现有评估方法要么受限于评估模型自身的不确定性（交叉验证），要么无法有效验证视觉输入与文本输出的一致性（VLM-as-Judge）。核心挑战是如何在无人工监督的情况下实现OCR结果的自验证和自改进。

🔧 怎么做的：提出Consensus Entropy (CE)，一种无需训练、模型无关的度量方法，通过测量多个VLM输出之间的一致性熵来估计预测可靠性。核心洞察是正确预测在输出空间中收敛，而错误预测发散。方法包括：(1) 计算多模型输出的成对相似度（字符级任务用Edit Distance，语义任务用余弦相似度）；(2) 将相似度转换为概率分布并计算成对熵；(3) 通过加权KDE或距离分布得到最终的共识熵δ。基于CE构建CE-OCR框架：低熵样本使用CE加权集成，高熵样本路由到更强VLM进行重新处理。阈值θ控制质量-效率权衡。

✨ 核心贡献：

首次发现多VLM处理同一图像时正确预测收敛而错误预测发散的规律，提出Consensus Entropy作为无监督OCR质量评估指标，F1分数相比VLM-as-Judge提升42.1%
设计CE-Ensemble和CE-OCR框架，通过自适应路由机制实现训练无关的质量感知OCR，仅路由7.3%样本即可获得8.2%性能提升
在OCRBench、OCRBench-V2和CCOCR上验证了CE在多种OCR任务和VLM上的有效性，证明其即插即用的集成能力

📊 效果：CE在质量验证任务上F1分数达到51.3%，相比VLM-as-Judge的36.1%提升42.1%。CE-OCR在OCRBench上取得8.2%的性能提升，同时仅需路由7.3%的样本到更强模型。在210个VLM的综合测试中，随着CE阈值从0.7降至0.1，平均准确率从约65%提升至95%以上。CE-Ensemble在相同计算成本下持续优于Self-Consistency和单模型基线。

📝 点评：提出创新的无监督质量评估范式，实验验证充分，实用价值高，但多模型推理开销和泛化性仍需进一步优化

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Zhang_Consensus_Entropy_Harnessing_Multi-VLM_Agreement_for_Self-Verifying_and_Self-Improving_OCR_CVPR_2026_paper.pdf

15. 场景文本识别中的合成数据问题分析：具有多样化仿真与自进化能力的强大合成引擎

What’s Wrong with Synthetic Data for Scene Text Recognition? A Strong Synthetic Engine with Diverse Simulations and Self-Evolution

👥 Xingsong Ye, Yongkun Du, JiaXin Zhang, Chen Li, Jing Lyu, Zhineng Chen

🏛️ 复旦大学可信具身智能研究院, 上海市多模态具身智能重点实验室, 腾讯微信视觉团队 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

场景文本识别OCR合成数据生成

🎯 解决什么问题：现有合成数据在场景文本识别(STR)任务上表现远逊于真实数据，暴露出合成数据与真实数据间存在显著域差距。系统分析发现主流渲染类合成数据集存在三大局限：语料库多样性不足(以单个语义词为主)、字体类型常规单一、布局过于简单单调(仅支持水平均匀排列)，导致模型在多词、曲线、多方向等复杂场景下表现不佳。

🔧 怎么做的：提出UnionST合成引擎，通过三方面改进缩小合成与真实数据差距：(1)语料增强：补充无语义文本(随机字符串)、不完整文本(随机删除字符)、多词组合文本；(2)字体扩充：收集并自动过滤大小写不可区分字体，最终支持113.8K种字体；(3)复杂布局建模：将每个字符独立渲染为图层，通过参数化方式控制每个字符的位置、方向和大小，支持曲线、多方向、多尺寸文本生成。在此基础上构建UnionST-S数据集(5M样本)，并设计自进化学习(SEL)框架：用UnionST-S训练的模型对无标注真实数据伪标注，将预测文本作为新语料生成UnionST-P，组合训练后迭代筛选高置信度样本继续微调。

✨ 核心贡献：

系统分析主流渲染类合成数据集局限，识别出语料、字体、布局三大维度的不足
提出UnionST引擎，显著提升合成数据在挑战性场景的仿真能力，构建UnionST-S和UnionST-P数据集
设计自进化学习框架，仅需9%真实标注即可达到接近全监督性能，减少91%人工标注成本

📊 效果：仅使用UnionST-S训练的模型在Union14M-Benchmark上显著超越传统合成数据集，在Multi-Words子集上甚至超过真实数据训练结果。使用1%真实标注(32K)微调即可达到全量真实数据(3.2M)训练水平。通过SEL框架两轮迭代后在Union14M-Benchmark达到89.81%平均准确率，超越全量真实数据训练模型2.59个百分点。进一步在真实数据上微调达到SOTA的91.39%平均准确率。

📝 点评：系统性强、方法实用、实验充分，显著推进了合成数据在STR领域的应用，但渲染引擎仍有工程优化空间

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Ye_Whats_Wrong_with_Synthetic_Data_for_Scene_Text_Recognition_A_CVPR_2026_paper.pdf

16. 基于动态分词关系Transformer的工程图纸端到端超关系信息抽取

End-to-End Hyper-Relational Information Extraction for Engineering Diagrams via Dynamically Tokenized Relation Transformer

👥 Tianyou Bai, Yan-Ming Zhang, Zixiang Zhang, Jibin Zhou, Fei Yin, Cheng-Lin Liu

🏛️ 中国科学院自动化研究所, 中国科学院大学, 上海科技大学, 中国科学院大连化学物理研究所 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

文档理解场景图生成工程图纸解析信息抽取

🎯 解决什么问题：现有工程图纸解析方法存在三大局限：检测符号、线条和文本需要多个独立模型导致流程繁琐；高分辨率图纸带来过高计算成本；基于目标检测的框架仅能定位组件位置，无法捕获拓扑连接语义和结构化知识，对工业应用支持有限。

🔧 怎么做的：提出DTRT框架，采用动态分词机制在视觉骨干网络中插入scorer评估token价值并剪枝低价值token，引入Transformer重构分支监督scorer训练保留关键信息如长线条和文本。采用one-stage关系Transformer直接生成subject-predicate-object三元组，避免O(n²)复杂度。结合对比去噪训练、混合查询选择和关系感知可变形注意力机制提升性能。最终生成超关系知识图谱，将文本标签作为实体和关系的限定词。

✨ 核心贡献：

提出端到端信息抽取框架DTRT，单步完成工程图纸全要素检测和组件关系预测
设计动态分词机制，由高层语义和细粒度特征双重监督，通过重构分支优化scorer训练并保护重要细节
构建超关系知识图谱生成机制，深度建模组件间复杂关系，将文本标签作为实体和关系的限定词
在P&ID和电气图数据集上取得显著性能，为工程图纸数字化提供有力支持

📊 效果：在P&ID数据集上达到94.84%的R@1000准确率，在电气图数据集上达到92.52%的R@200准确率，同时显著降低了计算成本。动态分词机制可剪枝超过70%的低信息量token，有效提升推理效率。

📝 点评：发表于顶会CVPR，提出动态分词与关系抽取结合的创新方法，在实际工业场景取得显著性能提升，技术方案完整且具有实用价值

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Bai_End-to-End_Hyper-Relational_Information_Extraction_for_Engineering_Diagrams_via_Dynamically_Tokenized_CVPR_2026_paper.pdf

17. 基于干预稳定特征学习的多模态图像融合

Multi-Modal Image Fusion via Intervention-Stable Feature Learning

👥 Xue Wang, Zheng Guan, Wenhua Qian, Chengchao Wang, Runzhuo Ma

🏛️ 云南大学, 南阳师范学院, 香港理工大学 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

多模态图像融合红外-可见光融合因果学习

🎯 解决什么问题：现有多模态图像融合方法主要优化模态间的统计相关性，容易学习到数据集引入的虚假关联，导致在分布偏移时性能退化。这些方法无法区分真正的模态互补性与偶然的统计共现模式，仅基于观察数据的被动学习无法识别因果依赖关系。

🔧 怎么做的：提出受因果原理启发的干预式框架，通过三种结构化干预策略探测模态依赖关系：1) 互补遮蔽(complementary masking)对不同模态施加空间不相交的扰动，测试模态间的真实补偿能力；2) 随机遮蔽(random masking)对相同区域进行遮挡，识别部分可观测下仍保持信息量的特征子集；3) 模态丢弃(modality dropout)评估每个模态的不可替代贡献。基于这些干预，设计Causal Feature Integrator (CFI)模块，通过自适应不变性门控学习识别在不同扰动模式下保持重要性的干预稳定特征，捕获鲁棒的模态依赖而非虚假相关。采用U-Net结构和多尺度特征融合实现。

✨ 核心贡献：

提出系统性的干预框架用于多模态融合，从被动相关学习转向主动探测模态依赖关系，受因果推理原理启发识别鲁棒融合模式
设计三种互补的干预策略分别测试跨模态补偿、局部充分性和全局必要性，针对基于相关性融合的不同失效模式
引入带可学习不变性门控的CFI模块，显式识别和聚合在干预下保持稳定的特征，实现更鲁棒和可解释的融合决策
在多个基准数据集和下游任务上验证优越的泛化能力，特别是在基于相关性方法失效的挑战性条件下

📊 效果：在公开基准数据集和下游高层视觉任务上达到SOTA性能。在静态指标CC和PSNR、效率FPS、语义分割mIoU、目标检测mAP等方面优于现有方法如LRRNet、SAGE、TIMFusion。实验验证了干预式训练产生的模型具有更好的泛化能力，特别是在分布偏移的挑战性条件下表现更稳健。

📝 点评：创新性地将因果推理引入多模态融合，方法论系统完整，实验验证充分，在理论启发和实践效果之间取得良好平衡

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Wang_Multi-Modal_Image_Fusion_via_Intervention-Stable_Feature_Learning_CVPR_2026_paper.pdf

18. 感知证明：具有组合共形保证的认证工具使用多模态推理

Proof-of-Perception: Certified Tool-Using Multimodal Reasoning with Compositional Conformal Guarantees

👥 Arya Fayyazi, Haleh Akrami

🏛️ University of Southern California, Nuro 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

视觉语言推理文档理解不确定性量化

🎯 解决什么问题：现有多模态大语言模型在文档理解、图表推理和多图QA任务中，往往将细粒度感知（OCR、检测、图表解析）与符号推理纠缠在一起，产生脆弱的单值中间结果，导致错误传播和幻觉问题。现有工具使用方法通常在中间步骤commit到单一猜测，通过启发式控制计算，且仅对最终答案进行校准，缺乏逐步可靠性和证据支撑。

🔧 怎么做的：将多模态推理建模为有向无环图(DAG)执行过程，每个感知或逻辑节点配备conformal prediction证书，输出校准的集合值Γ(t)δ(x)而非单点预测。为每种节点类型t学习非一致性函数s(t)(x,z)，通过split-conformal校准确定阈值τ(t)δ，保证边际覆盖率1-δ。轻量级控制器观察节点级别的不确定性集合和计算预算，动态决定是接受、重试高保真度版本还是扩展额外工具调用。采用自对弈反例挖掘机制强化鲁棒性，对抗模型生成扰动样本并将困难案例加入校准集。

✨ 核心贡献：

提出Proof-of-Perception框架，为多模态推理的每个中间节点提供distribution-free的conformal prediction保证，实现可组合的逐步可靠性
设计自适应控制器将节点级不确定性证书转化为计算策略，实现原则性的准确率-计算trade-off，仅在需要时扩展工具调用
引入自对弈反例挖掘机制，通过对抗样本增强校准集，提升模型在分布偏移下的鲁棒性

📊 效果：在文档理解、图表推理和多图QA基准测试中，PoP相比强chain-of-thought、ReAct风格和program-of-thought基线在相同backbone和工具条件下提升了性能和可靠性。节点级conformal证书在各节点类型和数据集上达到目标覆盖率，控制器实现更优的准确率-计算trade-off，自对弈机制增强了对布局、字体和杂乱等现实偏移的鲁棒性，同时降低幻觉率并提高计算效率。

📝 点评：创新地将conformal prediction引入多模态推理的中间步骤，提供理论保证的不确定性量化，并通过自适应控制器实现计算效率优化，方法完整且实验覆盖多个任务

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Fayyazi_Proof-of-Perception_Certified_Tool-Using_Multimodal_Reasoning_with_Compositional_Conformal_Guarantees_CVPR_2026_paper.pdf

19. 视觉文档理解与推理：一种具备智能体级自适应测试时扩展的多智能体协作框架

Visual Document Understanding and Reasoning: A Multi-Agent Collaboration Framework with Agent-Wise Adaptive Test-Time Scaling

👥 Xinlei Yu, Chengming Xu, Zhangquan Chen, Yudong Zhang, Shilin Lu, Cheng Yang

🏛️ National University of Singapore, Tencent Youtu Lab, Tsinghua University, University of Science and Technology of China, Nanyang Technological University, Zhejiang University 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

视觉文档理解多智能体系统Test-Time Scaling

🎯 解决什么问题：在视觉文档理解与推理（如文档VQA）中，主流的单体扩展（monolithic scaling）范式即单纯增大参数与数据，收益递减且计算开销指数增长。文档任务具有过程性推理、认知负载高、对细微过程错误高度敏感（错误会雪球式放大）等特性，单体前向模型缺乏验证与自我纠错机制，难以应对。

🔧 怎么做的：提出MACT框架，将文档处理流程拆解为四个专职协作智能体：planning（问题分解与高层计划，借鉴analogical prompting生成Np个相关计划）、execution（结合工具库逐步执行）、judgment（独立判断对错并将错误回传纠正，将判断与纠正解耦）、answer（综合正确与错误过程生成最终答案）。同时提出agent-wise自适应测试时扩展：planning用parallel scaling、execution用step级候选+reward model选优、judgment用budget forcing，按各智能体功能按需分配算力。并采用混合奖励建模（agent专属过程/结果奖励 + 全局结果奖励）通过RL优化。

✨ 核心贡献：

从monolithic scaling转向procedural scaling范式，用四个专职协作智能体显式映射文档分析的认知步骤，解决认知过载并引入自我纠错闭环
提出agent-wise自适应测试时扩展策略，针对planning/execution/judgment各自特性定制parallel、step-wise reward选优、budget forcing等不同扩展方式
设计独立判断智能体将judgment与correction解耦，避免内部纠错盲区与判改合一所需的大模型负担；并提出融合agent专属奖励与全局结果奖励的混合奖励建模

📊 效果：在15个基准（10个文档类+5个非文档类）上评测，MACT三个变体均进入平均性能前三，在15个中13个基准取得最佳。相比同规模及更大规模模型平均提升3.2%–5.6%，相比各自base模型平均提升9.9%–11.5%，且以更小参数规模达成，同时未损害通用与数学推理能力。

📝 点评：提出了从单体扩展转向过程性扩展的清晰范式与可落地的多智能体+自适应测试时扩展设计，多基准提升明显，但推理开销与系统复杂度增加，创新主要为已有技术的系统化组合。

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Yu_Visual_Document_Understanding_and_Reasoning_A_Multi-Agent_Collaboration_Framework_with_CVPR_2026_paper.pdf

20. 解决证据稀疏性：面向长文档理解的代理式上下文工程

Resolving Evidence Sparsity: Agentic Context Engineering for Long-Document Understanding

👥 Keliang Liu, Zizhi Chen, Mingcheng Li, Jingqun Tang, Dingkang Yang, Lihua Zhang

🏛️ 复旦大学智能机器人与先进制造学院, Fysics AI, 字节跳动 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

文档理解长文档问答多智能体系统

🎯 解决什么问题：现有Vision-Language Models在长文档理解任务中效果不佳。长文档中关键证据往往稀疏且分散在多个页面和模态中，而冗余信息会干扰模型判断。虽然检索增强生成(RAG)能过滤相关内容，但检索结果仍包含大量冗余，VLMs难以从多页面中识别关键证据。

🔧 怎么做的：提出SLEUTH多智能体框架，采用粗到细的流程：首先使用检索器缩小搜索空间；然后协调四个智能体协作——Clue Discovery Agent逐页扫描提取结构化文本和视觉线索，Page Screening Agent筛选包含相关表格/图表的页面并过滤无关图像，Difficulty Assessment Agent分析查询复杂度并选择推理策略，Core Decision Agent基于精炼的高置信度多模态上下文生成最终答案。通过页面级处理保持有效上下文长度固定，构建证据密集型的紧凑上下文。

✨ 核心贡献：

提出SLEUTH，首个从构建证据密集上下文角度解决长文档理解的免训练多智能体框架
设计互补的Clue Discovery Agent和Page Screening Agent，分别负责线索提取和视觉过滤，实现结构化精炼的上下文表示
引入基于证据和难度感知的机制，根据查询复杂度自适应选择推理策略(ordinary mode vs reasoning mode)

📊 效果：在四个长文档benchmark上达到SOTA性能。在MMLongBench-Doc上平均准确率52.77%，相比Base方法提升6.01个百分点。在LongDocURL、PaperTab和FetaTab上同样获得最佳结果。框架具有模型无关性，在不同VLM backbone上均表现出一致性能提升。消融实验验证了各模块有效性和分层精炼范式的优势。

📝 点评：方法新颖且系统，在多个benchmark达到SOTA，但创新主要在工程范式而非底层技术突破

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Liu_Resolving_Evidence_Sparsity_Agentic_Context_Engineering_for_Long-Document_Understanding_CVPR_2026_paper.pdf

21. 通过粗到细视觉处理提升文档解析效率和性能

Boosting Document Parsing Efficiency and Performance with Coarse-to-Fine Visual Processing

👥 Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu

🏛️ Baidu Inc., Xi’an Jiaotong University 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

文档理解OCR多模态学习

🎯 解决什么问题：文档解析需要高分辨率输入以保证细粒度精度，但这导致vision token数量呈二次增长，计算成本显著提升。现有方法要么依赖复杂pipeline导致误差传播，要么使用大规模VLM但在高分辨率文档上效率低下且容易产生幻觉和阅读顺序混乱。文档图像中存在大量冗余视觉区域（如背景），统一压缩会损害细粒度布局精度。

🔧 怎么做的：提出PaddleOCR-VL，采用coarse-to-fine两阶段架构。Coarse阶段：设计轻量级Valid Region Focus Module (VRFM)，基于RT-DETR扩展pointer network，执行布局检测、分类和阅读顺序预测，识别并定位有效视觉区域，过滤冗余背景。Fine阶段：设计紧凑的0.9B参数vision-language模型PaddleOCR-VL-0.9B，采用NaViT风格动态分辨率vision encoder和ERNIE-4.5-0.3B语言模型，对裁剪后的有效区域进行精细识别。构建包含30M+样本的高质量数据集，涵盖开源、合成、网络爬取和内部数据，采用自动标注pipeline和hard case mining策略。

✨ 核心贡献：

提出coarse-to-fine文档解析框架，将计算资源分配到语义相关区域并抑制冗余区域，实现高分辨率精度和计算效率的平衡
设计解耦的两阶段架构：VRFM执行轻量级布局检测和阅读顺序预测，PaddleOCR-VL-0.9B在有效区域内进行细粒度识别，允许各模块独立优化
在多个公开和内部benchmark上达到SOTA性能，支持109种语言，在文本、表格、公式、图表识别上表现优异，同时使用最少的vision token和参数

📊 效果：在OmniDocBench v1.5上，PaddleOCR-VL-L达到92.62总分（SOTA），使用2561 vision tokens，超过MinerU2.5的90.67（3256 tokens）。具体指标：Text-Edit distance 0.035（最低），Formula-CDM 90.90，Table-TEDS 90.48，Table-TEDS-S 94.19，Reading Order 0.043（均为最佳）。相比相似token数的DeepSeek-OCR-Gundam-M，整体指标高出6+分。

📝 点评：在文档解析任务上达到SOTA，架构设计新颖且有效解决效率问题，但创新主要在工程和数据层面，理论贡献相对有限

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Cui_Boosting_Document_Parsing_Efficiency_and_Performance_with_Coarse-to-Fine_Visual_Processing_CVPR_2026_paper.pdf

22. 面向真实世界文档解析：基于真实场景合成与文档感知训练

Towards Real-World Document Parsing via Realistic Scene Synthesis and Document-Aware Training

👥 Gengluo Li, Pengyuan Lyu, Chengquan Zhang, Huawen Shen, Liang Wu, Xingyu Wan

🏛️ 中科院信息工程研究所, 腾讯, 南开大学, 中国科学院大学, 南京理工大学 💎 推荐指数 ⭐⭐⭐⭐ (4/5)

文档理解/解析OCR多模态大模型(MLLM)

🎯 解决什么问题：端到端文档解析模型在真实世界拍摄的非标准、随意采集文档上常出现重复、幻觉和结构不一致的输出，主要源于大规模高质量整页端到端解析数据的稀缺和缺乏结构感知的训练策略。级联管线则依赖精确的版面分析，在真实场景下易发生误差传播。

🔧 怎么做的：提出数据-训练协同设计框架：在数据层面用Realistic Scene Synthesis将细粒度文档元素(表格、公式、段落、图)与576K版面模板组合，生成带阅读顺序的大规模合成数据DocMix-3M，并加入几何/光照/相机/环境扰动的capture-aware增强；在训练层面提出Document-Aware Training Recipe，包括从单元素到整页的渐进式课程学习(progressive training)和对结构token(如

)加权的structure-token-aware优化。最终集成于1B参数MLLM得到DocHumming模型。

✨ 核心贡献：

Realistic Scene Synthesis可扩展数据合成框架，统一细粒度元素与多样版面模板，支持结构多样性和多语言端到端解析数据生成
Document-Aware Training Recipe：渐进式学习策略+结构token感知损失加权优化，提升结构保真度与解码稳定性
构建Wild-OmniDocBench基准，将OmniDocBench人工转换为真实拍摄形态(折皱、光照、反光、摩尔纹)，评估真实场景鲁棒性

📊 效果：1B参数的DocHumming在Wild-OmniDocBench上取得最佳Overall 73.65和最低text-edit 0.17，并在XFUND达到F1 60.46，超越参数更大的GLM4.5V(106B)、Qwen2.5-VL(7B)及级联管线Dots.ocr/MonkeyOCR。消融显示DocMix-3M使OmniDocBench从73.42提升至81.71、Wild从60.18提升至70.31；数据增强、渐进训练和结构token优化(λ=2最优)均带来稳定增益。

📝 点评：数据合成、训练策略与新基准三者协同，方法实用且实验充分，以1B小模型超越大模型展现强工程价值，但技术新颖性主要在工程整合而非根本性突破。

🔗 论文 PDF

https://openaccess.thecvf.com/content/CVPR2026/papers/Li_Towards_Real-World_Document_Parsing_via_Realistic_Scene_Synthesis_and_Document-Aware_CVPR_2026_paper.pdf

以上为 CVPR 2026 文档智能与OCR方向全部 22 篇论文。想深入哪一篇，点开对应 PDF 链接即可。