文档多模态RAG思路MoDora及多摸态预训练的两个影响因素探究-夜雨聆风

文档多模态RAG思路MoDora及多摸态预训练的两个影响因素探究

今天是2026年3月6日，星期五，北京，天气晴

来看多模态RAG进展，文档多模态问答思路MoDora。

另一个是多摸态预训练的影响探究，两个探究性结论。

多看，多思考，会有收获。

一、多摸态预训练的两个影响因素探究

来看经验，《Beyond Language Modeling: An Exploration of Multimodal Pretraining》(https://arxiv.org/abs/2603.03276)，探究了视觉表征、数据构成等关键维度对多模态预训练的影响。看亮点

1、视觉表征影响

对比了VAE（SD-VAE/FLUX.1）、语义编码器（RAE，如SigLIP2/DINOv2）、原始像素三类视觉表征，核心发现：

首先，RAE（SigLIP2）性能最优，在视觉理解（VQA）和生成（DPGBench/GenEval）上均超越VAE，且保持与纯文本基线相当的文本困惑度，实现单编码器兼顾两大任务，简化模型设计；

其次，原始像素有潜力，VQA性能与RAE差距较小，仅生成质量偏低，是未来研究的重要方向；

最后，VAE存在局限，低维潜空间导致视觉理解能力弱，且缩放时损失易饱和，不如RAE适配多模态缩放。

2、不同数据混合对模型性能的影响

不同数据混合物对模型性能的影响，核心结论如下：

首先，视觉数据不干扰语言性能。纯视频数据与语言建模兼容，甚至能降低文本困惑度；图文对导致的文本性能下降源于文本分布偏移，非视觉模态本身；

其次，图文对是视觉能力的核心，无图文对则模型无视觉生成/理解能力，不同图文源（MetaCLIP/Shutterstock）有互补性，组合使用可兼顾文本性能和视觉能力。

最后，多模态共训练产生强协同效应。语言对视觉有增益：文本令牌能提升视觉生成质量，因生成任务为文本条件；泛化预训练优于专属数据缩放：20BVQA数据+80B通用多模态数据，VQA准确率超100B纯VQA数据模型，提升约3-4个百分点；多模态预训练后，VQA性能较纯文本预训练模型提升5-10个百分点（不同编码器）。

二、文档多模态RAG问答思路MoDora

来看文档多模态问答进展，讲的是基于树结构的半结构化文档分析思路。

所谓的半结构化文档，几个特征：融合表格、图表、层级段落等多类元素，布局不规则，广泛应用于科研报告、财务报表等领域，超77%的真实文档包含表格/图表/段落标题，61%含表格、40%含图表。

然后现有方案如内容容提取法丢失结构信息、结构提取法缺乏细粒度建模、端到端模型易忽略布局关系、RAG方法存在证据错位等，所以搞个新方案。

《MoDora: Tree-Based Semi-Structured Document Analysis System》，https://arxiv.org/pdf/2602.23061，https://github.com/weAIDB/MoDora，核心思路包括文档档预处理、树构建、基于树的文档分析几个部分。

1、文档预处理

将原始输出转化为结构化组件。

有以下几个点：

一个是局部对齐聚合策略：通过文本、表格/图表、补充元素三类聚合规则，将OCR元素分组为布局感知组件；

一个是格式感知层级检测：结合标题文本与视觉特征，通过MLLM识别标题层级，确定组件的嵌套关系；

一个是模板化信息富集：为表格/图表等非文本组件生成(title,metadata,data)语义三元组，补充属性信息；

2、组件关联树（CCTree）构建

这一步实现文档的层级化表示，捕捉组件间关系与布局差异，核心是这棵树的设计：节点代表文档组件，扩展唯一索引和子节点属性；边代表三类组件关系（文本-文本、文本-非文本、独立补充元素）；

构建方式上，包括两阶段：

先基于阅读顺序、标题层级构建主内容分支，再将补充元素作为独立分支挂载至虚拟根节点；

然后进行自底向上元数据总结，从叶节点开始，通过信息衰减公式生成节点元数据（关键词）并向上传播；

3、基于树结构的文档问答

这一步是基于CCTree做问题类型感知检索与答案生成，具体的：

首先，进行问题解析，提取问题中的语义、位置线索，确定检索类型；

其次，进行双检索，位置类问题采用3×3网格划分匹配组件空间位置，语义类问题采用LLM引导选择+嵌入搜索回退+MLLM反向验证的迭代检索，如下图：

其中：模型使用Qwen3-VL-8B-instruct。

最后是证据聚合与答案生成，整合文本证据、位置证据、层级信息，输入MLLM生成最终答案。

参考文献

1、https://arxiv.org/pdf/2602.23061

2、https://arxiv.org/abs/2603.03276

关于我们

老刘，NLP开源爱好者与践行者，主页：https://liuhuanyong.github.io。

对大模型&知识图谱&RAG&文档理解感兴趣，并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的，欢迎加入社区，社区持续纳新。

加入社区方式：关注公众号，在后台菜单栏中点击会员社区加入。

文档多模态RAG思路MoDora及多摸态预训练的两个影响因素探究

一、多摸态预训练的两个影响因素探究

二、文档多模态RAG问答思路MoDora

参考文献

关于我们

wang

猜你喜欢

评论抢沙发

一、多摸态预训练的两个影响因素探究

二、文档多模态RAG问答思路MoDora

参考文献

关于我们

wang

猜你喜欢

评论 抢沙发

评论抢沙发