图文混合文档的轻量级多模态listwise重排框架:Rank-Nexus-夜雨聆风

图文混合文档的轻量级多模态listwise重排框架:Rank-Nexus

三种重排序范式的比较

本文介绍的方法Rank-Nexus将Listwise重排序扩展至多模态场景，联合处理文本段落和图像，生成排序。

定义：给定查询、第一阶段检索得到的候选文档集（文档可含文本/图像/图文混合），目标是学习排序函数，输出按查询相关性从高到低的文档排列。

采用CLIP获取图文对齐表征：

Rank-Nexus 方法

如上图，数据构造方面主要是蒸馏闭源模型和数据筛选策略：阶段1先从 Claude-4.5 中提炼多样多模态文档的成列表排序，生成包含相关性排序和解释的结构化输出。阶段2质量过滤通过 CLIP 得分阈值去除低置信度样本生成高质量的训练数据。

训练pipeline采用分模块训练方法（渐进式）：首先分别在文本和图像模态上进行训练，然后进行联合多模态微调。

VLM backbone：InternVL-3-2B、Qwen3-VL-2B，保证轻量与性能平衡。

解决文本重排的知识迁移与数据冗余问题：

实验发现：文本训练数据并非越多越好，存在收益递减：

1k→4k样本：性能大幅提升；
4k→10k样本：性能下降（冗余、噪声、过拟合）。最终仅选取4k高质量样本（为标准100k数据的7.5%），通过置信度过滤保留教师模型高置信度排序结果。

解决图像列表级重排数据极度稀缺的问题，基于MMDocIR基准构建数据，分三步：用CLIP计算查询-图像余弦相似度，过滤低相关样本，剔除噪声监督信号；使用贪婪最大多样性选择；图像数据蒸馏：用Claude-4.5-Haiku对每个查询的Top-20图像候选生成列表级重排标签。

完成文本、图像单模态训练后，做图文混合文档联合微调：

各阶段输出（Prompt控制）：

When Vision Meets Texts in Listwise Reranking，https://arxiv.org/pdf/2601.20623