字节跳动研究发现:对于长文档训练,向多模态大模型提问比让它转录文本更有效-夜雨聆风

字节跳动研究发现:对于长文档训练,向多模态大模型提问比让它转录文本更有效

多模态AI模型被期望能处理越来越长的文档，但如何训练它们做到这一点通常是商业机密。一项新研究表明，将字符识别作为训练任务实际上会损害模型性能，而使用问答对的效果要好得多。

来自字节跳动种子团队和香港科技大学的研究人员研究了如何高效地训练图像-语言模型处理长文档。其成果是一个基于阿里巴巴开源 Qwen2.5-VL 构建的名为 MMProLong 的模型，该模型击败了比它大得多的竞争对手。

现代多模态AI模型需要处理不断增长的输入：整个PDF页面集合、数小时的视频，或者能在多个步骤中记住任务的智能体。OpenAI、谷歌和阿里巴巴等AI实验室宣传其上下文窗口高达100万token，不仅能容纳文本，还能容纳数千个页面图像或视频帧。但论文作者指出，技术报告几乎没有透露模型应该看到哪些数据以及以何种比例组合。

提问比文字转录教得更多

乍看之下，这项研究的核心发现似乎显而易见。对于一个要学习在100页文档中找到正确位置的多模态模型来说，让它转录每一页的文字几乎没有帮助。更有效的方法是提出答案隐藏在文档某处的问题。

研究人员对这两种方法进行了直接对比测试。在一种设置中，模型要么对整个文档的所有页面进行文本识别，要么对选定的几个页面进行识别，而其余页面则作为干扰项保留在上下文中。

在另一种设置中，研究人员使用另一个模型（字节跳动的 Seed 2.0）为文档的各个部分生成问答对。随后，这些问题与整个文档一起用于训练，迫使模型在长上下文中定位相关段落。

将纯文本识别作为训练任务，实际上导致模型性能相比起点下降。而问答训练则带来了明显的提升。只有当模型带着特定目标去筛选和分类信息时，它才能真正学会在长文本中导航。

多样性胜过专门化

实验中还发现了另外三点发现：

1. 主要向模型提供处于上下文窗口极限的极长文档并不值得。混合使用更多短和长的样例效果更可靠。长上下文能力并非绑定于特定长度的技能，而是需要能在不同距离间灵活搜索。

2. 真正的瓶颈实际上是找到相关段落，而不是对其进行推理。偏向提取任务（并辅以少量计算任务）的训练混合方式效果最佳。

3. 第三个发现令人惊讶，因为它与纯文本语言模型的常见做法相悖：添加短训练样例似乎并非绝对必要。即使仅用长问答数据进行训练，模型也基本保持了其处理短任务的能力。数据格式本身可能起到了作用：即使上下文很长，任务仍然是以熟悉的指令遵循格式呈现为问答交互。

体积小，但在512,000个token内保持稳定

凭借这套方法和相当适中的训练预算，MMProLong 击败了 InternVL3-38B 和 Gemma3-27B 等几个大得多的开源模型。该模型仅用128,000个token进行训练，但在256,000甚至512,000个token的输入长度下仍能保持稳定，而原始模型在这些长度下性能会急剧下降。

这种能力也能迁移到模型从未专门训练过的任务上，例如理解长视频。在一个额外的迁移实验中，这套方法在更强大的 Qwen3-VL-8B 模型上也证明是有效的，尽管该模型本身已为长上下文构建。

这项研究也很有趣，因为它来自一个与 Deepseek 在该问题上被广泛讨论的工作完全不同的阵营。Deepseek 试图通过将文本作为图像处理并进行大量压缩来扩展AI模型的长期记忆。而字节跳动种子团队则采取了相反的方法：优化训练数据，而不是模型架构。