CiteVQA:衡量可信文档智能中的证据归因基准,戳破多模态大模型“归因幻觉”

CiteVQA: Benchmarking Evidence Attribution for Trustworthy
Document Intelligence
报告原文地址：https://arxiv.org/pdf/2605.12882

报告概述

上海人工智能实验室于2026年5月发布CiteVQA基准，首次将文档理解评测从单纯的答案准确率推向“答案+视觉证据”联合验证的新阶段。通过对20个主流多模态大模型（MLLM）的测试，报告揭示了普遍存在的“归因幻觉”：模型虽能输出正确答案，却常引用错误的文档区域。当前最优模型Gemini-3.1-Pro的严格归因准确率（SAA）仅为76.0%，而最强开源模型仅为22.5%，暴露出文档智能在高风险场景下的可靠性缺口。

核心洞察

“伪可信”风险：答案正确不再等同于系统可靠。在法律、金融等领域，模型若依据错误条文得出正确结论，其危害可能比直接答错更大，因为错误更难被察觉。
闭源与开源的断层：闭源模型在证据归因上占据绝对优势，但即便是最顶尖的模型也远未达到完美。开源模型则集体遭遇“归因悬崖”，SAA普遍低于25%，难以支撑严肃的商业部署。
检索是推理的前提：实验表明，当人为缩小搜索范围（提供正确页码或文档）时，模型表现显著提升。这说明目前的模型瓶颈往往不在于逻辑运算，而在于第一步的“找证据”就出了错。

一、为什么我们需要“看得懂证据”的AI？

长期以来，文档视觉问答（Doc-VQA）的评测就像只看考试分数的老师，只关心模型给出的答案对不对，却不管它是真学会了还是蒙对的。但在现实世界里，这种“黑盒”模式风险极高。

想象一下，一个医疗AI诊断患者患有某种疾病，答案是对的，但它引用的依据是病历里的无关段落，而不是关键的化验单。这种“归因幻觉”会导致医生无法复核，甚至产生误判。

为了解决这一问题，上海AI实验室推出了CiteVQA。与传统基准不同，它强制模型在回答时必须附带元素级（Element-level）的边界框（Bounding-box）引用，明确指出答案来自文档的哪个具体段落、表格或图片。

CiteVQA包含711份PDF文档，平均长度40.6页，覆盖7大领域。它填补了传统评测仅关注单页、缺乏细粒度证据标注的空白。

二、如何定义“靠谱”？

CiteVQA构建了包含1897个问题的数据集，并设计了一套严苛的评分体系。其核心指标是严格归因准确率（Strict Attributed Accuracy, SAA）。

SAA要求模型必须同时满足两个条件才算得分：答案正确且证据引用正确（IoU阈值≥0.5，或相关性评分≥4）。这就好比不仅要答对题，还要把解题步骤写对。

此外，评测还引入了召回率（Rec.）和相关性（Rel.）作为辅助指标，分别衡量模型能否找到关键证据，以及引用的证据是否真的能支持答案。

表1展示了CiteVQA与前代基准的对比。可以看出，它在证据粒度（细化到元素级）和联合评测机制上具有显著优势。

基准名称	文档数量	平均页数	证据粒度	联合评测
DocVQA	12,767	1.0	页面级	✗
MP-DocVQA	6,000	8.3	页面级	✗
MMLongBench-Doc	135	47.5	页面级	✗
CiteVQA (Ours)	711	40.6	元素级	✓

表1：CiteVQA与代表性Doc-VQA基准对比。传统基准多停留在页面级检索，而CiteVQA要求精确到具体的表格单元格或段落。

三、残酷的真相：20个模型的“大考”

研究团队测试了包括Gemini、GPT-5、Qwen-VL在内的20个主流模型。结果揭示了当前技术的真实水位。

1. 归因幻觉普遍存在

几乎所有模型都表现出“高分低能”的特征：答案准确率（Ans.）很高，但SAA得分大幅跳水。例如GPT-5.4的答案准确率达到87.1，但SAA仅为59.0。这意味着近三分之一的情况下，模型是在“瞎编”引用。

2. 闭源领跑，开源掉队

Gemini-3.1-Pro以76.0的SAA位居榜首，显示出其在长文档理解和空间定位上的优势。相比之下，即使是参数量巨大的开源模型（如Qwen3-VL-235B），SAA也仅为22.5，且小模型几乎全军覆没（SAA多低于10）。

3. 多文档是“拦路虎”

随着任务复杂度增加（从单文档到多文档多答案），所有模型的归因能力均出现断崖式下跌。这表明跨文档的证据关联和去重，是目前模型最大的短板。

图1c：主流模型在CiteVQA上的SAA得分。即便是顶尖模型，在需要精确引用证据的场景下，表现也远不如单纯的问答任务。

表3详细列出了各模型在不同场景下的表现。数据清晰地显示，开源模型在召回率（Rec.）上尤其薄弱，说明它们经常连正确的证据页都找不到。

模型	单文档 SAA	多文档(1金标) SAA	多文档(N金标) SAA	总体 SAA
Gemini-3.1-Pro-Preview	76.0	79.7	71.6	76.0
Gemini-3-Flash-Preview	69.3	61.8	60.5	65.4
GPT-5.4	61.7	56.9	55.1	59.0
Qwen3-VL-235B-A22B	25.0	21.6	17.8	22.5
Qwen3-VL-8B	8.8	6.8	5.2	7.5

表3：部分代表性模型在CiteVQA上的综合表现（节选）。分数均已归一化为百分制。SAA是衡量模型可信度的核心指标。

四、案例剖析：差之毫厘，谬以千里

通过具体案例，我们可以直观看到归因幻觉的危害。

在一个查询药品NDC编码的任务中，Qwen3-VL-235B虽然给出了完全正确的答案（Ans.=5），但其引用的截图要么是空白，要么是不相关的段落。按照SAA标准，这次预测得分为0。

而Gemini-3.1-Pro虽然引用略有偏移，但核心证据精准，获得了满分。

图7：案例对比。左侧模型答对了但引用错了（SAA=0）；右侧模型不仅答对了，引用也精准（SAA=1）。

五、局限与启示

尽管CiteVQA构建了一个自动化的高质量数据集，但仍存在局限。例如，极度专业的垂直领域（如特定法律条款解释）可能需要更精细的定义。此外，自动化评测的计算成本较高，限制了大规模复现。

对于行业而言，这一发现敲响了警钟。在金融审计、法律文书审查等对溯源要求极高的场景中，单纯依赖模型的答案是危险的。未来的应用架构可能需要引入“人工复核回路”，或者专门训练针对证据归因的增强模块。

结语：信任始于溯源

CiteVQA的价值不在于给模型排名，而在于重新定义了什么是“可信的AI”。答案正确只是表象，证据确凿才是本质。 对于开发者和企业来说，在追求更高准确率的同时，必须同步关注模型的归因能力。毕竟，在关键决策面前，一个能告诉你“我从哪里看到这个”的AI，远比一个只会自信回答的AI更有价值。