CiteVQA:可信文档智能的证据归因基准测试

CiteVQA: Benchmarking Evidence Attribution for Trustworthy

Document Intelligence

报告原文地址：https://arxiv.org/pdf/2605.12882

报告概述

上海人工智能实验室于2026年5月发布CiteVQA基准测试，首次将文档理解的评估标准从“答案对错”升级为“答案+证据溯源”双重验证。通过对20个主流多模态大模型（MLLM）在1897个问题上的测试，研究发现模型普遍存在“归因幻觉”：即便给出正确答案，也可能引用完全错误的文档区域。当前最强模型Gemini-3.1-Pro的联合准确率仅为76.0%，而开源模型最高仅22.5%，暴露出高风险领域应用的可靠性缺口。

核心洞察

“答对题但抄错笔记”是行业通病：现有评测只关注最终答案，掩盖了模型推理过程的致命缺陷。在法律、医疗等场景，引用来源错误比答案错误更具隐蔽性和破坏性。

开源模型与闭源差距拉大：在证据溯源任务上，开源模型表现出现断崖式下跌，最高SAA不足25%。这意味着企业若直接使用开源模型处理专业文档，风险极高。

多文档场景是落地瓶颈：当需要从多个文件中交叉验证信息时，即便是顶尖模型，其定位证据的召回率也会骤降超过13个百分点。

一、为什么我们需要“带证据”的问答？

现在的AI看文档，很像考试时只写答案不写解题过程的“蒙题党”。以往评测Doc-VQA（文档视觉问答）只看答案匹不匹配，导致一个怪象：模型可能靠预训练里的常识“猜”对了答案，或者引用了完全不相关的段落却得出了正确结论。

这在刷短视频、查百科时问题不大，但在金融审计、法律文书、临床诊疗中，这种“黑盒推理”是不可接受的。你必须知道AI的结论是从哪一页、哪一段、哪张表里抠出来的。

为此，上海AI实验室推出了CiteVQA。它不再只问“答案是什么”，而是强制要求模型在回答时，必须附带元素级（Element-level）的边界框（Bounding-box）引用——就像你在论文里标注参考文献的页码和段落一样精确。

图：CiteVQA的数据集构成。涵盖7大领域、711份PDF，平均每份文档长达40.6页，模拟真实世界的复杂阅读场景。

为了构建这个高难度数据集，研究团队设计了一套自动化流水线。他们从超过1亿份PDF中筛选出711份高质量文档，利用“掩码消融”技术自动识别关键证据：如果把某个段落遮住，模型就答不对题，那这个段落就是必须引用的“关键证据”。

二、残酷的测试结果：归因幻觉

CiteVQA引入了一个核心指标：严格归因准确率（Strict Attributed Accuracy, SAA）。只有当你答案正确且引用的证据区域也完全正确时，才算得分。

测试结果令人警醒。在对20个主流模型的全面“体检”中，几乎所有模型都表现出严重的“归因幻觉”。

表：主流MLLM在CiteVQA上的表现（Overall SAA）

模型类别	代表模型	SAA得分	答案准确率(Ans.)	关键证据召回率(Rec.)
闭源SOTA	Gemini-3.1-Pro-Preview	76.0	86.1	66.0
闭源第二梯队	GPT-5.4	59.0	87.1	31.0
开源最强	Qwen3-VL-235B-A22B	22.5	72.3	11.3
开源小模型	Qwen3-VL-8B	7.5	61.2	1.0

表：CiteVQA综合评估结果（100分制）。数据表明，模型往往在“写出正确答案”上表现尚可，但在“指出答案在哪”上表现糟糕。例如GPT-5.4虽然答案准确率高，但因找不到证据，SAA被大幅拉低。

案例解析：

在一个查询药品NDC编码的任务中，Qwen3-VL-235B虽然给出了完全正确的编码（Ans.=5），但由于它引用的截图区域完全不包含这些信息（Rec.=0），最终SAA得分为0。这证明模型只是在“背诵”知识，而非“阅读”文档。

图：典型案例对比。左侧模型答案全对但引用错误（SAA=0）；右侧模型答案和引用均正确（SAA=1）。

1. 多文档是“照妖镜”

任务越复杂，模型的“幻觉”越严重。在单文档任务中，Gemini-3.1-Pro还能保持68.9的召回率；但当面对需要从多个文件中找线索的“多金文档（Multi N-Gold）”场景时，其召回率暴跌至55.3。

这意味着，目前的AI在处理投行研报对比、竞品分析等需要跨文档整合信息的任务时，极其容易“张冠李戴”。

2. 分辨率决定生死

实验还发现，证据定位对图像清晰度极度敏感。将输入分辨率减半，SAA分数会直接腰斩（从22.5降至11.8）。这说明低质量的扫描件或压缩过度的图片，会直接导致AI“指鹿为马”。

三、不仅仅是评测，更是改进方向

虽然现状严峻，但研究也带来了积极的信号。当研究人员人为缩小模型的搜索范围（例如直接告诉它“答案在第5页”），所有模型的准确率都显著上升。这表明，提升模型的“检索定位能力”，可能是解锁其深层推理潜力的关键。

此外，研究还发现，随着证据质量的提升，答案准确率也呈现正相关。也就是说，强迫模型“引经据典”，反而能让它变得更聪明。

表：缩小搜索空间对性能的提升（Ablation Study）

模型	基础设置 (SAA)	仅提供GT页面 (SAA)	提升幅度
Qwen3.5-27B	73.1	81.6	+8.5
Qwen3-VL-8B	53.3	66.7	+13.4

表：消融实验结果。当直接提供包含答案的正确文档或页面时，即使是小模型，性能也能大幅提升，证明“找得到”是“答得对”的前提。

结语：信任建立在可追溯之上

CiteVQA的发布给火热的“文档智能”赛道泼了一盆冷水，但也指明了方向。对于普通用户，在使用AI处理合同、财报等重要文件时，务必人工核对其引用的原文片段，不要轻信单纯的文本回复。对于行业，这意味着未来的竞争焦点将从“参数规模”转向“溯源精度”。一个能在长文档中精准“指路”的模型，远比一个只会“侃侃而谈”的模型更有商业价值。