乐于分享
好东西不私藏

Databricks OfficeQA 评测结果 —— 最强 AI Agent 在真实企业文档推理任务上准确率不足 45%

Databricks OfficeQA 评测结果 —— 最强 AI Agent 在真实企业文档推理任务上准确率不足 45%

核心结论:当前最顶尖的大模型已经能在奥林匹克竞赛题、医学考试、法律资格测试中取得令人咋舌的高分。然而,在真实企业文档推理任务上,准确率不足 45%。面对最难的一批问题,准确率更跌破 25%

学术基准 ≠ 企业就绪。OfficeQA 是 Databricks 专门设计的一个聚焦「接地气」推理(Grounded Reasoning)的开源基准测试。

https://github.com/databricks/officeqa

Databricks 采用美国财政部公报作为测试语料库,这批文档完美复刻了企业私有文档库的各类麻烦

跨越数十年的历史档案,早期版本为纸质扫描件

包含大量复杂嵌套表格、合并单元格和非标准格式

数据密集,包含超过 2,600 万个数值

既有非结构化文本,又有大量表格数字,混合程度高

公开可获取,确保评测透明、可复现

与此同时,Databricks 过滤掉了所有大模型依靠「自身记忆」或网络搜索就能回答的问题——必须真正检索文档,才能得到正确答案。

OfficeQA 的题目设计有三条核心原则:

不考验专业壁垒(无需博士级别领域知识),而是考验精准度与细心度

每题只有唯一正确答案,可被程序自动验证,无需人工判卷

真实反映企业日常任务:文档检索 → 信息聚合 → 数值计算

人类专家解答每道题平均需要 50 分钟,这说明这些题目并不「简单」,而是需要大量的文档浏览与推理。

基准测试成绩总览

测试对象

全题准确率

Hard 难度准确率

无文档(纯参数记忆)

~2%

~2%

GPT-5.1 AgentFile Search

43.5%

<25%

Claude Opus 4.5 AgentSDK

37.4%

<25%

加入 ai_parse_document 后(最强)

<70%

~40%

一句话总结:即便是当前最强的 Agent + 最顶尖的文档解析工具,面对这份基准仍然在 30%+ 的题目上答错。

Databricks 在评测过程中归纳了几类典型的 AI 失败模式:

PDF 解析错误:复杂表格的合并单元格、嵌套列头会导致数值「串行」,被归到错误的列

检索时间粒度混淆:将「财年」数据错当「日历年」数据,一个搞错,后续所有计算全部崩溃

答案歧义处理不当:财务文档中同一数字有时存在不同口径的修订版本

图表推理能力缺失:约 3% 的题目需要解读图表,几乎所有 Agent 都在此类题目上完全失败

这个测试对 AI 从业者的启示:

1. 学术基准高分 ≠ 业务价值

这是 OfficeQA 最直接的警示。企业在选型 AI 系统时,不能只看模型在 MMLUHumanEval 等学术榜单上的排名,而应当用贴近自身业务场景的测试来验证实际能力。

2. 文档解析仍是 AI 落地的关键瓶颈

评测数据显示,当加入专业文档解析工具(ai_parse_document)后,准确率有显著提升。这意味着「从 PDF 中正确提取信息」本身就是一个尚未被充分解决的工程问题,而不是 LLM 推理层面的问题。

3. 可验证答案是 RL 训练的金矿

OfficeQA 的题目设计(唯一数字答案、自动评分)使其天然适合用于强化学习训练数据。这与 DeepMind 用棋局胜负、OpenAI 用代码执行结果来训练模型的思路一脉相承。

4. 图表理解是下一个主战场

3% 的题目因涉及图表而让所有 Agent 全军覆没——比例虽小,但在真实企业场景中,数据可视化无处不在。这是一个被严重低估的能力缺口。

总结

OfficeQA 的意义不仅在于「又一个AI 基准」,而在于它戳破了一个普遍存在的幻觉:AI 能考高分,不代表 AI 能干活。

Databricks 用这份开源基准告诉行业:

真实企业文档中的推理,远比我们想象的更难

文档解析质量是当前 AI 落地的主要瓶颈之一

可验证的评测机制,是推动 AI 进步的重要基础设施