Databricks OfficeQA 评测结果 —— 最强 AI Agent 在真实企业文档推理任务上准确率不足 45%

核心结论：当前最顶尖的大模型已经能在奥林匹克竞赛题、医学考试、法律资格测试中取得令人咋舌的高分。然而，在真实企业文档推理任务上，准确率不足 45%。面对最难的一批问题，准确率更跌破 25%。

学术基准 ≠ 企业就绪。OfficeQA 是 Databricks 专门设计的一个聚焦「接地气」推理（Grounded Reasoning）的开源基准测试。

https://github.com/databricks/officeqa

Databricks 采用美国财政部公报作为测试语料库，这批文档完美复刻了企业私有文档库的各类麻烦：

•跨越数十年的历史档案，早期版本为纸质扫描件

•包含大量复杂嵌套表格、合并单元格和非标准格式

•数据密集，包含超过 2,600 万个数值

•既有非结构化文本，又有大量表格数字，混合程度高

•公开可获取，确保评测透明、可复现

与此同时，Databricks 过滤掉了所有大模型依靠「自身记忆」或网络搜索就能回答的问题——必须真正检索文档，才能得到正确答案。

OfficeQA 的题目设计有三条核心原则：

•不考验专业壁垒（无需博士级别领域知识），而是考验精准度与细心度

•每题只有唯一正确答案，可被程序自动验证，无需人工判卷

•真实反映企业日常任务：文档检索 → 信息聚合 → 数值计算

人类专家解答每道题平均需要 50 分钟，这说明这些题目并不「简单」，而是需要大量的文档浏览与推理。

基准测试成绩总览

一句话总结：即便是当前最强的 Agent + 最顶尖的文档解析工具，面对这份基准仍然在 30%+ 的题目上答错。

Databricks 在评测过程中归纳了几类典型的 AI 失败模式：

•PDF 解析错误：复杂表格的合并单元格、嵌套列头会导致数值「串行」，被归到错误的列

•检索时间粒度混淆：将「财年」数据错当「日历年」数据，一个搞错，后续所有计算全部崩溃

•答案歧义处理不当：财务文档中同一数字有时存在不同口径的修订版本

•图表推理能力缺失：约 3% 的题目需要解读图表，几乎所有 Agent 都在此类题目上完全失败

这个测试对 AI 从业者的启示：

这是 OfficeQA 最直接的警示。企业在选型 AI 系统时，不能只看模型在 MMLU、HumanEval 等学术榜单上的排名，而应当用贴近自身业务场景的测试来验证实际能力。

评测数据显示，当加入专业文档解析工具（ai_parse_document）后，准确率有显著提升。这意味着「从 PDF 中正确提取信息」本身就是一个尚未被充分解决的工程问题，而不是 LLM 推理层面的问题。

OfficeQA 的题目设计（唯一数字答案、自动评分）使其天然适合用于强化学习训练数据。这与 DeepMind 用棋局胜负、OpenAI 用代码执行结果来训练模型的思路一脉相承。

3% 的题目因涉及图表而让所有 Agent 全军覆没——比例虽小，但在真实企业场景中，数据可视化无处不在。这是一个被严重低估的能力缺口。

总结

OfficeQA 的意义不仅在于「又一个AI 基准」，而在于它戳破了一个普遍存在的幻觉：AI 能考高分，不代表 AI 能干活。

Databricks 用这份开源基准告诉行业：

•真实企业文档中的推理，远比我们想象的更难

•文档解析质量是当前 AI 落地的主要瓶颈之一

•可验证的评测机制，是推动 AI 进步的重要基础设施