为什么读取PDF这么难
原链接:https://www.llamaindex.ai/blog/why-reading-pdfs-is-hard"
每一个 AI 智能体最终都会撞上同一堵墙:它需要读取 PDF。RAG 管线、深度研究智能体、接触企业数据的编码智能体——它们都需要摄入文档,而这些文档绝大多数都是 PDF。问题在于,PDF 从未被设计为机器可读的格式。
这种格式直接脱胎于 PostScript——Adobe 于 1982 年创建的页面描述语言。PostScript 告诉打印机画什么、画在哪里。PDF(1993 年)保留了相同的成像模型,但去掉了编程构造:一个页面就是一系列在特定坐标处渲染图形的操作符。HTML 有 <h1>、<table>、<p>——这些声明文档结构的语义标签;而 PDF 只会说"用这个字体程序在坐标 (72, 740) 处渲染这些字形轮廓。"它不存储字母或字符串。它存储的是矢量曲线的绘制指令——这些曲线渲染后恰好看起来像文本——而且根据 PDF 的来源不同,字体可能被错误标记,字形可能与你预期的字符不对应,你在屏幕上看到的内容可能根本无法还原为文本。
PDF 描述的是页面的外观,而非其含义。 仅此一点,就是一切 PDF 解析问题的根源所在。
你看到的 vs. PDF 中存储的
PDF 中的文本是字形,而非字符
你所看到的流畅文本,实际上是内容流中的一系列绘制命令,夹在 BT(Begin Text)和 ET(End Text)操作符之间,每个片段都定位在绝对的 x、y 坐标上。
上图展示了短语 "The quick brown fox jumps over the lazy dog." 在 PDF 中可能被存储的方式。
单词之间的空格并不作为实际的空格字符存储——间距隐含在 x 坐标的跳跃中,解析器需要通过字体度量来推断单词边界。TJ 操作符使这一问题更加复杂:它包含以千分之一文本空间单位为单位的逐字形字距调整([(A) 120 (W) 120 (A) 95 (Y)] TJ),解析器必须判断每个数值间距代表的是字距调整还是单词边界。没有标准答案;这取决于字体、PDF 生成器,有时甚至只是运气。
此外,Tj 字符串中的字节并不是 Unicode。它们是通过 CMap(字符映射表)经字体特定编码映射的字符代码。如果字体包含正确的 /ToUnicode CMap,解析器可以将代码映射回可读字符。但如果不是——这在字体子集化中经常发生,PDF 只嵌入其使用的字形并为它们分配任意 ID——没有 OCR 就无法恢复文本。
这就意味着,有时你从 PDF 中复制文本并粘贴后,得到的可能是 (cid:38)(cid:76)(cid:81)(cid:68)(cid:81) 或一串错误的字符,而不是你在屏幕上清晰看到的文字。PDF 渲染得很完美,因为渲染器直接绘制字形轮廓——它不需要 Unicode 就能绘制形状。但任何尝试提取实际文本的解析器都无能为力。
大多数真实世界的 PDF 中根本没有"表格"的概念
PDF 规范(ISO 32000)在技术上定义了一种通过"Tagged PDF"(下文详述)实现结构化布局原语(包括表格)的方式。但绝大多数真实世界的 PDF 中完全不包含这些结构。你所看到的表格,实际上是两组完全独立的绘制操作:用路径操作符(m 表示 moveto、l 表示 lineto、re 表示矩形、S 表示描边)绘制的网格线,以及用 BT/ET + Tj 放置在 x、y 坐标处的单元格文本。线条与文本之间没有任何语义关联:
解析器必须检测线段,找到交叉点来推断单元格边界,然后通过空间包含关系将文本关联到单元格。一位测试了 12 款"同类最佳"PDF 表格提取工具的从业者将结果描述为["令人触目惊心。"](https://medium.com/@kramermark/i-tested-12-best-in-class-pdf-table-extraction-tools-and-the-results-were-appalling-f8a9991d972e ""令人触目惊心。"")而且许多表格甚至没有网格线——它们是纯靠空白对齐的文本,没有任何线条,这使得表格检测变成了纯粹视觉模式识别问题。
你看到的表格 vs. PDF 中存储的
图表面临完全相同的问题。柱状图是用 re + f(填充)绘制的彩色矩形,折线图是路径段(m + l),坐标轴标签只是附近的文本坐标。没有"图表"对象,没有数据序列的元数据。解析器看到的只是彩色形状,必须推断它们代表什么。
阅读顺序是一种猜测
内容流中操作符的顺序与视觉阅读顺序之间没有任何保证关系。
双栏布局可能先存储第二栏再存储第一栏,可能交错混合两栏的字符,也可能最后才绘制页眉。PDF 生成器按照适合其管线的任意顺序写入内容:模板层最后写入,文本按字体分组以最小化字体切换开销,背景元素先于前景元素。重建阅读顺序需要提取所有文本及其位置,将字符聚类为单词、单词聚类为行、行聚类为栏,然后确定正确的顺序。每一步都基于启发式方法。
Tagged PDF(在 PDF 1.4 中引入)本应解决这个问题。它在顶层添加了语义结构标签,如 <Table>、<P>、<H1>,并定义了逻辑阅读顺序——这也是上文提到的表格原语的来源。但标签完全是可选的,大多数真实世界的 PDF 都不包含它。它的存在主要是为了满足无障碍合规要求(ADA、Section 508),即使是 Acrobat 等工具自动生成的标签,在面对复杂布局时也经常出错。这个特性存在于规范中,但对于解析你在实际场景中遇到的大多数文档来说,实际上毫无用处。
阅读顺序 vs. 内容流顺序
七十年的文档读取探索
自 20 世纪 50 年代以来,人们一直在构建文档读取机器。David Shepard 于 1951 年在自家阁楼中建造了"Gismo",这台机器能够以约 90% 的准确率识别打字机字母。美国邮政局在 20 世纪 60 年代部署了 OCR 用于自动邮件分拣。Raymond Kurzweil 于 1976 年发布了第一款全字体 OCR——Kurzweil 阅读机[1],这是一款面向视障读者的印刷品转语音设备。Stevie Wonder 是首批购买者之一。
文档解析的整体发展脉络可分为两个时代:基于管线的方法——将专门化的阶段串联起来,以及基于模型的方法——尝试整体理解页面。
管线时代
最早的基于管线的方法建立在启发式算法之上:对图像进行二值化、查找连通分量、分割字符、逐一识别、应用字典纠错。Tesseract[2] 于 20 世纪 80 年代在 HP 实验室开发,2006 年由 Google 开源,成为大多数开源 OCR 的基石。
机器学习和深度学习的出现意味着从 2015 年左右开始,可以用专用模型替换管线中的各个组件。基于 CNN 的文本检测模型(EAST[3]、CRAFT[4])取代了手工调优的启发式方法来定位文本区域。CRNN 架构[5]带来了序列级识别能力,可以识别整行文本而无需逐个分割字符。Tesseract 4 引入了 LSTM 网络。在清洁文档上,文本识别准确率确实达到了令人满意的水平。Amazon Textract(2019 年)、Google Document AI、Azure Form Recognizer 等 Cloud API 将这一方法产品化。一个围绕 ABBYY、Kofax(现为 Tungsten Automation)等公司形成的数十亿美元的 IDP(智能文档处理)产业由此崛起。
这些系统在清洁、结构化的文档上表现良好,但由于它们主要基于刚性管线和高度专化的 ML 模型,在处理复杂布局的文档或任何超出训练数据分布的文档时就会失败。企业界的应对方案是针对每种文档类型训练模板,但这种方法需要持续训练,无法轻松扩展到数千甚至数百万种不同的文档类型。
模型时代
端到端模型的发展带来了通过同时推理文本、布局和视觉信息——而非分阶段处理——来一次性解析文档的可能性。微软的 LayoutLM[6] 系列(2020-2022)是这方面的早期工作,在文本、视觉特征和二维空间位置上进行了联合预训练。近年来,前沿实验室的专有 VLM 在多样化的数据分布上展现了强大的文档理解能力。GPT-4V 于 2023 年底发布,随后是 Gemini 1.0、Claude 3 等视觉能力不断增强的模型。这引发了人们的认识:通过"直接截图发给 VLM"就能完成文档解析。
管线方法 vs. 模型方法在文档解析中的对比
"直接截图"无法规模化
如今,Gemini 3 Pro、Opus 4.6、GPT-5.2 等前沿 VLM 已经可以通过截图读取 PDF。虽然它们的单次文档理解准确率相当高,但在大量生产任务中,其性能仍不够理想。
我们在《LLM API 不是完整的文档解析器》[7]一文中对此进行了详细讨论。概括来说:每一页都要消耗视觉 token(包括那些根本不需要视觉处理的纯文本页面),视觉模型在信息密集的内容上仍然会产生幻觉(数字颠倒、凭空捏造否定词、跳过表格行),你无法获得元数据(没有用于审计追踪的边界框、置信度分数或来源引用),而速率限制使其在企业规模下不切实际。
文本提取 + 视觉 = 正确的架构
正确的方法是将两者结合,让各自发挥所长。这看起来与之前的基于管线的方法类似,只是底层组件的泛化准确率要高得多。
从 PDF 二进制文件中提取文本可以获得原始字符、字体信息和近似位置——快速、廉价,对于大多数标准文本内容来说是可靠的。这些信息可以输入 LLM 来重建逻辑阅读顺序。
与此同时,VLM 处理视觉上复杂的区域:复杂错位或非标准表格、需要解读坐标轴标签的无标注图表、手写批注。布局检测模型将每个页面分割为这些元素,并在解析后的元数据中包含精细的边界框,使智能体构建者能够将任何 LLM 生成的答案追溯到源文档中的视觉引用。
这就是我们正在用 LlamaParse[8] 构建的东西。这种组合方法在准确率和成本上都超越了纯截图方法,因为对于大部分内容,你获得了文本提取的低成本可靠性;而在真正需要的地方,你又拥有视觉模型的空间推理能力。
PDF 包含了互联网上一些最高质量的书面内容,而且它们不会消失——仅 Common Crawl 就包含大约 13 亿个 PDF 文件。AI 智能体需要可靠地大规模读取这些文件,而要做好这一点,就意味着要理解为什么这种格式从一开始就如此困难。
Kurzweil 阅读机: https://en.wikipedia.org/wiki/Kurzweil_Reading_Machine
[2]Tesseract: https://github.com/tesseract-ocr/tesseract
[3]EAST: https://arxiv.org/abs/1704.03155
[4]CRAFT: https://arxiv.org/abs/1904.01941
[5]CRNN 架构: https://arxiv.org/abs/1507.05717
[6]LayoutLM: https://arxiv.org/abs/1912.13318
[7]《LLM API 不是完整的文档解析器》: https://www.llamaindex.ai/blog/llm-apis-are-not-complete-document-parsers
[8]LlamaParse: https://www.llamaindex.ai/
夜雨聆风