PDF不是简单转文字:可信知识库如何处理复杂文档?

在企业知识库建设中，PDF 是最常见、也是最容易被低估的一类资料。

合同、制度、财报、招投标文件、检测报告、产品手册、技术方案、科研论文，大量企业知识都以 PDF 形式存在。很多系统会把 PDF 处理理解为“把文字抽出来”，再切分、向量化、入库。

但在真实落地中，PDF 往往不是一段连续文本，而是由文字、表格、图片、图表、版式结构和上下文关系共同组成的复杂文档。

如果只是简单转文字，就容易出现这些问题：

表格被拆乱，行列关系丢失；

图片、架构图、流程图没有进入知识库；多栏排版导致阅读顺序错乱；

多栏排版导致阅读顺序错乱；

扫描件 OCR 后文字可读，但结构不可用；图注、表注、页码、章节标题和正文关系被切断；

系统能回答一部分问题，却说不清依据来自哪一页、哪张图、哪张表。

因此，在可信知识库中，PDF 处理不是一个简单的格式转换问题，而是整个知识入库流程的关键入口。

我们团队的方案，不是把 PDF 粗暴转成纯文本，而是将 PDF 中的不同内容拆解成可管理、可理解、可检索、可追溯的知识单元。

复杂PDF的核心问题：信息不只在文字里

企业 PDF 的难点在于，它经常是图文表混合的：

一份检测报告中，正文给出结论，表格记录检测指标，图片展示检测对象，签章页决定报告有效性。

一份技术方案中，正文描述功能，架构图说明模块关系，流程图体现业务逻辑，参数表列出接口信息。

一份财务报告中，正文解释经营变化，表格承载核心数据，图表展示趋势，脚注说明统计口径。

这些信息并不能简单压缩成一段文本。

用户提问时，也往往不是只问某句话，而是希望系统综合理解文档结构。例如：

“这份报告哪些指标不达标？”

“该方案的系统架构包括哪些模块？”

“付款节点分别对应什么条件？”

“图中的流程和正文描述是否一致？”

这些问题要求系统理解 PDF 里的结构关系，而不仅是检索相似文字。

我们的总体思路：先拆解，再理解，最后入库

我们团队的 PDF 处理方案采用一条面向可信知识库的处理管线：

PDF输入 → 页面解析 → 版面结构识别 → 图片/表格提取 → VLM多模态理解 → 结构化结果生成 → 知识库入库

这条链路的核心思想是：

不要一开始就把 PDF 压扁成纯文本，而是先识别页面中的不同内容类型，再分别处理。

文字区域进入文本解析流程；

表格区域进入表格结构化流程；

图片、图表、流程图进入视觉理解流程；

扫描件先进行 OCR、方向识别和页面矫正；

最终结果统一转换为可检索、可引用、可追溯的知识内容。

这样处理后，PDF 不再是一个“大文件”，而是被拆解为多个知识单元：一段正文、一张表格、一张架构图、一个检测结果、一条结论说明，都可以独立管理和检索。

页面解析：先恢复PDF的阅读结构

PDF 进入系统后，第一步不是直接抽文字，而是做页面解析和版面结构识别。

这一阶段主要解决几个问题：

页面是否为扫描件；

文字方向是否正常；

是否存在倾斜、变形、低清晰度等问题；

页面中哪些区域是标题、正文、表格、图片、页眉页脚；

不同内容块之间的阅读顺序是什么。

这一步非常关键：

如果一份 PDF 是双栏排版，系统必须知道先读左栏还是右栏；

如果一页中同时有正文和表格，系统必须知道表格不能被当成普通段落；

如果每页都有页眉页脚，系统也要避免把重复内容反复写入知识库。

因此，页面解析的目标不是单纯提高 OCR 准确率，而是恢复 PDF 的阅读逻辑和版面结构。

图片和表格：单独提取，而不是直接丢掉

在很多企业 PDF 中，图片和表格往往承载高价值信息。例如架构图、流程图、趋势图、检测图片、参数表、指标表、对比表等。

如果这些内容没有被提取和理解，知识库就会丢失大量关键信息。

我们的方案会将 PDF 中识别出的图片、图表和表格区域单独导出，形成独立文件。

一个 PDF 处理后，可以形成类似这样的中间结果：

output/
demo_pdf/
images/
image_001.png
image_002.png
tables/
table_001.png
table_001.html
table_002.png
table_002.html
vlm_results/
image_001.json
table_001.json
summary.md

其中：

images/ 保存图片、流程图、架构图、趋势图等；

tables/ 保存表格截图、HTML、Excel 或 Markdown 结果；

vlm_results/ 保存视觉语言模型对图片和表格的理解结果；

summary.md 汇总最终结构化文本。

这样做有两个好处：

一是便于后续多模态理解。

图片和表格被独立保存后，可以直接交给 VLM 分析，而不是混在整页截图中。

二是便于可信追溯。
每一个图片、表格文件都可以绑定原始 PDF、页码、内容类型和处理结果，后续回答时可以定位到具体依据。

VLM理解：把看得见的内容变成可检索的知识

图片和表格被提取出来后，还不能直接算作知识入库完成。因为知识库主要依靠文本和结构化信息进行检索。如果只是保存图片文件，但没有生成语义描述，用户仍然很难通过自然语言找到它。

因此，我们会进一步使用 VLM，也就是视觉语言模型，对图片、图表和表格进行语义理解。

对于图片或图表，系统需要生成：

这张图展示了什么；

有哪些关键对象、模块或流程；

各部分之间是什么关系；

图中是否包含可用于问答的关键信息。

对于表格，系统需要生成：

这张表的主题是什么；

主要字段有哪些；

行列分别代表什么业务含义；

是否存在关键数据、对比关系或异常值；

是否需要保留原始表格供后续精确引用。

例如，一张系统架构图可以被转化为：

“该图展示了知识库系统的整体架构，包括文件接入层、知识处理层、检索增强生成层和应用层。其中，知识处理层负责 OCR、版面分析、表格解析和多模态理解。”

一张检测结果表可以被转化为：

“该表记录了多个检测指标的标准限值、实测值和判定结果，其中部分指标显示为不合格，需要结合检测结论进一步确认。”

这一步的意义在于：
让原本只能被“看见”的图表内容，变成可以被检索、召回和引用的知识内容。

结构化入库：让每个知识单元都能追溯

PDF 处理完成后，不能把所有内容简单合并成一个长文本再入库。

更合理的方式，是形成一组带有元数据的结构化知识单元。

每个知识单元可以包含：

内容类型：正文、标题、表格、图片、图表、流程图；

文本内容：OCR 或解析得到的文字；

语义描述：VLM 生成的图片或表格说明；

来源信息：文件名、页码、章节、区域编号；

文件路径：对应的图片、表格或页面截图；

权限标签：所属部门、可见范围、密级；

版本信息：文档版本、更新时间、是否有效；

校验状态：是否经过人工确认或业务审核。

例如，一张检测结果表进入知识库后，可以被组织为：

{

"doc_name": "某产品检测报告.pdf",

"page": 4,

"type": "table",

"title": "检测结果表",

"content_summary": "该表记录了检测项目、标准要求、实测结果和判定结论。",

"file_path": "tables/table_004_001.html",

"permission": "质量管理部",

"version": "2024年度版"

}

这样做之后，系统在回答问题时，不仅能找到相关内容，还能说明依据来自哪份文件、哪一页、哪一个表格或图片。

这正是可信知识库和普通问答系统的重要区别。

面向RAG的索引设计：不同内容采用不同检索方式

PDF 处理的结果，最终要服务于 RAG 问答和智能体应用。

因此，入库时不能只做一种向量索引，而应根据内容类型设计不同索引方式：

正文内容适合建立文本向量索引；

标题和章节适合建立层级索引；

表格内容适合建立结构化索引和字段索引；

图片、图表说明适合建立语义索引；

原始文件、页码和截图适合建立证据索引；

权限和版本信息适合作为过滤条件。

这样，用户提问时，系统可以根据问题类型选择更合适的召回方式。

例如，用户问“哪些检测指标不合格”，系统应优先召回检测结果表；

用户问“系统包含哪些模块”，系统应优先召回架构图说明和相关章节；

用户问“付款节点是什么”，系统应优先召回合同条款和付款表格。

所以，PDF 处理不是 RAG 之前的简单预处理，而是直接决定后续检索质量的基础环节。

我们方案的核心特点

整体来看，我们团队的 PDF 处理方案有几个特点。

第一，面向复杂PDF，而不是只处理干净文本PDF。
方案兼顾电子 PDF、扫描件、图文混排文档、表格型文档和技术图示型文档。

第二，保留结构，而不是只抽文字。
系统关注标题、正文、表格、图片、页码、章节之间的关系，避免把文档压扁成无结构文本。

第三，图表和表格单独处理。
图片、架构图、流程图和表格会被独立导出，进入多模态理解流程，而不是在入库时被忽略。

第四，引入VLM做语义补全。
对于传统 OCR 难以表达的视觉信息，通过视觉语言模型生成描述、摘要和结构化解释。

第五，面向RAG检索优化。
处理结果会转化为可召回、可重排、可生成、可引用的知识单元。

第六，支持可信追溯。
每个知识单元都可以关联原始 PDF、页码、内容类型和处理结果，便于答案溯源和人工核验。

结语

PDF处理决定知识库的下限。

PDF 是企业知识库中最基础、最常见的一类资料。但越基础的环节，越决定整个系统下限。

如果 PDF 处理只是简单抽文本，后续再强的模型，也只能基于残缺知识回答。

如果 PDF 里的文字、表格、图片、图表、章节和页码都能被正确处理，知识库的检索、问答、引用和智能体能力才有稳定基础。

因此，我们认为，PDF 处理不是知识库建设中的小工具，而是可信知识库的入口管线。

它的目标不是把 PDF 变成文本，而是把 PDF 转化为：

可理解的知识内容；

可检索的知识单元；

可追溯的证据来源；

可校验、可复用的企业知识资产。

但在企业真实场景中，资料并不只以 PDF 存在。Word 方案、Excel 台账、PPT 汇报材料，往往才是企业内部最高频流转的知识载体。

这些 Office 文档看起来更容易读取，但进入知识库时同样不能简单转文本。Word 要保留标题层级和条款结构，Excel 要理解字段含义和统计口径，PPT 要识别页面结构、图示逻辑和汇报上下文。

因此，下一篇我们会继续讨论：

Office 文档如何结构化进入知识库。

如果您的企业也在做AI智能化转型，欢迎与我们交流。我们定期在中山大学开设企业智能化转型产学研沙龙，组织教授专家为企业答疑解惑。扫码填写相关信息提交申请，我们将有专人邀请您参加研讨会。

——企业现状与需求调查问卷——

研究中心可信知识库技术专家

何笑雨

中山大学软件工程学院副教授，博导

中山大学百人计划青年学术骨干。博士毕业于中山大学，先后在中山大学和南洋理工大学从事博士后研究工作。从事大模型、智能体、智能计算相关的基础研究，在AIJ,SIOPT, TEVC等期刊发表学术论文三十余篇，谷歌学术引用1000+,H指数17。主持国家自然科学基金，广东省重点研发子课题等科研项目十余个。在可信知识库方面为广汽本田、海天味业等多家企业提供落地服务。

产学研合作联系

林老师手机/微信：15986852262

图片来源于网络，如有侵权请联系删除

技术支持：何笑雨

编辑：刘颖、叶健文