MinerU别再把PDF硬塞给RAG了:先把脏文档整理成AI能读的样子

很多人做 RAG，问题根本不在模型，也不在提示词，而在第一步就把材料喂错了。

做过文档问答的人，应该都见过这种场面。

PDF 一丢进去，模型开始一本正经胡说八道。表格列错位了，页眉页脚混进正文了，公式被拆碎，图片说明和段落顺序也乱了。最后你以为是模型不够聪明，或者 embedding 不够准，结果回头一看，问题其实更早。

不是检索坏了。

是文档压根没被整理成人能看、机器也能读的样子。

这也是我最近看到 MinerU 时，第一反应会觉得它很实用的原因。它干的不是“再造一个更强的大模型”，而是补上了 AI 工作流里那个一直被低估的脏活：把 PDF、Office、扫描件这类乱糟糟的输入，先收拾成结构清楚的 Markdown 和 JSON。

真正拖后腿的，常常不是推理，是预处理

现在大家聊 RAG，很容易把注意力都放在后半段。

比如召回率够不够，重排器要不要加，Agent 会不会多步推理，长上下文怎么省 token。

这些当然重要。但说实话，如果第一步喂进去的材料已经是脏的，后面做得再精，也只是带着噪声往前跑。

尤其是下面这些文档，最容易出事：

带复杂表格的 PDF
扫描版合同、论文、财报
Word、PPT、Excel 混在一起的项目资料
既有图片、又有公式、还有多栏排版的技术文档

你想从里面抽知识，前提不是“模型懂不懂”，而是结构有没有保住。

标题是不是标题，表格是不是表格，图注是不是跟着原图，段落前后顺序有没有乱，公式有没有被切成乱码。这些事如果没处理好，后面检索到的上下文就会一直带偏。

所以 MinerU 这类工具的价值，很现实。

它不是帮你回答问题，而是先把“问题发生之前的现场”整理干净。

MinerU 到底在做什么

一句话说，MinerU 是一个面向文档解析的开源工具链，目标很直接：

把人类世界里的复杂文件，转换成适合 AI 系统继续处理的中间结果。

这个中间结果通常不是“只提一段纯文本”这么简单，而是更有结构的信息，比如：

Markdown
JSON
保留章节层级的正文块
识别后的表格、图片和公式
适合下游 RAG、知识库、Agent 使用的文档表示

这件事听起来很基础，但真的做过的人都知道，难点恰恰在这里。

因为很多文档不是线性的。

它们有目录，有页码，有跨页表格，有脚注，有图文混排，有扫描噪点，有多栏布局。对人来说，这些东西扫一眼还能脑补回来；对模型来说，只要顺序错一点、结构塌一点，理解质量就会掉得很明显。

MinerU 的意义，就是尽量把这些结构保住，再把结果交给后面的模型或检索系统。

为什么它很适合接到 RAG 前面

很多团队做 RAG，默认流程都是：

文档进来，切块，向量化，召回，生成。

这个流程没错，但里面有个默认前提常被忽略：你拿到的是“干净文本”。

可现实不是这样。

现实里的企业资料往往又旧又杂。财报、投标书、专利、产品手册、会议纪要、实验报告，格式五花八门。你以为自己在做知识检索，实际上先做的是文档清洗。

MinerU 适合放在前面的原因，就在这里。

它能先把格式复杂的原始文件拆开、整理、重建结构，再把结果交给后面的 RAG 流水线。这样一来，后面的 chunking、embedding、rerank 才有可能建立在相对稳定的输入上。

换句话说：

它不是 RAG 的替代品，更像是 RAG 的前处理增强层。

这一层不性感，但很值钱。

因为很多“模型答非所问”的问题，根子并不在模型，而在原始文档进入系统时已经变形了。

哪些场景最值得上这类工具

如果你处理的只是 FAQ、短网页、规则很整齐的帮助文档，那不一定需要动用这类解析工具。

但只要你的材料开始变“脏”、变“长”、变“复杂”，它就会越来越重要。

我觉得下面几类场景尤其适合：

1. 企业知识库导入

历史资料格式混乱是常态。旧 PDF、扫描件、PPT 截图、Word 方案、Excel 表格全都混在一起。这个时候直接做向量化，效果通常不会太稳。

2. 财报、研报、法规、合同类问答

这些材料结构强，表格多，页内关系复杂。只抽纯文本，很容易把原本关键的上下文打散。

3. 学术和技术文档处理

论文、实验报告、说明书里经常有公式、图表和多级标题。解析结果如果不保结构，后面的检索质量会明显下滑。

4. 给 AI Agent 喂项目资料

Agent 不是只看一句话，它要理解背景、流程、字段关系、附件内容。如果输入资料本身乱，Agent 就算再会推理，也很难稳。

这也是为什么现在越来越多 Agent 工作流，开始重视“文档进入系统之前的整理”。

它最打动我的，不是酷，而是务实

这类工具最容易被低估的地方，是它不太像“新能力”，更像“基础设施”。

不像新模型发布那样一眼惊艳，但你真开始做项目，很快就会发现，没有这一步，后面全在补锅。

以前很多人一上来就想优化召回参数、换 embedding 模型、调 chunk 大小。现在看，顺序可能要改一下。

先问自己三个问题：

我喂进去的文档，结构还在吗？
表格、图片、公式有没有被正确拆出来？
下游系统拿到的是“可理解的材料”，还是“勉强可读的文本”？

这三个问题如果答不上来，后面调再多参数，也容易是在雾里开车。

MinerU 这种工具的意义，就是先把雾擦掉一层。

当然，它也不是万能解药

文档解析永远不是一键完美。

扫描质量太差、版式过于离谱、表格跨页严重、图片和正文关系特别复杂的时候，再强的解析器也可能出错。开源工具通常也需要你自己做一些工程兜底，比如：

失败重试
人工抽检
特殊模板单独处理
下游切块策略配套调整

所以别把它想成“装上就万事大吉”。

更准确的理解是：它能把原本 60 分的原始材料，尽量先整理到 80 分，再把后面那 20 分留给检索、推理和业务规则。

这已经很有价值了。

最后说个更重要的判断

我越来越觉得，下一阶段 AI 应用的差距，不只在模型能力，更多会出在“输入工程”。

谁更会处理真实世界里的脏数据，谁就更容易把 AI 系统做稳。

文档解析就是其中最典型的一块。

因为企业里最常见的信息，不是规规矩矩的 API 返回值，而是一堆历史文件、一堆截图、一堆格式各异的附件。你要让 AI 真正干活，就得先让它吃进去的东西别那么乱。

从这个角度看，MinerU 这类工具其实在做一件很基础、但很关键的事：

不是让模型更会说，而是先让资料更像资料。

这一步做好了，后面的 RAG、知识库、Agent，才更像在坚实地基上往上搭。

如果你最近也在折腾知识库、文档问答或者 Agent 工作流，建议认真补一下“文档预处理”这门课。很多时候，系统不稳，不是因为 AI 不够强，而是因为输入太乱。