很多人做 RAG,问题根本不在模型,也不在提示词,而在第一步就把材料喂错了。

做过文档问答的人,应该都见过这种场面。
PDF 一丢进去,模型开始一本正经胡说八道。表格列错位了,页眉页脚混进正文了,公式被拆碎,图片说明和段落顺序也乱了。最后你以为是模型不够聪明,或者 embedding 不够准,结果回头一看,问题其实更早。
不是检索坏了。
是文档压根没被整理成人能看、机器也能读的样子。
这也是我最近看到 MinerU 时,第一反应会觉得它很实用的原因。它干的不是“再造一个更强的大模型”,而是补上了 AI 工作流里那个一直被低估的脏活:把 PDF、Office、扫描件这类乱糟糟的输入,先收拾成结构清楚的 Markdown 和 JSON。
真正拖后腿的,常常不是推理,是预处理
现在大家聊 RAG,很容易把注意力都放在后半段。
比如召回率够不够,重排器要不要加,Agent 会不会多步推理,长上下文怎么省 token。
这些当然重要。但说实话,如果第一步喂进去的材料已经是脏的,后面做得再精,也只是带着噪声往前跑。
尤其是下面这些文档,最容易出事:
带复杂表格的 PDF 扫描版合同、论文、财报 Word、PPT、Excel 混在一起的项目资料 既有图片、又有公式、还有多栏排版的技术文档
你想从里面抽知识,前提不是“模型懂不懂”,而是结构有没有保住。
标题是不是标题,表格是不是表格,图注是不是跟着原图,段落前后顺序有没有乱,公式有没有被切成乱码。这些事如果没处理好,后面检索到的上下文就会一直带偏。
所以 MinerU 这类工具的价值,很现实。
它不是帮你回答问题,而是先把“问题发生之前的现场”整理干净。
MinerU 到底在做什么
一句话说,MinerU 是一个面向文档解析的开源工具链,目标很直接:
把人类世界里的复杂文件,转换成适合 AI 系统继续处理的中间结果。
这个中间结果通常不是“只提一段纯文本”这么简单,而是更有结构的信息,比如:
Markdown JSON 保留章节层级的正文块 识别后的表格、图片和公式 适合下游 RAG、知识库、Agent 使用的文档表示
这件事听起来很基础,但真的做过的人都知道,难点恰恰在这里。
因为很多文档不是线性的。
它们有目录,有页码,有跨页表格,有脚注,有图文混排,有扫描噪点,有多栏布局。对人来说,这些东西扫一眼还能脑补回来;对模型来说,只要顺序错一点、结构塌一点,理解质量就会掉得很明显。
MinerU 的意义,就是尽量把这些结构保住,再把结果交给后面的模型或检索系统。
为什么它很适合接到 RAG 前面
很多团队做 RAG,默认流程都是:
文档进来,切块,向量化,召回,生成。
这个流程没错,但里面有个默认前提常被忽略:你拿到的是“干净文本”。
可现实不是这样。
现实里的企业资料往往又旧又杂。财报、投标书、专利、产品手册、会议纪要、实验报告,格式五花八门。你以为自己在做知识检索,实际上先做的是文档清洗。
MinerU 适合放在前面的原因,就在这里。
它能先把格式复杂的原始文件拆开、整理、重建结构,再把结果交给后面的 RAG 流水线。这样一来,后面的 chunking、embedding、rerank 才有可能建立在相对稳定的输入上。
换句话说:
它不是 RAG 的替代品,更像是 RAG 的前处理增强层。
这一层不性感,但很值钱。
因为很多“模型答非所问”的问题,根子并不在模型,而在原始文档进入系统时已经变形了。
哪些场景最值得上这类工具
如果你处理的只是 FAQ、短网页、规则很整齐的帮助文档,那不一定需要动用这类解析工具。
但只要你的材料开始变“脏”、变“长”、变“复杂”,它就会越来越重要。
我觉得下面几类场景尤其适合:
1. 企业知识库导入
历史资料格式混乱是常态。旧 PDF、扫描件、PPT 截图、Word 方案、Excel 表格全都混在一起。这个时候直接做向量化,效果通常不会太稳。
2. 财报、研报、法规、合同类问答
这些材料结构强,表格多,页内关系复杂。只抽纯文本,很容易把原本关键的上下文打散。
3. 学术和技术文档处理
论文、实验报告、说明书里经常有公式、图表和多级标题。解析结果如果不保结构,后面的检索质量会明显下滑。
4. 给 AI Agent 喂项目资料
Agent 不是只看一句话,它要理解背景、流程、字段关系、附件内容。如果输入资料本身乱,Agent 就算再会推理,也很难稳。
这也是为什么现在越来越多 Agent 工作流,开始重视“文档进入系统之前的整理”。
它最打动我的,不是酷,而是务实
这类工具最容易被低估的地方,是它不太像“新能力”,更像“基础设施”。
不像新模型发布那样一眼惊艳,但你真开始做项目,很快就会发现,没有这一步,后面全在补锅。
以前很多人一上来就想优化召回参数、换 embedding 模型、调 chunk 大小。现在看,顺序可能要改一下。
先问自己三个问题:
我喂进去的文档,结构还在吗? 表格、图片、公式有没有被正确拆出来? 下游系统拿到的是“可理解的材料”,还是“勉强可读的文本”?
这三个问题如果答不上来,后面调再多参数,也容易是在雾里开车。
MinerU 这种工具的意义,就是先把雾擦掉一层。
当然,它也不是万能解药
文档解析永远不是一键完美。
扫描质量太差、版式过于离谱、表格跨页严重、图片和正文关系特别复杂的时候,再强的解析器也可能出错。开源工具通常也需要你自己做一些工程兜底,比如:
失败重试 人工抽检 特殊模板单独处理 下游切块策略配套调整
所以别把它想成“装上就万事大吉”。
更准确的理解是:它能把原本 60 分的原始材料,尽量先整理到 80 分,再把后面那 20 分留给检索、推理和业务规则。
这已经很有价值了。
最后说个更重要的判断
我越来越觉得,下一阶段 AI 应用的差距,不只在模型能力,更多会出在“输入工程”。
谁更会处理真实世界里的脏数据,谁就更容易把 AI 系统做稳。
文档解析就是其中最典型的一块。
因为企业里最常见的信息,不是规规矩矩的 API 返回值,而是一堆历史文件、一堆截图、一堆格式各异的附件。你要让 AI 真正干活,就得先让它吃进去的东西别那么乱。
从这个角度看,MinerU 这类工具其实在做一件很基础、但很关键的事:
不是让模型更会说,而是先让资料更像资料。
这一步做好了,后面的 RAG、知识库、Agent,才更像在坚实地基上往上搭。
如果你最近也在折腾知识库、文档问答或者 Agent 工作流,建议认真补一下“文档预处理”这门课。很多时候,系统不稳,不是因为 AI 不够强,而是因为输入太乱。
夜雨聆风