把PDF喂给AI之前,要先做这件事-夜雨聆风

把PDF喂给AI之前,要先做这件事

我之前处理文献的方式很粗暴：把PDF直接丢给AI，让它帮我提取关键概念或者题目。

有时候能用，有时候一塌糊涂。

后来我才意识到问题出在哪里：PDF不是一种干净的格式。它本质上是一个排版文件，里面的文字、表格、公式、图片是按照看起来怎么好看来排列的，而不是按照机器怎么读来组织的。直接把PDF送给AI，AI收到的可能是乱序的文本片段、识别错误的公式、或者根本读不出来的扫描图片。

所以在喂给AI之前，需要先做一件事：把PDF转换成结构化的、机器可读的格式。

我现在用的工具叫MinerU。

一、MinerU是什么

MinerU是上海人工智能实验室开源的一个文档解析工具，专门做一件事：把PDF转成干净的Markdown或JSON。

已关注

关注

重播分享赞

它不只是提取文字。它能识别文档的阅读顺序（对多栏排版的论文尤其重要）、把表格转成HTML格式、把公式转成LaTeX、过滤掉页眉页脚页码。最终输出的是一个按照人类阅读顺序排列好的结构化文件，而不是从PDF里硬扯出来的乱序文本。

对于做研究的人来说，这意味着：你的文献综述、数据提取、概念梳理，终于有了一个可靠的起点。

扫描版PDF。 很多老文献是扫描件，里面根本没有文字层，只有图片。MinerU内置OCR，支持109种语言识别，扫描件也能提取。

多栏布局。 学术论文大多是双栏格式。直接提取文字往往会把左栏右栏混在一起，读起来完全不通。MinerU基于模型判断阅读顺序，能正确识别双栏的阅读路径。

公式和表格。 这是PDF提取的老大难。公式如果识别成乱码，后续的AI处理几乎没有意义。MinerU能把公式转成LaTeX，把表格转成HTML，保留结构。

页眉页脚干扰。 每页都重复出现的期刊名、作者名、页码，如果不过滤掉，会污染提取出来的文本。MinerU自动去除这些元素。

MinerU是开源的，可以在本地部署，也有在线版（mineru.net）可以直接上传文件使用，不需要安装任何环境。

如果你只是偶尔处理几篇文献，在线版足够了。

如果你需要批量处理一个文件夹里的所有PDF，可以通过命令行调用：

mineru -p <文件夹路径> -o <输出路径>

输出是Markdown文件，每篇PDF对应一个，可以直接用文本编辑器打开，也可以作为后续AI处理的输入。

2026年3月刚发布的3.0版本新增了DOCX原生解析，也解决了长文档的内存占用问题——以前处理几百页的报告需要手动拆分，现在不用了。

我现在处理文献的流程是：

PDF → MinerU解析 → Markdown文件 → Claude Code读取并提取信息

MinerU负责把PDF变成干净的文本，之后的分析、摘录、综述写作，才有可靠的原材料可以处理。

这一步以前我是跳过的，直接把PDF扔给AI，然后在困惑为什么结果总是差强人意。

原来问题不在AI，在原材料。

工具：MinerU（开源，上海人工智能实验室，github.com/opendatalab/MinerU）在线版：mineru.net，免安装，上传即用。