把PDF喂给AI之前,要先做这件事
有时候能用,有时候一塌糊涂。
后来我才意识到问题出在哪里:PDF不是一种干净的格式。它本质上是一个排版文件,里面的文字、表格、公式、图片是按照看起来怎么好看来排列的,而不是按照机器怎么读来组织的。直接把PDF送给AI,AI收到的可能是乱序的文本片段、识别错误的公式、或者根本读不出来的扫描图片。
所以在喂给AI之前,需要先做一件事:把PDF转换成结构化的、机器可读的格式。
我现在用的工具叫MinerU。
一、MinerU是什么
MinerU是上海人工智能实验室开源的一个文档解析工具,专门做一件事:把PDF转成干净的Markdown或JSON。
它不只是提取文字。它能识别文档的阅读顺序(对多栏排版的论文尤其重要)、把表格转成HTML格式、把公式转成LaTeX、过滤掉页眉页脚页码。最终输出的是一个按照人类阅读顺序排列好的结构化文件,而不是从PDF里硬扯出来的乱序文本。
对于做研究的人来说,这意味着:你的文献综述、数据提取、概念梳理,终于有了一个可靠的起点。
二、它解决了哪些具体问题
扫描版PDF。 很多老文献是扫描件,里面根本没有文字层,只有图片。MinerU内置OCR,支持109种语言识别,扫描件也能提取。
多栏布局。 学术论文大多是双栏格式。直接提取文字往往会把左栏右栏混在一起,读起来完全不通。MinerU基于模型判断阅读顺序,能正确识别双栏的阅读路径。
公式和表格。 这是PDF提取的老大难。公式如果识别成乱码,后续的AI处理几乎没有意义。MinerU能把公式转成LaTeX,把表格转成HTML,保留结构。
页眉页脚干扰。 每页都重复出现的期刊名、作者名、页码,如果不过滤掉,会污染提取出来的文本。MinerU自动去除这些元素。
三、怎么用
MinerU是开源的,可以在本地部署,也有在线版(mineru.net)可以直接上传文件使用,不需要安装任何环境。
如果你只是偶尔处理几篇文献,在线版足够了。
如果你需要批量处理一个文件夹里的所有PDF,可以通过命令行调用:
mineru -p <文件夹路径> -o <输出路径>
输出是Markdown文件,每篇PDF对应一个,可以直接用文本编辑器打开,也可以作为后续AI处理的输入。
2026年3月刚发布的3.0版本新增了DOCX原生解析,也解决了长文档的内存占用问题——以前处理几百页的报告需要手动拆分,现在不用了。
四、在工作流里的位置
我现在处理文献的流程是:
PDF → MinerU解析 → Markdown文件 → Claude Code读取并提取信息
MinerU负责把PDF变成干净的文本,之后的分析、摘录、综述写作,才有可靠的原材料可以处理。
这一步以前我是跳过的,直接把PDF扔给AI,然后在困惑为什么结果总是差强人意。
原来问题不在AI,在原材料。
工具:MinerU(开源,上海人工智能实验室,github.com/opendatalab/MinerU)在线版:mineru.net,免安装,上传即用。
夜雨聆风