乐于分享
好东西不私藏

把PDF喂给AI之前,要先做这件事

把PDF喂给AI之前,要先做这件事

 我之前处理文献的方式很粗暴:把PDF直接丢给AI,让它帮我提取关键概念或者题目。

有时候能用,有时候一塌糊涂。

后来我才意识到问题出在哪里:PDF不是一种干净的格式。它本质上是一个排版文件,里面的文字、表格、公式、图片是按照看起来怎么好看来排列的,而不是按照机器怎么读来组织的。直接把PDF送给AI,AI收到的可能是乱序的文本片段、识别错误的公式、或者根本读不出来的扫描图片。

所以在喂给AI之前,需要先做一件事:把PDF转换成结构化的、机器可读的格式。

我现在用的工具叫MinerU。


一、MinerU是什么

MinerU是上海人工智能实验室开源的一个文档解析工具,专门做一件事:把PDF转成干净的Markdown或JSON。

已关注

关注

重播 分享

它不只是提取文字。它能识别文档的阅读顺序(对多栏排版的论文尤其重要)、把表格转成HTML格式、把公式转成LaTeX、过滤掉页眉页脚页码。最终输出的是一个按照人类阅读顺序排列好的结构化文件,而不是从PDF里硬扯出来的乱序文本。

对于做研究的人来说,这意味着:你的文献综述、数据提取、概念梳理,终于有了一个可靠的起点。


二、它解决了哪些具体问题

扫描版PDF。 很多老文献是扫描件,里面根本没有文字层,只有图片。MinerU内置OCR,支持109种语言识别,扫描件也能提取。

多栏布局。 学术论文大多是双栏格式。直接提取文字往往会把左栏右栏混在一起,读起来完全不通。MinerU基于模型判断阅读顺序,能正确识别双栏的阅读路径。

公式和表格。 这是PDF提取的老大难。公式如果识别成乱码,后续的AI处理几乎没有意义。MinerU能把公式转成LaTeX,把表格转成HTML,保留结构。

页眉页脚干扰。 每页都重复出现的期刊名、作者名、页码,如果不过滤掉,会污染提取出来的文本。MinerU自动去除这些元素。


三、怎么用

MinerU是开源的,可以在本地部署,也有在线版(mineru.net)可以直接上传文件使用,不需要安装任何环境。

如果你只是偶尔处理几篇文献,在线版足够了。

如果你需要批量处理一个文件夹里的所有PDF,可以通过命令行调用:

mineru -p <文件夹路径> -o <输出路径>
输出是Markdown文件,每篇PDF对应一个,可以直接用文本编辑器打开,也可以作为后续AI处理的输入。

2026年3月刚发布的3.0版本新增了DOCX原生解析,也解决了长文档的内存占用问题——以前处理几百页的报告需要手动拆分,现在不用了。


四、在工作流里的位置

我现在处理文献的流程是:

PDF → MinerU解析 → Markdown文件 → Claude Code读取并提取信息

MinerU负责把PDF变成干净的文本,之后的分析、摘录、综述写作,才有可靠的原材料可以处理。

这一步以前我是跳过的,直接把PDF扔给AI,然后在困惑为什么结果总是差强人意。

原来问题不在AI,在原材料。


工具:MinerU(开源,上海人工智能实验室,github.com/opendatalab/MinerU)在线版:mineru.net,免安装,上传即用。