70K star 的国内开源项目,把PDF变成了AI的＂粮食＂

你做过RAG吗？

就是把一堆PDF文档喂给大模型，让它能回答文档里的内容。听起来很简单对吧？实际做的时候你会发现：

直到MinerU出现。

什么是MinerU

MinerU是一个开源文档解析工具，把PDF、图片、Word、PPT、Excel转成干净的Markdown或JSON。

它的定位很明确：为AI工作流准备结构化数据。

GitHub 70,400颗星，5,900个fork。最近一天涨了944颗星，增长势头很猛。

这个项目来自OpenDataLab（上海），诞生于InternLM（书生·浦语）的预训练过程中。说白了，他们做语言模型的时候发现"喂给模型的文档质量太差了"，于是自己搞了解析工具，后来开源了出来。

MinerU最核心的能力是智能排版理解。

普通PDF解析工具按物理位置读文字，遇到多栏就乱序。MinerU能自动识别文档的阅读顺序，无论是单栏、双栏还是复杂的多栏布局，都能按人眼阅读的顺序输出。

公式识别也是一绝。文档里的数学公式自动转成LaTeX，这对科研文献解析来说几乎是刚需。

表格也不在话下。自动识别并转成HTML格式，保留表格结构。

扫描版PDF和乱码PDF？它会自动检测并开启OCR，支持109种语言的识别。

MinerU提供了三种解析后端，各有侧重：

pipeline后端 — 兼容性好，纯CPU就能跑，最低4G显存或无GPU。适合资源有限的场景。

hybrid后端 — 精度最高（OmniDocBench评分95.39），需要8G显存。适合对质量要求高的场景。

vlm后端 — 用视觉语言模型做解析，只需2G显存，但对OpenAI兼容API有依赖。适合有云端模型资源的场景。

这个设计很实用。你有显卡就用hybrid拿最高精度，没显卡用pipeline纯CPU也能跑。

安装很简单：

pip install "mineru[all]"

一行命令解析：

mineru -p input.pdf -o output/

支持的文件格式包括PDF、图片、DOCX、PPTX、XLSX。

如果不想本地部署，也有在线体验：

如果你在做RAG、AI知识库、文档问答这类应用，MinerU是目前开源领域最好的选择之一。

它的精度经过OmniDocBench基准测试验证，在主流后端上都能拿到95%以上的端到端评分。

而且它来自中国的开源团队，中文文档支持天然友好。社区活跃度很高，Issues响应快，更新频繁。

唯一需要注意的是，hybrid和vlm后端对硬件有一定要求。如果只是轻量级使用，pipeline后端纯CPU运行也完全够用。

你觉得这个项目对你有用吗？欢迎在评论区聊聊。

如果你觉得这篇文章有用，欢迎关注公众号「豆子实验室」，我会持续分享值得折腾的开源项目和 AI 工具。