你做过RAG吗?
就是把一堆PDF文档喂给大模型,让它能回答文档里的内容。听起来很简单对吧?实际做的时候你会发现:

直到MinerU出现。
什么是MinerU
MinerU是一个开源文档解析工具,把PDF、图片、Word、PPT、Excel转成干净的Markdown或JSON。
它的定位很明确:为AI工作流准备结构化数据。
GitHub 70,400颗星,5,900个fork。最近一天涨了944颗星,增长势头很猛。
这个项目来自OpenDataLab(上海),诞生于InternLM(书生·浦语)的预训练过程中。说白了,他们做语言模型的时候发现"喂给模型的文档质量太差了",于是自己搞了解析工具,后来开源了出来。
它强在哪
MinerU最核心的能力是智能排版理解。
普通PDF解析工具按物理位置读文字,遇到多栏就乱序。MinerU能自动识别文档的阅读顺序,无论是单栏、双栏还是复杂的多栏布局,都能按人眼阅读的顺序输出。
公式识别也是一绝。文档里的数学公式自动转成LaTeX,这对科研文献解析来说几乎是刚需。
表格也不在话下。自动识别并转成HTML格式,保留表格结构。
扫描版PDF和乱码PDF?它会自动检测并开启OCR,支持109种语言的识别。
三种后端,满足不同需求
MinerU提供了三种解析后端,各有侧重:
pipeline后端 — 兼容性好,纯CPU就能跑,最低4G显存或无GPU。适合资源有限的场景。
hybrid后端 — 精度最高(OmniDocBench评分95.39),需要8G显存。适合对质量要求高的场景。
vlm后端 — 用视觉语言模型做解析,只需2G显存,但对OpenAI兼容API有依赖。适合有云端模型资源的场景。
这个设计很实用。你有显卡就用hybrid拿最高精度,没显卡用pipeline纯CPU也能跑。
怎么用
安装很简单:
pip install "mineru[all]"一行命令解析:
mineru -p input.pdf -o output/支持的文件格式包括PDF、图片、DOCX、PPTX、XLSX。
如果不想本地部署,也有在线体验:
• 官方Web应用:webapp.onmineru.net(需要登录) • ModelScope Demo:无需登录 • HuggingFace Demo:无需登录
开源地址:https://github.com/opendatalab/MinerU
同类方案对比
文档解析领域不算冷门,MinerU的主要竞争对手有:
Mathpix — 老牌PDF转Markdown工具,公式识别极强,但闭源付费,按页收费。
Marker — 另一个开源PDF转Markdown方案,社区活跃,但在复杂排版和多栏文档上的表现不如MinerU。
PaddleOCR — 百度开源的OCR引擎,中文识别效果好,但它只管OCR,不管文档结构和阅读顺序。
MinerU的优势在于:一站式解决文档解析的所有问题——排版理解、公式识别、表格提取、OCR,而且完全开源免费。
值不值得用
如果你在做RAG、AI知识库、文档问答这类应用,MinerU是目前开源领域最好的选择之一。
它的精度经过OmniDocBench基准测试验证,在主流后端上都能拿到95%以上的端到端评分。
而且它来自中国的开源团队,中文文档支持天然友好。社区活跃度很高,Issues响应快,更新频繁。
唯一需要注意的是,hybrid和vlm后端对硬件有一定要求。如果只是轻量级使用,pipeline后端纯CPU运行也完全够用。
你觉得这个项目对你有用吗?欢迎在评论区聊聊。
如果你觉得这篇文章有用,欢迎关注公众号「豆子实验室」,我会持续分享值得折腾的开源项目和 AI 工具。
夜雨聆风