刷 GitHub Trending 的时候看到 MinerU 又挂在榜上,+380 stars。
MinerU,72k star,PDF 转 LLM 可用格式的解析工具。
GitHub:https://github.com/opendatalab/MinerU
做 RAG 或者给 LLM 喂数据的人都有这个经验:PDF 里的内容直接复制出来格式全乱,表格对不齐、公式变乱码、多栏排版串行。拿这种数据去建知识库,检索效果可想而知。
MinerU 解决的就是这个问题——把 PDF、图片、Office 文档转成 LLM 能直接吃的 Markdown 和 JSON。
1
可以干什么
你丢给它一个文件,它返回结构化的 Markdown 或 JSON。保留原始文档的标题层级、段落顺序、表格结构、公式 LaTeX、图片位置。页眉页脚页码自动去掉。
支持的文件格式:
PDF(包括扫描件、手写体) DOCX / PPTX / XLSX(原生解析,不需要先转 PDF) 图片(JPG / PNG 等) 网页
输出格式:
Markdown(适合 LLM 直接读) JSON(适合程序处理) HTML(表格格式保留)
核心就一句话:喂进去乱七八糟的文档,吐出来 LLM 能读的结构化数据。
2
三种解析后端
MinerU 提供了三层解析方案,按硬件条件选:
pipeline 后端 — 纯 CPU 也能跑,精度 86.47,最低 4GB 显存。不需要 GPU,不需要大模型。适合普通文档、批量处理、没有 GPU 的环境。
hybrid 后端 — VLM 模型 + pipeline 混合解析,精度 95.39,需要 8GB 显存。分两档:medium(默认,速度快 35%~220%)和 high(最高精度)。适合精度要求高的场景。
vlm 后端 — 纯 VLM 模型解析,精度 95.30,需要 8GB 显存。适合复杂版面、扫描件。
三种后端可以通过 -b 参数切换,同一个文件可以换不同后端试效果。
3
如何安装配置
pip install uvuv pip install -U ”mineru[all]”
一行命令解析文件:
# 有 GPU 自动用最优后端mineru -p 合同.pdf -o ./output# 纯 CPU 环境指定 pipelinemineru -p 合同.pdf -o ./output -b pipeline
也支持 Docker 部署:
docker pull opendatalab/mineru:latestdocker run --rm -v $(pwd):/workspace opendatalab/mineru mineru -p /workspace/input.pdf -o /workspace/output
4
接入方式
直接在线体验
不用装任何东西,打开网页就能试:
mineru.net — 官方在线版,功能完整,需登录 HuggingFace / ModelScope — Gradio 在线 demo,无需登录
MCP 服务器
MinerU 提供 MCP Server,Cursor、Claude Desktop、Windsurf 可以直接调用来解析文档。
RAG 框架集成
原生对接 LangChain、LlamaIndex、Dify、FastGPT、RAGFlow 等主流框架。在 RAG pipeline 里把 MinerU 当文档解析器用,不用自己写 PDF 解析逻辑。
API / CLI / WebUI
三种使用方式全覆盖:
mineruCLI — 命令行解析 mineru-api— FastAPI 服务,支持同步和异步任务 mineru-router— 多 GPU 负载均衡路由
5
局限
❶高精度后端需要 GPU。
纯 CPU 能跑但精度只有 86,要 95+ 的精度得上 GPU(8GB 显存起)。不是全场景都能零成本跑。
❷复杂版式仍然不是 100%。
手写体、极复杂排版、加密 PDF 这些边角场景还是有翻车概率。项目 README 里标注的 hybrid 后端 95.39 分是 OmniDocBench v1.6 评测集上的分数,评测集覆盖的文档类型有限,不代表所有真实文档都能达到这个精度。
如果你在搭 RAG 知识库或者给 LLM 喂文档,可以先拿 MinerU 的在线 demo 试一下自己的文件效果。输入的质量高一点的话使用时效果会好很多。
关注我,每天解锁一个用得上的小项目。
夜雨聆风