PDF转markdown格式的MinerU

刷 GitHub Trending 的时候看到 MinerU 又挂在榜上，+380 stars。

MinerU，72k star，PDF 转 LLM 可用格式的解析工具。

GitHub：https://github.com/opendatalab/MinerU

做 RAG 或者给 LLM 喂数据的人都有这个经验：PDF 里的内容直接复制出来格式全乱，表格对不齐、公式变乱码、多栏排版串行。拿这种数据去建知识库，检索效果可想而知。

MinerU 解决的就是这个问题——把 PDF、图片、Office 文档转成 LLM 能直接吃的 Markdown 和 JSON。

1
可以干什么

你丢给它一个文件，它返回结构化的 Markdown 或 JSON。保留原始文档的标题层级、段落顺序、表格结构、公式 LaTeX、图片位置。页眉页脚页码自动去掉。

支持的文件格式：

输出格式：

核心就一句话：喂进去乱七八糟的文档，吐出来 LLM 能读的结构化数据。

2
三种解析后端

MinerU 提供了三层解析方案，按硬件条件选：

pipeline 后端 — 纯 CPU 也能跑，精度 86.47，最低 4GB 显存。不需要 GPU，不需要大模型。适合普通文档、批量处理、没有 GPU 的环境。

hybrid 后端 — VLM 模型 + pipeline 混合解析，精度 95.39，需要 8GB 显存。分两档：medium（默认，速度快 35%~220%）和 high（最高精度）。适合精度要求高的场景。

vlm 后端 — 纯 VLM 模型解析，精度 95.30，需要 8GB 显存。适合复杂版面、扫描件。

三种后端可以通过 -b 参数切换，同一个文件可以换不同后端试效果。

3
如何安装配置

pip install uvuv pip install -U ”mineru[all]”

一行命令解析文件：

# 有 GPU 自动用最优后端mineru -p 合同.pdf -o ./output# 纯 CPU 环境指定 pipelinemineru -p 合同.pdf -o ./output -b pipeline

也支持 Docker 部署：

docker pull opendatalab/mineru:latestdocker run --rm -v $(pwd):/workspace opendatalab/mineru mineru -p /workspace/input.pdf -o /workspace/output

4
接入方式

直接在线体验

不用装任何东西，打开网页就能试：

MCP 服务器

MinerU 提供 MCP Server，Cursor、Claude Desktop、Windsurf 可以直接调用来解析文档。

RAG 框架集成

原生对接 LangChain、LlamaIndex、Dify、FastGPT、RAGFlow 等主流框架。在 RAG pipeline 里把 MinerU 当文档解析器用，不用自己写 PDF 解析逻辑。

API / CLI / WebUI

三种使用方式全覆盖：

5
局限

❶高精度后端需要 GPU。

纯 CPU 能跑但精度只有 86，要 95+ 的精度得上 GPU（8GB 显存起）。不是全场景都能零成本跑。

❷复杂版式仍然不是 100%。

手写体、极复杂排版、加密 PDF 这些边角场景还是有翻车概率。项目 README 里标注的 hybrid 后端 95.39 分是 OmniDocBench v1.6 评测集上的分数，评测集覆盖的文档类型有限，不代表所有真实文档都能达到这个精度。

如果你在搭 RAG 知识库或者给 LLM 喂文档，可以先拿 MinerU 的在线 demo 试一下自己的文件效果。输入的质量高一点的话使用时效果会好很多。

关注我，每天解锁一个用得上的小项目。