MinerU:最强开源文档解析引擎,把PDF/Word/PPT秒变Markdown

一、痛点引入

做过 RAG、知识库或者 AI Agent 的开发者，一定踩过这个坑：

拿到一份几百页的 PDF——可能是学术论文、财报、产品手册，甚至扫描件。你需要把它变成干净的文本喂给大模型。结果发现：表格乱了、公式没了、多栏排版读成一坨、扫描件直接摆烂。

这不是大模型的问题，是文档解析这个环节拖了后腿。

传统方案要么准确率低，要么付费贵，要么只支持 PDF。今天介绍的开源项目 MinerU，就是来终结这个噩梦的。

二、MinerU 是什么

MinerU 是 OpenDataLab 开源的高精度文档解析引擎，专为 LLM / RAG / Agent 工作流设计。

一句话定义：

把复杂文档（PDF、图片、Word、PPT、Excel）转化为 LLM 可用的 Markdown / JSON。

它诞生于书生·浦语（InternLM）大模型的预训练过程，经过海量真实文档打磨。最新版本 3.4（2026/06/18 发布），License 已从 AGPLv3 升级为基于 Apache 2.0 的自有开源协议，商业友好度大幅提升。

项目地址：https://github.com/opendatalab/MinerU

三、核心能力

📄 全格式原生解析

格式	支持方式
PDF	原生解析（含扫描件）
图片	JPG/PNG/WEBP 等
DOCX	原生解析，端到端速度比转PDF快数十倍
PPTX	原生解析（3.1新增）
XLSX	原生解析（3.1新增）

🧮 结构化输出

公式 → LaTeX 精准还原
表格 → HTML 格式，支持跨页合并
输出遵循人类阅读顺序
自动去除页眉页脚

🔤 109语言 OCR

支持手写体识别
多栏排版智能排序
垂直文字支持
印章文字识别

🎯 三种解析引擎可选

pipeline：纯CPU可跑，零幻觉，稳定可靠
vlm-engine：最高精度，支持图片分析
hybrid-engine：兼顾精度与速度，日常推荐

四、精度对比（OmniDocBench v1.6）

引擎	精度	特点	硬件要求
pipeline	86.47	纯CPU可跑，零幻觉，稳定可靠	最低4GB显存或纯CPU
vlm-engine (high)	95.39	最高精度，支持图片分析	8GB+显存
hybrid-engine (medium)	95.26	兼顾精度与速度	2GB显存（HTTP客户端模式）
hybrid-engine (high)	95.39	精度拉满	8GB+显存

选择建议：

无GPU或追求稳定 → pipeline
追求最高精度 → vlm-engine (high)
日常使用推荐 → hybrid-engine (medium)，精度仅低0.13分但速度提升35%-220%

五、安装与使用教程

### 环境要求

项目	要求
操作系统	Linux（2019+）/ Windows / macOS 14+
Python	3.10 - 3.13（Windows 不支持 3.13）
内存	最低16GB，推荐32GB+
硬盘	20GB+，SSD推荐
GPU	Volta架构及以上或Apple Silicon（pipeline不需要GPU）

### 安装方式

方式一：pip/uv 安装（推荐）

# 升级 pip
pip install --upgrade pip

# 安装 uv（更快的包管理器）
pip install uv

# 安装 MinerU 全功能版
uv pip install -U "mineru[all]"

方式二：源码安装

git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[all]

方式三：Docker 部署

适合快速搭建环境和解决兼容性问题。仅支持 Linux 和带 WSL2 的 Windows；macOS 用户请用前两种方式。

### CLI 命令行（最常用）

# GPU加速（默认 hybrid 引擎）
mineru -p input.pdf -o ./output

# 纯CPU环境（pipeline 引擎）
mineru -p input.pdf -o ./output -b pipeline

# 指定 hybrid 引擎 + medium 精度
mineru -p input.pdf -o ./output -b hybrid -e medium

# 批量处理——传入目录
mineru -p ./documents/ -o ./output/

支持 PDF、图片、DOCX、PPTX、XLSX 文件或目录输入。

### API 调用

MinerU 3.0 引入了全新的 API 编排系统：

# 启动本地 API 服务
mineru --api-url http://localhost:8888

同步解析：

curl -X POST http://localhost:8888/file_parse \
  -F "file=@input.pdf" \
  -o result.json

异步任务（适合大批量）：

# 提交任务
curl -X POST http://localhost:8888/tasks \
  -F "file=@input.pdf"
# 返回 task_id

# 查询状态
curl http://localhost:8888/tasks/{task_id}

### WebUI 可视化界面

内置 Gradio WebUI，一行命令启动：

mineru-webui

### 在线体验（无需安装）

三个在线渠道任选：

官方在线版（功能最全）：https://mineru.net/OpenSourceTools/Extractor
ModelScope Demo：https://www.modelscope.cn/studios/OpenDataLab/MinerU
HuggingFace Space：https://huggingface.co/spaces/opendatalab/MinerU

六、生态集成

MinerU 不是孤岛，原生对接主流工具链：

AI 编程工具（MCP Server）

Cursor / Claude Desktop / Windsurf

RAG 框架

LangChain / LlamaIndex / RAGFlow / Dify / FastGPT / Flowise / RAG-Anything

开发 SDK

Python SDK / Go SDK / TypeScript SDK / REST API

国产芯片适配

华为昇腾、寒武纪、燧原、摩尔线程、昆仑芯、海光、壁仞、天数智芯、MetaX、Iluvatar、T-Head

七、版本演进亮点

v3.4（2026/06/18）

OCR 升级至 PP-OCRv6，精度提升约11%
OCR 处理速度翻倍（100%提升）
模型下载逻辑优化，自动选择最优源
本地缓存复用，减少重复下载

v3.3（2026/06/11）

Hybrid 引擎新增 effort 参数（medium/high）
medium 模式精度仅降0.13分，速度提升35%-220%
VLM 升级至 MinerU2.5-Pro-2605-1.2B
原生多语言 OCR，开箱即用

v3.1（2026/04/18）

License 从 AGPLv3 改为基于 Apache 2.0 的自有协议
VLM 主模型升级至 MinerU2.5-Pro-2604-1.2B
新增 PPTX / XLSX 原生解析

v3.0（2026/03/29）

DOCX 原生解析，速度比传统方案快数十倍
pipeline 后端精度 86.2（超越上代 VLM）
滑动窗口机制，万字长文档不再爆内存
多线程并发推理 + mineru-router 多GPU部署
移除所有 AGPLv3 依赖模型

八、实战示例

### 解析一份学术论文

假设你有一份多栏排版的学术论文 PDF，包含公式、表格和图片：

# 用 hybrid 引擎解析（推荐日常使用）
mineru -p paper.pdf -o ./output -b hybrid

# 输出结果
ls ./output/
# paper.md          → 结构化 Markdown
# paper.json        → JSON 结构化数据
# paper/images/     → 提取的图片

打开 paper.md，你会看到：

多栏文字按正确阅读顺序排列
公式以 LaTeX 格式呈现
表格以 HTML 格式还原
图片提取到 images/ 目录并在 Markdown 中引用
页眉页脚自动去除

### 纯 CPU 环境运行

没有 GPU？pipeline 引擎照样跑：

mineru -p report.pdf -o ./output -b pipeline

### API 调用示例

# 提交异步解析任务
curl -X POST http://localhost:8888/tasks \
  -F "file=@financial_report.pdf"

# 轮询任务状态
curl http://localhost:8888/tasks/{task_id}

### 接入 LangChain 构建 RAG

from langchain.text_splitter import MarkdownHeaderTextSplitter
import subprocess

# 用 MinerU 解析
subprocess.run(["mineru", "-p", "paper.pdf", "-o", "./output", "-b", "hybrid"])

# 读取解析结果
with open("./output/paper.md") as f:
    markdown = f.read()

# 按 Markdown 标题切分
splitter = MarkdownHeaderTextSplitter()
chunks = splitter.split_text(markdown)

# 接入向量数据库...

九、适用场景与总结

适用场景：

RAG 知识库构建：批量解析企业文档，构建可检索的知识库
AI Agent 文档处理：作为工具集成到 Agent 工作流
学术研究：论文批量解析、数据提取
财报/合同分析：表格精准还原，结构化输出
多语言文档：109种语言 OCR，覆盖全球
扫描件/旧文档数字化：手写体识别 + OCR

总结：

文档解析是 AI 应用落地的「脏活累活」，但又是绕不过去的一环。MinerU 把这件事做到了开源领域的天花板级别：全格式覆盖、精度行业领先、生态丰富、部署灵活。

最关键的是——3.1 版本换掉了 AGPLv3 的包袱，商业使用更加放心。如果你正在做 RAG、Agent 或者任何需要处理文档的 AI 项目，MinerU 值得成为你的标配工具。

相关链接：

项目地址：https://github.com/opendatalab/MinerU
官方在线版：https://mineru.net
文档：https://opendatalab.github.io/MinerU
Discord：https://discord.gg/Tdedn9GTXq
License：MinerU Open Source License（基于 Apache 2.0）

*文档解析这事，交给 MinerU 就对了。* 📄→🤖