一、痛点引入
做过 RAG、知识库或者 AI Agent 的开发者,一定踩过这个坑:
拿到一份几百页的 PDF——可能是学术论文、财报、产品手册,甚至扫描件。你需要把它变成干净的文本喂给大模型。结果发现:表格乱了、公式没了、多栏排版读成一坨、扫描件直接摆烂。
这不是大模型的问题,是文档解析这个环节拖了后腿。
传统方案要么准确率低,要么付费贵,要么只支持 PDF。今天介绍的开源项目 MinerU,就是来终结这个噩梦的。
二、MinerU 是什么
MinerU 是 OpenDataLab 开源的高精度文档解析引擎,专为 LLM / RAG / Agent 工作流设计。
一句话定义:
把复杂文档(PDF、图片、Word、PPT、Excel)转化为 LLM 可用的 Markdown / JSON。
它诞生于书生·浦语(InternLM)大模型的预训练过程,经过海量真实文档打磨。最新版本 3.4(2026/06/18 发布),License 已从 AGPLv3 升级为基于 Apache 2.0 的自有开源协议,商业友好度大幅提升。
项目地址:https://github.com/opendatalab/MinerU
三、核心能力
📄 全格式原生解析
| 格式 | 支持方式 |
|---|---|
| 原生解析(含扫描件) | |
| 图片 | JPG/PNG/WEBP 等 |
| DOCX | 原生解析,端到端速度比转PDF快数十倍 |
| PPTX | 原生解析(3.1新增) |
| XLSX | 原生解析(3.1新增) |
🧮 结构化输出
- 公式 → LaTeX 精准还原
- 表格 → HTML 格式,支持跨页合并
- 输出遵循人类阅读顺序
- 自动去除页眉页脚
🔤 109语言 OCR
- 支持手写体识别
- 多栏排版智能排序
- 垂直文字支持
- 印章文字识别
🎯 三种解析引擎可选
- pipeline:纯CPU可跑,零幻觉,稳定可靠
- vlm-engine:最高精度,支持图片分析
- hybrid-engine:兼顾精度与速度,日常推荐
四、精度对比(OmniDocBench v1.6)
| 引擎 | 精度 | 特点 | 硬件要求 |
|---|---|---|---|
| pipeline | 86.47 | 纯CPU可跑,零幻觉,稳定可靠 | 最低4GB显存或纯CPU |
| vlm-engine (high) | 95.39 | 最高精度,支持图片分析 | 8GB+显存 |
| hybrid-engine (medium) | 95.26 | 兼顾精度与速度 | 2GB显存(HTTP客户端模式) |
| hybrid-engine (high) | 95.39 | 精度拉满 | 8GB+显存 |
选择建议:
- 无GPU或追求稳定 → pipeline
- 追求最高精度 → vlm-engine (high)
- 日常使用推荐 → hybrid-engine (medium),精度仅低0.13分但速度提升35%-220%
五、安装与使用教程
### 环境要求
| 项目 | 要求 |
|---|---|
| 操作系统 | Linux(2019+)/ Windows / macOS 14+ |
| Python | 3.10 - 3.13(Windows 不支持 3.13) |
| 内存 | 最低16GB,推荐32GB+ |
| 硬盘 | 20GB+,SSD推荐 |
| GPU | Volta架构及以上或Apple Silicon(pipeline不需要GPU) |
### 安装方式
方式一:pip/uv 安装(推荐)
# 升级 pip
pip install --upgrade pip
# 安装 uv(更快的包管理器)
pip install uv
# 安装 MinerU 全功能版
uv pip install -U "mineru[all]"方式二:源码安装
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[all]方式三:Docker 部署
适合快速搭建环境和解决兼容性问题。仅支持 Linux 和带 WSL2 的 Windows;macOS 用户请用前两种方式。
### CLI 命令行(最常用)
# GPU加速(默认 hybrid 引擎)
mineru -p input.pdf -o ./output
# 纯CPU环境(pipeline 引擎)
mineru -p input.pdf -o ./output -b pipeline
# 指定 hybrid 引擎 + medium 精度
mineru -p input.pdf -o ./output -b hybrid -e medium
# 批量处理——传入目录
mineru -p ./documents/ -o ./output/支持 PDF、图片、DOCX、PPTX、XLSX 文件或目录输入。
### API 调用
MinerU 3.0 引入了全新的 API 编排系统:
# 启动本地 API 服务
mineru --api-url http://localhost:8888同步解析:
curl -X POST http://localhost:8888/file_parse \
-F "file=@input.pdf" \
-o result.json异步任务(适合大批量):
# 提交任务
curl -X POST http://localhost:8888/tasks \
-F "file=@input.pdf"
# 返回 task_id
# 查询状态
curl http://localhost:8888/tasks/{task_id}### WebUI 可视化界面
内置 Gradio WebUI,一行命令启动:
mineru-webui### 在线体验(无需安装)
三个在线渠道任选:
- 官方在线版(功能最全):https://mineru.net/OpenSourceTools/Extractor
- ModelScope Demo:https://www.modelscope.cn/studios/OpenDataLab/MinerU
- HuggingFace Space:https://huggingface.co/spaces/opendatalab/MinerU
六、生态集成
MinerU 不是孤岛,原生对接主流工具链:
AI 编程工具(MCP Server)
- Cursor / Claude Desktop / Windsurf
RAG 框架
- LangChain / LlamaIndex / RAGFlow / Dify / FastGPT / Flowise / RAG-Anything
开发 SDK
- Python SDK / Go SDK / TypeScript SDK / REST API
国产芯片适配
- 华为昇腾、寒武纪、燧原、摩尔线程、昆仑芯、海光、壁仞、天数智芯、MetaX、Iluvatar、T-Head
七、版本演进亮点
v3.4(2026/06/18)
- OCR 升级至 PP-OCRv6,精度提升约11%
- OCR 处理速度翻倍(100%提升)
- 模型下载逻辑优化,自动选择最优源
- 本地缓存复用,减少重复下载
v3.3(2026/06/11)
- Hybrid 引擎新增 effort 参数(medium/high)
- medium 模式精度仅降0.13分,速度提升35%-220%
- VLM 升级至 MinerU2.5-Pro-2605-1.2B
- 原生多语言 OCR,开箱即用
v3.1(2026/04/18)
- License 从 AGPLv3 改为基于 Apache 2.0 的自有协议
- VLM 主模型升级至 MinerU2.5-Pro-2604-1.2B
- 新增 PPTX / XLSX 原生解析
v3.0(2026/03/29)
- DOCX 原生解析,速度比传统方案快数十倍
- pipeline 后端精度 86.2(超越上代 VLM)
- 滑动窗口机制,万字长文档不再爆内存
- 多线程并发推理 + mineru-router 多GPU部署
- 移除所有 AGPLv3 依赖模型
八、实战示例
### 解析一份学术论文
假设你有一份多栏排版的学术论文 PDF,包含公式、表格和图片:
# 用 hybrid 引擎解析(推荐日常使用)
mineru -p paper.pdf -o ./output -b hybrid
# 输出结果
ls ./output/
# paper.md → 结构化 Markdown
# paper.json → JSON 结构化数据
# paper/images/ → 提取的图片打开 paper.md,你会看到:
- 多栏文字按正确阅读顺序排列
- 公式以 LaTeX 格式呈现
- 表格以 HTML 格式还原
- 图片提取到
images/目录并在 Markdown 中引用 - 页眉页脚自动去除
### 纯 CPU 环境运行
没有 GPU?pipeline 引擎照样跑:
mineru -p report.pdf -o ./output -b pipeline### API 调用示例
# 提交异步解析任务
curl -X POST http://localhost:8888/tasks \
-F "file=@financial_report.pdf"
# 轮询任务状态
curl http://localhost:8888/tasks/{task_id}### 接入 LangChain 构建 RAG
from langchain.text_splitter import MarkdownHeaderTextSplitter
import subprocess
# 用 MinerU 解析
subprocess.run(["mineru", "-p", "paper.pdf", "-o", "./output", "-b", "hybrid"])
# 读取解析结果
with open("./output/paper.md") as f:
markdown = f.read()
# 按 Markdown 标题切分
splitter = MarkdownHeaderTextSplitter()
chunks = splitter.split_text(markdown)
# 接入向量数据库...九、适用场景与总结
适用场景:
- RAG 知识库构建:批量解析企业文档,构建可检索的知识库
- AI Agent 文档处理:作为工具集成到 Agent 工作流
- 学术研究:论文批量解析、数据提取
- 财报/合同分析:表格精准还原,结构化输出
- 多语言文档:109种语言 OCR,覆盖全球
- 扫描件/旧文档数字化:手写体识别 + OCR
总结:
文档解析是 AI 应用落地的「脏活累活」,但又是绕不过去的一环。MinerU 把这件事做到了开源领域的天花板级别:全格式覆盖、精度行业领先、生态丰富、部署灵活。
最关键的是——3.1 版本换掉了 AGPLv3 的包袱,商业使用更加放心。如果你正在做 RAG、Agent 或者任何需要处理文档的 AI 项目,MinerU 值得成为你的标配工具。
相关链接:
- 项目地址:https://github.com/opendatalab/MinerU
- 官方在线版:https://mineru.net
- 文档:https://opendatalab.github.io/MinerU
- Discord:https://discord.gg/Tdedn9GTXq
- License:MinerU Open Source License(基于 Apache 2.0)
*文档解析这事,交给 MinerU 就对了。* 📄→🤖
夜雨聆风