项目简介
| 字段 | 内容 |
|---|---|
| 项目名称 | opendatalab/MinerU |
| 项目地址 | https://github.com/opendatalab/MinerU[1] |
| Star 数 | 69419 |
| Fork 数 | 5869 |
MinerU 是上海人工智能实验室 OpenDataLab 团队开源的高精度文档解析引擎,可将 PDF、图片以及 DOCX、PPTX、XLSX 等输入转化为 Markdown、JSON 等机器可读格式,面向 RAG、Agent 工作流与大模型数据预训练场景。项目诞生于书生·浦语(InternLM)预训练过程中的文献符号转化需求,持续聚焦科技文献中的复杂版面、公式与表格识别难题。
相比「先转 PDF 再解析」的传统路径,MinerU 对 Office 格式提供原生解析能力,在精度与吞吐上更具优势;同时提供 CLI、FastAPI、Gradio WebUI、mineru-router 等多种调用形态,并支持纯 CPU 与 GPU/NPU/MPS 加速部署,兼容 Windows、Linux 与 macOS。项目采用基于 Apache 2.0 的 MinerU 开源许可证(含附加条款),降低了社区与商业场景的集成门槛。
核心特性
多格式原生解析:支持 PDF、图片、DOCX、PPTX、XLSX 及网页输入,输出按人类阅读顺序排列的 Markdown 或 JSON,自动去除页眉、页脚、脚注与页码。 VLM + OCR 双引擎:提供 pipeline、vlm-engine、hybrid-engine 等推理后端,公式转 LaTeX、表格转 HTML,支持扫描件、手写体、多栏排版与跨页表格合并;OCR 覆盖 109 种语言。 生态集成完善:内置 MCP Server,可与 Cursor、Claude Desktop 等 AI 编码工具对接;原生支持 LangChain、Dify、FastGPT、RAGFlow 等 RAG 框架,并提供 Python / Go / TypeScript SDK 与 REST API。 企业级部署能力:mineru-router 支持多 GPU 任务路由与负载均衡;3.0 起引入异步任务 API 与滑动窗口机制,可稳定处理超长文档;适配 10 余种国产 AI 芯片,支持完全离线私有化部署。 持续快速迭代:2026 年 6 月发布 3.4 版本,pipeline 后端 OCR 模型升级至 PP-OCRv6,OmniDocBench v1.6 准确率提升约 11%,OCR 处理速度翻倍,并优化模型下载与本地缓存复用体验。
快速开始
推荐使用 uv 安装完整功能包,一条命令即可完成环境准备:
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"
若需从源码安装或参与开发,可克隆仓库后本地 editable 安装:
git clone https://github.com/opendatalab/MinerU.git
cd MinerU
uv pip install -e .[all]
安装完成后,用 CLI 解析单个 PDF 或 Office 文件,将结果写入指定输出目录:
# GPU 加速(默认 vlm-engine 后端)
mineru -p paper.pdf -o output/
# 纯 CPU 环境
mineru -p paper.pdf -o output/ -b pipeline
# 原生解析 Word 文档(无需先转 PDF)
mineru -p report.docx -o output/
也可启动 Gradio WebUI 在浏览器中可视化验证解析效果,或通过 FastAPI 与 mineru-router 搭建高并发批量解析服务。首次部署建议先用小样本文档跑通,再进入生产批处理;详细参数与 Docker 部署说明见官方使用指南[2]。
为什么火了
大模型应用爆发以来,「文档能不能被模型正确读懂」成了 RAG 与 Agent 落地的第一道门槛:表格变乱码、公式丢失、多栏错位、扫描件空白——这些问题直接决定知识库质量。MinerU 以 VLM + OCR 双引擎在 OmniDocBench 等基准上取得领先表现,并把 PDF、Office、图片统一输出为结构化 Markdown/JSON,恰好踩中了「LLM 就绪数据管道」这一刚需。
另一方面,项目近一年迭代极为密集:许可证从 AGPLv3 调整为更友好的 MinerU Open Source License,3.x 系列陆续补齐 DOCX/PPTX/XLSX 原生解析、MCP 集成、多 GPU 路由与国产算力适配,同时提供 mineru.net 在线版、桌面客户端与 API 等多种产品形态,降低了从试用到生产的切换成本。在 Agent 工具链与 MCP 生态快速扩张的当下,一个「开箱即用、可私有部署、精度够硬」的文档解析底座,自然成为开发者社区持续关注和传播的对象。
引用链接
[1]https://github.com/opendatalab/MinerU
[2]官方使用指南: https://opendatalab.github.io/MinerU/usage/
夜雨聆风