🔥 MinerU:PDF文档一键转Markdown,LLM数据预处理神器

64k+ Stars 的开源文档解析引擎,支持 PDF/Office 多格式输入,自动 OCR 识别、公式转 LaTeX、表格转 HTML,输出 LLM 即用型 Markdown/JSON。写论文、喂 RAG、训模型,全是它的主场。
🚀 什么是 MinerU?
MinerU 是由上海人工智能实验室 OpenDataLab 团队开源的文档智能解析工具。它能将复杂文档(PDF、图片、DOCX、PPTX、XLSX)转换成 LLM 友好的 Markdown 或 JSON 格式,解决「文档进、AI 吃」之间的中间处理难题。
传统 PDF 解析工具普遍存在几个硬伤:多栏排版错乱、扫描件无法识别、公式变成乱码、表格脱框。MinerU 用一套端到端的方案把这些坑全填了。
核心定位:文档解析界的瑞士军刀,64k Stars 不是盖的
适用人群
AI 应用开发者:RAG 系统文档预处理、知识库自动构建 科研人员:论文 PDF 批量解析、公式提取 数据工程师:训练数据清洗、PDF 结构化抽取 教育从业者:教材数字化、题库自动化
核心功能一览

🛠️ 5 分钟快速上手
安装
MinerU 一键安装,有多简单?
# pip 安装(推荐 uv,比 pip 快 10 倍) pip install --upgrade pip pip install uv uv pip install -U "mineru[all]" # 或从源码安装 git clone https://github.com/opendatalab/MinerU.git cd MinerU uv pip install -e .[all] # Docker 部署 docker pull opendatalab/mineru:latest 注意:加 [all] 安装所有核心功能,包含 OCR 引擎和公式识别模型
基本使用
一行命令,PDF 秒变 Markdown:
# 单文件解析 mineru -p input.pdf -o output/ # 批量处理整个目录 mineru -p ./pdfs/ -o ./output/ -b pipeline # 解析结果包含:Markdown + JSON + 图片 + 表格 + 公式 Python SDK 调用
from mineru import MinerU parser = MinerU() result = parser.parse( pdf_path="paper.pdf", output_format="markdown", ocr_enabled=True, formula_recognition=True, table_extraction=True ) print(f"正文字数: {len(result.text)}") print(f"图片数: {len(result.images)}") print(f"表格数: {len(result.tables)}") result.save("output.md") result.save("output.json", format="json") 一行代码集成到 LangChain RAG:
from mineru import MinerU from langchain.text_splitter import RecursiveCharacterTextSplitter parser = MinerU() md_content = parser.parse("report.pdf").text splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200) chunks = splitter.split_text(md_content) # 直接喂给 vector store! 与竞品对比

适用场景
1. RAG 知识库文档预处理
将企业文档(PDF 合同、Word 报告、Excel 数据表)一键转 Markdown/JSON,喂给向量数据库。
import os from mineru import MinerU parser = MinerU() docs_dir = "company_docs/" for fname in os.listdir(docs_dir): if fname.endswith(('.pdf', '.docx', '.pptx', '.xlsx')): result = parser.parse(os.path.join(docs_dir, fname)) result.save(f"parsed/{fname}.md") print(f"处理完成: {fname}") 输入要求:任意格式的文档文件 输出效果:干净的结构化 Markdown/JSON 适用场景:企业内部知识库、法律合同分析、财务报告处理
2. 学术论文批量解析
自动检测 PDF 中的数学公式,转换为 LaTeX 代码。表格自动转为 HTML,保留原格式。
输入要求:论文 PDF(含排版复杂的双栏、公式、图表) 输出效果:LaTeX 公式保留、表格结构化、图片分离 适用场景:论文综述写作、题库整理、教材数字化
mineru -p papers/ -o papers_output/ -b pipeline 3. 训练数据清洗流水线
扫描件自动 OCR 识别,109 种语言自动检测。语义去噪能力自动移除页眉页脚页码。
输入要求:扫描件 PDF、老旧文档 输出效果:干净的训练数据 适用场景:LLM 训练数据处理、多语言语料构建
用户群体总结
AI/ML 工程师:RAG 数据预处理,行业标准 科研人员:论文批量解析、公式提取 教育从业者:教材数字化、题库自动化 企业文档团队:合同/报告批量结构化
开源与协议
MinerU 是完全开源的项目,Apache-2.0 协议,商业使用零限制。
开源协议: Apache-2.0 GitHub 仓库: opendatalab/MinerU
完全免费开源,Apache-2.0 对商业使用零限制
总结
MinerU 是目前社区规模最大的开源文档解析工具。64k Stars 不是凭空来的——它解决了 AI 时代最基础也最头疼的问题:让机器看懂文档。
推荐指数: 五颗星
适合人群: AI 工程师、科研人员、教育从业者、企业文档团队
GitHub 仓库:opendatalab/MinerU
在线体验:mineru.net WebApp
数据截至 2026-05-21,最新信息请以官网为准。
夜雨聆风