
PART.01 项目简介
MinerU 是一款一站式智能化数据提取工具,专门解决 PDF、网页、电子书、学术文献等资料复制乱码、格式错乱、图文分离、公式丢失等痛点。它可以智能解析各类文档载体,精准提取文字、段落、标题、表格、图片、数学公式、参考文献等内容,自动完成排版重构,最终统一输出规范的 Markdown、JSON格式,便于后续检索、抽取与二次处理。
PART.02 核心优势
多源载体全覆盖支持标准 PDF、扫描版 PDF、普通网页、公众号文章、各类电子书、外文文献、期刊论文等主流资料,一站式处理不用切换多个工具。
解析精度高,还原完整结构智能识别标题层级、段落分区、列表、脚注、引用内容,表格、公式、图片完整保留,不会出现文字粘连、换行混乱、内容缺失问题。
原生输出标准Markdown转换后直接生成通用 Markdown 文本 / 文件,无缝对接各类笔记软件、博客平台、知识库系统,无需二次修改格式。
区分版式智能处理针对纯电子 PDF和扫描图片型 PDF做专项优化,两种格式都能稳定提取内容。
本地运行,数据安全支持私有化部署,所有文件、网页内容均在本地处理,不上传第三方服务器,涉密文献、内部资料也可放心使用。
PART.03 主要功能
PDF 全类型解析转换原生电子 PDF:精准提取文字、标题、段落、超链接,保留原文排版逻辑;扫描版 PDF / 图片 PDF:内置 OCR 能力,识别图片中的文字内容,同样转为可编辑文本;专项识别:自动拆分页眉页脚、水印、冗余广告内容,只保留有效正文。
网页内容智能抓取输入网页链接即可自动过滤导航栏、侧边栏、弹窗、广告、推荐内容,只提取核心正文,自动梳理段落与配图,直接导出 Markdown。支持普通网页、资讯、教程、公众号图文等场景。
电子书 & 学术文献专项优化适配各类电子书、期刊、学位论文、外文文献:完整保留参考文献、引用标注、章节目录、分页逻辑,公式、化学表达式、专业符号精准还原,满足科研、学习场景使用。
全自动智能排版自动区分一级 / 二级 / 多级标题、有序 / 无序列表、引用块,统一 Markdown 语法规范,排版工整美观。
多媒体与元素保留文档内图片、插图、流程图会生成对应引用标记,可同步导出图片资源,图文对应不丢失。
公式 / 表格无损转换复杂表格自动规整行列,数学公式转换为 Markdown 可渲染格式,复制即用。
PART.04 效果展示




PART.05 快速使用
项目地址:https://github.com/opendatalab/MinerU
文档地址:https://opendatalab.github.io/MinerU/zh/
在线体验
MinerU官网:https://mineru.net
ModelScope魔塔社区:https://www.modelscope.cn/studios/OpenDataLab/MinerU

Hugging Face:https://huggingface.co/spaces/opendatalab/MinerU

本地部署
使用pip或uv安装MinerU
pip install --upgrade pip -i https://mirrors.aliyun.com/pypi/simplepip install uv -i https://mirrors.aliyun.com/pypi/simpleuv pip install -U "mineru[all]" -i https://mirrors.aliyun.com/pypi/simple通过源码安装MinerU
git clone https://github.com/opendatalab/MinerU.gitcd MinerUuv pip install -e .[all] -i https://mirrors.aliyun.com/pypi/simple使用docker部署Mineru
# 构建镜像wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfiledocker build -t mineru:latest -f Dockerfile .# 启动 Docker 容器docker run --gpus all \ --shm-size 32g \ -p 30000:30000 -p 7860:7860 -p 8000:8000 -p 8002:8002 \ --ipc=host \ -it mineru:latest \ /bin/bash在浏览器中访问 http://<server_ip>:7860 使用 Gradio WebUI。
MinerU 面向学生、科研人员、职场办公者、知识博主、笔记爱好者,不管是整理学术论文、课件资料、网页干货,还是搭建个人知识库,都能大幅降低手动排版成本,是资料数字化、归档整理的强力利器。
夜雨聆风