开篇:你是不是也遇到过这些崩溃瞬间?
复制 PDF 里的数学公式,结果变成一堆乱码符号;
想提取论文里的表格,粘贴出来全是断行的碎片;
扫描版文档无法搜索,只能一页页翻;
多栏排版的文章,复制后顺序完全错乱……
这些痛点,背后都是同一个问题:传统工具无法真正"读懂"文档。
今天给大家安利一个开源神器——MinerU,由上海人工智能实验室 OpenDataLab 团队开发,专门解决复杂文档的结构化提取。
上线不到一年,GitHub 已经拿下 2.5 万 stars,登顶过 Trending 榜首,成为文档解析领域的明星项目。

MinerU 是什么?
用一句话概括:MinerU 是一款将 PDF、Word、PPT、Excel 等文档转换为机器可读格式(Markdown/JSON)的 AI 解析引擎。
它的核心目标是"让机器读懂文档",输出的内容不仅人类可读,更适合大模型、RAG 知识库等 AI 应用直接使用。
诞生背景
MinerU 诞生于书生·浦语大模型的预训练过程中。
上海 AI 实验室在处理海量训练数据时发现:市面上现有的文档解析工具,要么无法处理复杂排版,要么丢失公式表格,要么对扫描版束手无策。
于是团队决定自研一款工具,并在 2024 年 7 月正式开源。
核心能力一览
核心功能详解
1️⃣ 全能格式支持
2026 年 4 月发布的 3.1 版本,MinerU 实现了全格式原生解析:
• PDF:支持多模态 PDF(含图片、表格、公式)的结构化转换 • DOCX:原生解析,无需先转 PDF,速度提升数十倍 • PPTX:2026 年 4 月新增,直接提取幻灯片内容和结构 • XLSX:2026 年 4 月新增,表格数据完整保留 • 图片:支持 JPG、PNG 等格式的 OCR 识别 • 网页:URL 直接输入,转为结构化 Markdown
关键点:原生解析意味着更高的精度和更快的速度,避免了"先转 PDF 再解析"带来的信息损失。
2️⃣ 智能版面分析
这是 MinerU 最核心的能力之一。
传统工具按"行"切割文本,遇到多栏排版就彻底乱套。MinerU 通过 AI 模型理解文档结构,实现:
• 自动去噪:精准识别并移除页眉、页脚、脚注、页码等干扰元素 • 阅读顺序还原:支持单栏、多栏、跨页等复杂排版,输出符合人类阅读顺序的文本流 • 结构保留:标题、段落、列表、引用等层级关系完整保留
实际效果:一篇双栏排版的学术论文,MinerU 能正确识别"左栏读完再读右栏",而不是"第一行左 + 右,第二行左 + 右"的错误顺序。
3️⃣ 多模态内容提取
公式识别 → LaTeX
理工科读者的福音。MinerU 能自动识别文档中的数学公式,并转换为 LaTeX 格式:
输入 PDF 中的公式图像输出:$E = mc^2$ 或 \frac{a}{b} + \frac{c}{d}准确率:在常见公式类型上达到 95%+,复杂公式也能保持结构完整。
表格提取 → HTML
表格是另一大痛点。MinerU 的输出是 HTML 格式,保留:
• 行列结构 • 合并单元格 • 跨页表格自动合并 • 表头和数据对应关系
<table> <thead> <tr><th>姓名</th><th>年龄</th><th>城市</th></tr> </thead> <tbody> <tr><td>张三</td><td>25</td><td>北京</td></tr> </tbody></table>图片处理
• 自动提取文档中的图片 • 可为图片生成描述文字(alt text) • 支持表格内图片识别
OCR 能力
• 109 种语言识别,覆盖全球主流语言 • 支持扫描件和手写体 • 对模糊、倾斜、低分辨率图像有较强鲁棒性

4️⃣ 部署灵活,国产芯片适配
MinerU 提供三种使用方式:
后端引擎选择:
• pipeline:快速稳定,无幻觉,CPU/GPU 均可运行 • vlm-engine:高精度,支持 vLLM/LMDeploy/mlx 生态 • hybrid-engine:高精度 + 原生文本提取,低幻觉
国产芯片支持:华为昇腾、寒武纪、燧原、天数智芯、摩尔线程、昆仑芯、壁仞、平头哥等 10+ 国产 AI 芯片均已适配。
使用场景
场景 1:大模型训练数据准备
将海量 PDF 论文、技术文档、书籍转换为 Markdown 格式,作为大模型的训练语料。
优势:
• 结构化输出,减少清洗成本 • 公式、表格完整保留,数据质量高 • 批量处理,效率高
场景 2:RAG 知识库构建
企业内部的合同、手册、报告等文档,通过 MinerU 解析后存入向量数据库,构建 RAG 知识库。
案例:某科技公司用 MinerU 处理了 5000+ 份技术文档,知识库问答准确率提升 40%。
场景 3:科研与学习
• 批量处理论文,快速提取核心内容 • 将教材转为 Markdown,方便做笔记和检索 • 跨语言文献,OCR 翻译一体化
场景 4:办公自动化
• 合同、报表的批量解析 • 历史档案数字化 • 会议纪要自动整理

与其他工具对比
结论:如果你需要处理的是简单文本文档,传统工具足够;但如果涉及公式、表格、复杂排版或扫描版,MinerU 是更好的选择。
快速上手指南
方式 1:在线体验(推荐新手)
访问官网:mineru.net
• 无需安装,注册即用 • 支持拖拽上传 • 实时预览解析结果
方式 2:本地部署
# 安装pip install mineru# 使用mineru input.pdf -o output.md# 批量处理mineru ./docs/*.pdf -o ./output/环境要求:
• Python 3.8+ • CPU 即可运行(推荐 GPU 加速) • 内存 8GB+(处理大文档建议 16GB)
方式 3:API 调用
from mineru import MinerUclient = MinerU(api_key="your_key")result = client.parse("document.pdf")print(result.markdown)集成生态
MinerU 已原生集成多个主流框架:
• AI 编程工具:Cursor、Claude Desktop、Windsurf(通过 MCP Server) • RAG 框架:LangChain、LlamaIndex、RAGFlow、Dify、FastGPT • 开发 SDK:Python、Go、TypeScript • 部署:Docker、REST API
总结
MinerU 的核心价值:降低 AI 数据准备门槛,让文档解析不再成为瓶颈。
适用人群:
• AI 开发者:准备训练数据、构建 RAG 知识库 • 科研人员:批量处理论文、提取数据 • 知识工作者:文档数字化、信息提取
获取方式:
• GitHub:https://github.com/opendatalab/MinerU • 官网:https://mineru.net • 文档:https://github.com/opendatalab/MinerU/wiki
最后说一句:
在大模型时代,数据质量决定模型上限。MinerU 这样的工具,正是连接"人类文档"和"机器理解"的桥梁。
如果你也在为文档解析头疼,不妨试试这个国产开源神器。
互动话题:
你遇到过最崩溃的文档解析问题是什么?欢迎在评论区留言,我们一起找解决方案!
觉得有用,欢迎点赞、在看、转发三连支持! 👍
夜雨聆风