GitHub 2.5 万 stars 的 PDF 神器,公式表格完美提取,告别乱码!

开篇：你是不是也遇到过这些崩溃瞬间？

复制 PDF 里的数学公式，结果变成一堆乱码符号；

想提取论文里的表格，粘贴出来全是断行的碎片；

扫描版文档无法搜索，只能一页页翻；

多栏排版的文章，复制后顺序完全错乱……

这些痛点，背后都是同一个问题：传统工具无法真正"读懂"文档。

今天给大家安利一个开源神器——MinerU，由上海人工智能实验室 OpenDataLab 团队开发，专门解决复杂文档的结构化提取。

上线不到一年，GitHub 已经拿下 2.5 万 stars，登顶过 Trending 榜首，成为文档解析领域的明星项目。

MinerU 是什么？

用一句话概括：MinerU 是一款将 PDF、Word、PPT、Excel 等文档转换为机器可读格式（Markdown/JSON）的 AI 解析引擎。

它的核心目标是"让机器读懂文档"，输出的内容不仅人类可读，更适合大模型、RAG 知识库等 AI 应用直接使用。

诞生背景

MinerU 诞生于书生·浦语大模型的预训练过程中。

上海 AI 实验室在处理海量训练数据时发现：市面上现有的文档解析工具，要么无法处理复杂排版，要么丢失公式表格，要么对扫描版束手无策。

于是团队决定自研一款工具，并在 2024 年 7 月正式开源。

核心能力一览

能力	说明
格式支持	PDF、DOCX、PPTX、XLSX、图片、网页
公式识别	自动转换为 LaTeX 格式
表格提取	转为 HTML，保留结构和跨页合并
OCR 识别	109 种语言，支持扫描件和手写体
版面分析	自动去除页眉页脚，还原阅读顺序
部署方式	在线网页版 / 本地客户端 / Python 调用

核心功能详解

1️⃣ 全能格式支持

2026 年 4 月发布的 3.1 版本，MinerU 实现了全格式原生解析：

• PDF：支持多模态 PDF（含图片、表格、公式）的结构化转换
• DOCX：原生解析，无需先转 PDF，速度提升数十倍
• PPTX：2026 年 4 月新增，直接提取幻灯片内容和结构
• XLSX：2026 年 4 月新增，表格数据完整保留
• 图片：支持 JPG、PNG 等格式的 OCR 识别
• 网页：URL 直接输入，转为结构化 Markdown

关键点：原生解析意味着更高的精度和更快的速度，避免了"先转 PDF 再解析"带来的信息损失。

2️⃣ 智能版面分析

这是 MinerU 最核心的能力之一。

传统工具按"行"切割文本，遇到多栏排版就彻底乱套。MinerU 通过 AI 模型理解文档结构，实现：

• 自动去噪：精准识别并移除页眉、页脚、脚注、页码等干扰元素
• 阅读顺序还原：支持单栏、多栏、跨页等复杂排版，输出符合人类阅读顺序的文本流
• 结构保留：标题、段落、列表、引用等层级关系完整保留

实际效果：一篇双栏排版的学术论文，MinerU 能正确识别"左栏读完再读右栏"，而不是"第一行左 + 右，第二行左 + 右"的错误顺序。

3️⃣ 多模态内容提取

公式识别 → LaTeX

理工科读者的福音。MinerU 能自动识别文档中的数学公式，并转换为 LaTeX 格式：

输入 PDF 中的公式图像输出：$E = mc^2$ 或 \frac{a}{b} + \frac{c}{d}

准确率：在常见公式类型上达到 95%+，复杂公式也能保持结构完整。

表格提取 → HTML

表格是另一大痛点。MinerU 的输出是 HTML 格式，保留：

• 行列结构
• 合并单元格
• 跨页表格自动合并
• 表头和数据对应关系

<table>  <thead>    <tr><th>姓名</th><th>年龄</th><th>城市</th></tr>  </thead>  <tbody>    <tr><td>张三</td><td>25</td><td>北京</td></tr>  </tbody></table>

图片处理

• 自动提取文档中的图片
• 可为图片生成描述文字（alt text）
• 支持表格内图片识别

OCR 能力

• 109 种语言识别，覆盖全球主流语言
• 支持扫描件和手写体
• 对模糊、倾斜、低分辨率图像有较强鲁棒性

4️⃣ 部署灵活，国产芯片适配

MinerU 提供三种使用方式：

方式	适用场景	难度
在线网页版	快速体验，少量文档	⭐ 最简单
本地客户端	批量处理，隐私敏感	⭐⭐ 中等
Python 调用	集成到工作流，自动化	⭐⭐⭐ 需编程

后端引擎选择：

• pipeline：快速稳定，无幻觉，CPU/GPU 均可运行
• vlm-engine：高精度，支持 vLLM/LMDeploy/mlx 生态
• hybrid-engine：高精度 + 原生文本提取，低幻觉

国产芯片支持：华为昇腾、寒武纪、燧原、天数智芯、摩尔线程、昆仑芯、壁仞、平头哥等 10+ 国产 AI 芯片均已适配。

使用场景

场景 1：大模型训练数据准备

将海量 PDF 论文、技术文档、书籍转换为 Markdown 格式，作为大模型的训练语料。

优势：

• 结构化输出，减少清洗成本
• 公式、表格完整保留，数据质量高
• 批量处理，效率高

场景 2：RAG 知识库构建

企业内部的合同、手册、报告等文档，通过 MinerU 解析后存入向量数据库，构建 RAG 知识库。

案例：某科技公司用 MinerU 处理了 5000+ 份技术文档，知识库问答准确率提升 40%。

场景 3：科研与学习

• 批量处理论文，快速提取核心内容
• 将教材转为 Markdown，方便做笔记和检索
• 跨语言文献，OCR 翻译一体化

场景 4：办公自动化

• 合同、报表的批量解析
• 历史档案数字化
• 会议纪要自动整理

与其他工具对比

对比维度	MinerU	传统 PDF 工具
公式识别	LaTeX 精准转换	无法识别或乱码
表格处理	HTML 格式，保留结构	纯文本，结构丢失
多栏排版	自动还原阅读顺序	按行切割，语义断裂
扫描版支持	OCR 识别，109 种语言	无法处理
开源生态	GitHub 2.5 万 stars	闭源或付费
大模型友好	Markdown/JSON 输出	纯文本为主

结论：如果你需要处理的是简单文本文档，传统工具足够；但如果涉及公式、表格、复杂排版或扫描版，MinerU 是更好的选择。

快速上手指南

方式 1：在线体验（推荐新手）

访问官网：mineru.net

• 无需安装，注册即用
• 支持拖拽上传
• 实时预览解析结果

方式 2：本地部署

# 安装pip install mineru# 使用mineru input.pdf -o output.md# 批量处理mineru ./docs/*.pdf -o ./output/

环境要求：

• Python 3.8+
• CPU 即可运行（推荐 GPU 加速）
• 内存 8GB+（处理大文档建议 16GB）

方式 3：API 调用

from mineru import MinerUclient = MinerU(api_key="your_key")result = client.parse("document.pdf")print(result.markdown)

集成生态

MinerU 已原生集成多个主流框架：

• AI 编程工具：Cursor、Claude Desktop、Windsurf（通过 MCP Server）
• RAG 框架：LangChain、LlamaIndex、RAGFlow、Dify、FastGPT
• 开发 SDK：Python、Go、TypeScript
• 部署：Docker、REST API

总结

MinerU 的核心价值：降低 AI 数据准备门槛，让文档解析不再成为瓶颈。

适用人群：

• AI 开发者：准备训练数据、构建 RAG 知识库
• 科研人员：批量处理论文、提取数据
• 知识工作者：文档数字化、信息提取

获取方式：

• GitHub：https://github.com/opendatalab/MinerU
• 官网：https://mineru.net
• 文档：https://github.com/opendatalab/MinerU/wiki

最后说一句：

在大模型时代，数据质量决定模型上限。MinerU 这样的工具，正是连接"人类文档"和"机器理解"的桥梁。

如果你也在为文档解析头疼，不妨试试这个国产开源神器。

互动话题：

你遇到过最崩溃的文档解析问题是什么？欢迎在评论区留言，我们一起找解决方案！

觉得有用，欢迎点赞、在看、转发三连支持！ 👍