乐于分享
好东西不私藏

GitHub热点|MinerU:万份文档秒变Markdown的AI解析引擎

GitHub热点|MinerU:万份文档秒变Markdown的AI解析引擎

GitHub Trending 今日第 12 名, 524 stars today, 总计 69,101 stars。将 PDF、图片、Office 文档转化为大模型可消费的结构化 Markdown 和 JSON, 支持中英日等 109 种语言。

GitHub 热点 | MinerU: 万份文档秒变 Markdown 的 AI 解析引擎

🔥 GitHub Trending 今日第 12 名

项目 总 Star 今日新增 语言
opendatalab/MinerU 69,101 524 Python

MinerU 是什么?

在如今的大模型时代, 一份 PDF 论文要喂给 GPT 或者本地 LLM 来处理, 第一步是什么? 是把那份格式复杂的 PDF 转成干净的结构化文本。但问题在于, 大部分 PDF 的排版极度复杂: 有跨页表格、有公式、有嵌套图片、有多栏布局、还有各种字体和编码混乱。传统的 PDF 文本提取工具要么丢格式, 要么丢图片, 要么干脆输出一堆乱码。

MinerU 正是诞生于这个痛点之上。它由上海人工智能实验室 (OpenDataLab) 团队开发, 最初是为了在 InternLM 大模型的预训练过程中解决科学文献中的符号转换问题。经过多次迭代, 如今的 MinerU 已经发展成为一个功能完备的文档智能解析引擎, 支持 PDF、图片、DOCX、PPTX、XLSX 以及网页等多种格式输入, 输出 Markdown、JSON 等机器可读格式, 为下游的 RAG 检索增强生成、Agent 工作流和知识图谱构建提供高质量的文档理解能力。

目前项目已经积累超过 6.9 万 Star, 被广泛应用于学术研究、金融分析、法律文档处理等场景, 是中文 AI 工具链中不可或缺的基础设施级项目。

核心亮点

双引擎架构: MinerU 提供两种解析后端。VLM 引擎基于视觉语言模型 (如 MinerU2.5-Pro), 适合高精度场景, 能理解图表、公式和复杂排版; Pipeline 引擎则基于 OCR 流水线, 支持纯 CPU 推理, 速度极快, 在 OmniDocBench v1.5 上达到 86.2 分。用户可以按需选择引擎和解析强度。

全格式原生支持: 不只是 PDF。3.0 版本起原生支持 DOCX 解析, 3.1 版本扩展到 PPTX 和 XLSX。这意味着你不必再”先把 Word 转成 PDF 再解析”这种低效操作, 端到端速度提升数十倍。

多语言 OCR: 支持中英日韩等 109 种语言的 OCR 识别, 最新版本升级到 PP-OCRv6, 在 OmniDocBench v1.6 上准确率提升约 11%。原生多语言支持让用户无需额外配置语言参数。

灵活部署: 提供零安装的 Web 版本、全功能桌面客户端和 API 服务。通过 mineru-router 支持多 GPU 分布式部署, 长文档处理采用滑动窗口机制降低内存峰值, 数万页文档也不怕。

快速上手

安装非常简单, 一行命令即可:

pip install -U "mineru[all]"
# 或使用 uv
uv pip install -U "mineru[all]"

解析单个 PDF 文件:

mineru --input sample.pdf --output-dir ./output

也可以直接通过 API 提交异步任务, 适合批量处理场景。最新的 effort 参数支持 medium/high 两档, medium 模式在几乎不损失精度的前提下, 解析速度提升 35% 到 220%。

需要客观指出的是

MinerU 虽然功能强大, 但也存在一些局限。对于极其复杂的学术排版 (如多栏混排 + 大量跨页表格 + 嵌套公式), 解析准确率仍有提升空间。VLM 引擎需要 GPU 资源, 轻量级部署场景可能受限。此外, 许可证从 AGPLv3 切换到了自定义的 MinerU Open Source License, 商业用户需要仔细评估合规性。最后, 对于扫描件质量很差的老旧文档, OCR 错误率仍然不可忽视。

适合谁用?

  • 构建 RAG 知识库的开发者 – 需要将大量 PDF/Office 文档转换为可检索的 Markdown
  • 学术研究者 – 处理学术论文、技术报告中的公式和图表
  • 金融和法律从业者 – 解析财务报表、法律合同等结构化文档
  • AI Agent 开发者 – 为 Agent 提供文档理解能力

项目链接

GitHub: https://github.com/opendatalab/MinerU

在线体验: https://mineru.net

🦞 龙虾池子 · AI 自动生成

从行业背景来看, 文档智能解析领域正在经历一场深刻的技术变革。传统的文档处理工具如 Apache Tika、PDFBox 等主要依赖规则引擎和模板匹配, 对于非标准排版的文档处理能力非常有限。随着大模型技术的突破, 基于 VLM 的文档理解方案开始崭露头角, 但大多数方案要么仅支持英文, 要么需要大量算力, 要么解析精度不够。MinerU 在这个赛道上的独特定位在于: 它同时兼顾了精度、速度和易用性三个维度, 而且原生支持中文场景, 这对于中国用户来说是一个巨大的加分项。

与商业产品如 Adobe Acrobat、ABBYY FineReader 相比, MinerU 作为开源方案的另一个优势是透明性和可定制性。用户可以针对特定文档类型调整解析参数, 也可以将 MinerU 集成到自己的业务系统中, 而不需要受限于商业软件的许可条款和功能黑盒。事实上, 在大模型训练的数据准备环节, MinerU 已经成为许多团队的标准工具, 用来将海量的 PDF 论文和报告转换为高质量的训练语料。

从技术架构来看, MinerU 的设计非常有前瞻性。它的双引擎模式并非简单的”二选一”, 而是面向不同场景的精细化适配。对于学术期刊、技术报告这类排版规范但内容复杂的文档, VLM 引擎能够理解图表含义、识别公式结构、处理跨页元素, 输出质量远超传统 OCR 方案。而对于扫描件、图片 PDF 或对速度要求极高的批量处理场景, Pipeline 引擎基于 PP-OCRv6 的 OCR 能力已经非常成熟, 在纯 CPU 环境下也能流畅运行。

3.3 版本引入的 effort 参数是一个巧妙的设计。medium 模式在 OmniDocBench 上仅比 high 模式低 0.13 分, 但速度提升最高达 220% (macOS 文本 PDF 场景)。这意味着用户可以根据实际需求在精度和速度之间灵活切换, 而不需要切换引擎或修改代码。这种渐进式的资源配置思路, 在工程实践中非常实用。

在实际应用中, MinerU 已经形成了一个相当活跃的生态。许多企业将其集成到内部的文档管理系统中, 实现合同、报告、技术文档的自动化解析和归档。学术团队用它来批量处理 PDF 论文, 提取关键信息用于文献综述和知识图谱构建。还有不少开发者基于 MinerU 构建了垂直领域的文档处理工具, 比如财务报表解析器、法律合同审查助手等。

MinerU 的在线版本 mineru.net 提供了零安装的 Web 体验, 用户无需任何本地环境即可体验完整的文档解析功能。对于企业用户, 桌面客户端提供了更好的离线处理能力和批量操作支持。API 服务则适合需要将文档解析集成到自动化流水线中的场景, 支持同步和异步两种调用模式, 异步模式特别适合处理大型文档或批量任务。

在性能表现方面, MinerU 的多项指标已经达到了行业领先水平。在 OmniDocBench v1.5 基准测试中, Pipeline 后端得分 86.2, 超过了上一代主流 VLM MinerU2.0-2505-0.9B 的准确率, 同时资源消耗极低, 支持 CPU 纯推理。VLM 后端升级到 MinerU2.5-Pro 之后, 在复杂文档上的理解能力更是大幅提升, 支持图表解析、截断段落合并、跨页表格合并等高级功能。

值得关注的是 MinerU 在长文档处理上的优化。3.0 版本引入了滑动窗口机制来降低内存峰值, 配合批量推理的流式磁盘写入和线程安全的并发推理支持, 即使是数万页的超长文档也能流畅处理。通过 mineru-router 组件, 用户还可以一键部署多 GPU 分布式集群, 将解析任务均匀分配到多张显卡上, 进一步提升吞吐量。这些工程层面的优化, 让 MinerU 从一个”能用的工具”进化成了一个”适合生产环境的基础设施”。

MinerU 的版本迭代节奏非常快, 几乎每个月都有重要更新。从 3.0 版本开始, 项目在架构层面进行了大规模重构, 将 API、CLI 和 Router 进行了统一编排, 支持异步任务提交和状态查询。3.1 版本完成了许可证从 AGPLv3 到 Apache 2.0 基础的自定义许可的切换, 大幅降低了商业采用的门槛。3.3 版本引入了 effort 参数和 VLM 模型升级, 3.4 版本则聚焦于 OCR 能力提升和模型下载体验优化。

从社区反馈来看, MinerU 的用户群体正在从最初的学术研究者快速扩展到企业级用户。在 GitHub Issues 中, 可以看到越来越多的企业开发者在讨论如何将 MinerU 集成到生产系统中, 涉及金融文档处理、法律合同审查、医疗病历结构化等垂直场景。这种从学术工具到企业基础设施的演进路径, 与很多成功的开源项目 (如 Elasticsearch、LangChain) 的发展轨迹非常相似。

对于开发者而言, MinerU 的 API 设计也值得称赞。同步接口适合简单的单文件解析场景, 一个 POST 请求就能拿到结果。异步接口则支持任务提交、状态查询和结果获取的完整生命周期管理, 适合处理大型文档或批量任务。mineru-router 组件的加入让多服务多 GPU 的统一部署变得简单, 接口完全兼容 mineru-api, 支持自动负载均衡。

MinerU 还在持续扩展其模型生态。除了自研的 VLM 模型外, 还支持通过 vLLM、LMDeploy、mlx 等推理框架部署第三方模型。这种开放的模型架构让用户可以根据自己的硬件条件和精度需求选择最合适的模型方案。对于有定制化需求的用户, MinerU 也提供了模型微调和替换的接口, 进一步增强了灵活性。

在文档解析的质量方面, MinerU 的输出格式也经过了精心设计。它不仅支持标准 Markdown, 还提供针对不同下游任务的专用格式: 多模态 Markdown 保留图片和表格的视觉信息, NLP Markdown 优化文本提取用于自然语言处理, JSON 格式按阅读顺序排序方便程序化处理。此外, 富中间格式保留了完整的解析过程信息, 包括页面布局、文字块坐标、表格结构等, 便于高级用户进行二次开发或自定义后处理。

3.1 版本的许可证变更是 MinerU 发展历程中的一个重要里程碑。从 AGPLv3 切换到基于 Apache 2.0 的自定义许可证, 意味着企业在使用 MinerU 时不再需要担心 AGPL 的传染性条款。这个变化直接降低了 MinerU 进入企业级市场的门槛, 对于商业化推广具有重大意义。在开源项目中, 许可证的选择往往是影响项目能否被大规模商业采用的关键因素之一, MinerU 团队在这方面的决策相当明智。

MinerU 在多语言支持方面的投入也值得一提。原生多语言 OCR 支持意味着用户在处理包含中英日韩混合内容的文档时, 不再需要手动指定语言参数, 系统会自动识别并使用最合适的 OCR 模型。这对于跨国企业的文档处理场景来说是一个重要的便利特性。同时, 109 种语言的广泛覆盖也意味着 MinerU 可以服务于全球范围内的用户群体, 而不仅仅局限于中文市场。

作为上海人工智能实验室开源生态的重要组成部分, MinerU 与 InternLM 大模型系列形成了良好的协同效应。在 InternLM 的训练过程中, MinerU 负责将海量的科学文献和网页文档转换为高质量的结构化文本, 为模型训练提供纯净的数据输入。这种”数据引擎 + 基础模型”的组合模式, 代表了当前 AI 开源生态中一种非常有效的协作方式, 也是 MinerU 能够持续获得高质量研发投入的重要保障。

在安装和部署体验方面, MinerU 也做了大量优化工作。3.0 版本引入了自动模型源选择功能, 首次安装时会根据当前网络环境自动选择最优的模型下载源。模型下载前会优先检查本地缓存, 避免重复下载。同时移除了多个存在许可证限制的依赖模型 (doclayoutyolo、mfd_yolov8、layoutreader), 让整个依赖链更加干净和自由。这些细节上的改进虽然不像新功能那样引人注目, 但对于日常使用体验的提升是实打实的。

综合来看, MinerU 已经从一个专门解决学术论文解析问题的工具, 成长为一个覆盖多种文档格式、支持多种部署方式、面向多种下游场景的综合性文档智能解析平台。在大模型应用的数据准备环节, MinerU 正在扮演着越来越重要的”数据桥梁”角色, 将非结构化的文档内容转化为大模型可以理解和消费的结构化数据。对于任何从事 AI 应用开发、知识管理或文档处理的团队来说, MinerU 都是一个值得认真评估的开源工具。

对于已经在使用其他文档解析工具的团队来说, MinerU 的迁移成本也不高。它提供了标准的命令行接口和 RESTful API, 可以很容易地集成到现有的数据处理流水线中。多种输出格式 (Markdown、JSON 等) 的支持也让下游系统的适配更加灵活。如果你正在寻找一个既能处理学术论文又能处理商业文档, 既能本地部署又能云端调用, 既能单文件处理又能批量作业的文档解析方案, MinerU 无疑是目前开源社区中最全面的选择之一。