总星69,217,单日+524 Star。PDF、Word、PPT、Excel一键转成结构化Markdown,109种语言OCR,还能直接对接你的RAG和Agent工作流。
MinerU 就是来解决这些问题的。
MinerU 是一个开源文档解析引擎,能把 PDF、图片、DOCX、PPTX、XLSX 转成机器可读的 Markdown 和 JSON。
简单说:它帮你的 AI "看懂" 各种文档。
核心数据:
| pipeline | ||
| vlm-engine | ||
| hybrid-engine |
最新 3.4 版本升级:
MinerU 不只是个转换工具,它能无缝接入各种 AI 框架:
AI 编程工具:
RAG 框架:
开发方式:
使用示例:
# 有GPU
mineru -p input.pdf -o output/
# 纯CPU
mineru -p input.pdf -o output/ -b pipeline1. AI应用开发者
做RAG系统、知识库、AI助手?没有干净的文档输入,效果直接打折。MinerU就是你的前置处理器。
2. 研究人员
读论文、整理文献、做文献综述。公式、表格、图表,一次性提取干净。
3. 金融/法律/咨询从业者
每天处理大量研报、合同、招股书?批量转成结构化数据,AI帮你快速总结。
4. 内容创作者
把PDF资料转成可用内容,制作知识卡片、思维导图、视频脚本。
安装(推荐用 uv):
pip install --upgrade pip
pip install uv
uv pip install -U "mineru[all]"或者 Docker 一键部署:
docker pull opendatalab/mineru:latest不想安装?
如果你每天需要和 PDF、Word、PPT 打交道,这个项目值得试一试。 毕竟,在这个 AI 时代,让机器先读懂文档,是第一步也是最关键的一步。
本文档生成于 2026-06-25,数据截至当日22:30
数据来源:GitHub Trending 及 MinerU 官方仓库
夜雨聆风