揭秘MinerU:智能文档解析,一键解锁RAG的无限可能!
无论是Yuxi-Know、RAGFlow,还是很多企业级知识库系统,底层都在用它做文档解析。
这让我很好奇:它凭什么成为RAG生态的“标配”?
下面带你全面了解这个让杂乱文档变“干净”的解析神器。

1
项目速览

MinerU是上海人工智能实验室OpenDataLab团队开源的智能文档解析引擎。它的核心使命很清晰:把PDF、网页、扫描件等非结构化文档,变成大模型和Agent能“读懂”的干净数据。
|
项目信息 |
详情 |
|
项目地址 |
https://github.com/opendatalab/MinerU |
|
Star数 |
56.8K -截止2026年3月22日 |
|
核心语言 |
Python |
|
项目定位 |
LLM与Agent的智能文档解析引擎 |
|
关键能力 |
表格还原、公式识别、分子检测、化学反应提取 |
|
适用场景 |
RAG系统、知识库构建、Agent数据预处理 |
|
开源协议 |
GNU Affero General Public License v3.0 |
MinerU的核心价值在于:它不只是简单提取文本,而是保留文档的逻辑结构与复杂元素:表格、公式、分子结构、化学反应式。
全部转换成机器可读的结构化格式,让大模型真正“看懂”专业文档。
2
主要功能与演示


多模态与全格式兼容解析

表格智能还原与结构化

公式精准转化与标准化

化学分子检测识别

官方客户端示例
3
数据基建

为什么MinerU成为Agent时代的“数据基建”?
痛点1:PDF是“纸老虎”
PDF看起来规整,但内部是碎片化的指令,不是连续的文本。直接提取会得到段落错乱、表格乱码、公式变特殊字符、页眉页脚混入正文。
痛点2:专业文档有“天书”
科研论文里的分子结构、化学反应式、复杂数学公式,传统解析工具根本处理不了。这些关键信息如果丢失,RAG系统的专业性就大打折扣。
痛点3:Agent需要“结构”
Agent不仅要读文档,还要调用工具、执行任务。如果输入的是没标题、没段落、表格变乱码的“文字泥石流”,它的理解能力和执行能力都会大打折扣。
MinerU专门解决这三类问题:把任意格式文档,转换成大模型最喜欢的结构化文本,同时保留表格、公式、分子等复杂元素。
4
产品矩阵

MinerU早已不是单一的开源工具,而是一套完整的产品矩阵:
开源解析引擎
本身就是最核心的引擎,支持命令行、Python API等多种调用方式,可本地部署或集成到自有系统。
桌面客户端
免费开箱即用的桌面工具,支持Windows、macOS(Apple Silicon/Intel)、Linux。
批量上传、多种文档、一键解析,适合个人用户快速体验。
云端API
提供两种API模式:
-
精准解析API:需Token,支持pipeline/vlm/MinerU-HTML三种模型,适合高精度场景
-
Agent轻量解析API:免登录、IP限频,专为AI Agent工作流设计,适合快速轻量调用
API支持单文件/批量上传、URL直传、回调通知,文件有效期30天,每天2000页最高优先级解析额度。
5
开发者生态


这是MinerU最让我惊喜的部分——它不只是工具,而是Agent生态的核心组件。
多语言Agent SDK
|
框架 |
特点 |
|
OpenClaw |
Node.js生态首选,官方推荐解析插件 |
|
Nanobot |
Python生态首选,支持LangChain、AutoGen |
|
NanoClaw |
轻量级,适配Vercel AI SDK与Tool Calling |
|
PicoClaw |
高并发、goroutine安全,适合微服务 |
|
ZeroClaw |
边缘计算首选,支持WASM浏览器运行 |
MCP Server支持
MinerU提供标准的MCP Server,支持Cursor、Claude Desktop、Windsurf等主流大模型客户端,通过MCP协议无缝调用解析服务。
{"mcpServers": {"mineru": {"type": "streamableHttp","url": "https://mcp.mineru.net/mcp","env": {"MINERU_API_TOKEN": "your token"}}}}
Skills托管
在ClawHub等技能平台,MinerU已上架官方Skill,支持国内CDN加速下载,真正做到“开箱即用”。
6
在RAG与Agent生态中的位置

MinerU不是RAG系统本身,而是RAG的“数据预处理”环节。在典型流程中,它的位置是:
原始文档 → MinerU解析 → Markdown结构化文本 → 文本分割 → 向量化 → 向量数据库 → RAG检索 → 大模型生成
很多开源RAG项目都集成了MinerU:
-
Yuxi-Know:使用MinerU做文档预处理
-
RAGFlow:深度集成,实现复杂版式精准解析
-
Dify:可选MinerU作为文档加载器
-
OpenClaw:官方Skill支持,国内CDN加速
7
项目总结

核心优势
-
解析精度高:对学术论文、技术文档等复杂PDF的解析质量,在开源工具中处于领先水平
-
复杂元素支持:表格、公式、分子、化学反应,专业场景全覆盖
-
Agent生态完备:多语言SDK、MCP Server、Skills托管,开箱即用
-
产品矩阵完善:开源引擎、桌面客户端、云端API,满足从个人到企业的所有需求
-
社区活跃:GitHub Trending全球第一,生态持续扩展
主要劣势
-
资源消耗:深度学习模型需要一定GPU资源(CPU模式也可运行,但速度较慢)
-
复杂版式仍有上限:极度复杂的手写批注、古籍等场景可能出错
-
API有额度限制:免费额度有限,高频使用需付费
8
最后

MinerU的价值在于:它把“把文档喂给AI”这件事,从一个脏活累活,变成了一个标准化的基础设施。
如果你也在搭RAG系统,或者需要批量处理专业文档,MinerU值得你花一个下午跑起来试试。
它不会让你的模型更聪明,但会让你的模型真正“读到你写的东西”。
而且现在,你可以在桌面客户端、云端API、MCP协议、Agent技能四种方式里,选一个最适合自己的。
参考:
MinerU官网:https://mineru.net/
MinerU GitHub仓库:https://github.com/opendatalab/MinerU
MinerU开发者生态:https://mineru.net/ecosystem
MinerU客户端下载:https://mineru.net/client
MinerU API文档:https://mineru.net/apiManage/docs
MinerU开源工具-智能解析器:https://mineru.net/OpenSourceTools/Extractor
夜雨聆风