MinerU:OCR 领域的扛把子
先说说 MinerU 这个项目在 OCR 圈子的地位
MinerU 由上海人工智能实验室的 OpenDataLab 团队开发,最初诞生于 InternLM 大模型的预训练数据处理过程中
做过 RAG 的朋友应该都知道,文档解析是 RAG 流水线上最关键的一环——你的知识库质量上限,就取决于你的文档解析能力
而 MinerU 几乎是开源文档解析工具的事实标准:
全格式覆盖:支持 PDF、图片、DOCX 输入,输出 Markdown 和 JSON 109 种语言的 OCR 支持 全平台兼容:Windows、Linux、Mac,CPU/GPU/NPU/MPS 都能跑




夜雨聆风