文档解析开源趋势:从MinerU更新日志看主流文档解析项目趋势
今天是2026年3月31日,星期二,北京,天气晴
继续看技术方面的进展,从MinerU看文档解析项目方向的趋势。
本文会很短,主要还是快速看到一些结论性的东西。
一、从MinerU看文档解析项目方向的趋势
mineru(https://github.com/opendatalab/MinerU/blob/master/README_zh-CN.md)是当前很火热且较为推荐的文档解析组件,但这个方向其实已经卷的差异性没那么大了,可以根据其更新日志来看看这个方向的趋势,总结的看有如下几个点:
1、国产化适配
一个很大的趋势就是面向国产化适配去做,目前已由官方和厂商适配并支持的国产算力平台包括:昇腾、平头哥、沐曦、海光、燧原、摩尔线程、天数智芯、寒武纪、昆仑芯、太初元碁、壁仞。

2、文档解析功能补齐
在功能侧逐步补齐,对文档内部要素做细粒度识别,其冲可以看到,对于图表内容的解析上,还是很慎重【转json那种幻觉还是很多】。

此外,也陆陆续续扩展到html等文档类型的解析。
3、推理性能优化
在性能侧做优化,尤其是长文档解析过程中的内存峰值占用问题:

4、贴合skills相关
MinerU-Document-Explore,为 Agent 做的文档阅读技能,提供四大核心能力的原子操作以便自由组合 (https://github.com/opendatalab/MinerU-Document-Explorer/blob/main/README_ZH.md),这个其实紧跟前沿。

其中,MinerU 提供文档解析能力,支持关键词搜索与模式匹配,PageIndex 支持逻辑检索能力, Qwen3-VL-Embedding支持语义检索能力,所以,这其实是一个工程的组合项目。
视频地址在:https://private-user-images.githubusercontent.com/194394453/571241548-21fab48f-f243-4634-9719-76fca518991e.mp4
参考文献
1、https://github.com/opendatalab/MinerU
关于我们
老刘,NLP开源爱好者与践行者,主页:https://liuhuanyong.github.io。
对大模型&知识图谱&RAG&文档理解感兴趣,并对每日早报、老刘说NLP历史线上分享、心得交流等感兴趣的,欢迎加入社区,社区持续纳新。
加入社区方式:关注公众号,在后台菜单栏中点击会员社区加入。
夜雨聆风