专为RAG及Agent场景构建的高精度文档解析引擎

最近在研发基于医疗指南的疾病诊疗质控系统，用来指导医疗机构诊疗的规范，帮助医疗机构提高医疗水平。

具体逻辑是这样的。

目前我们有几个单病种结构化全国病历数据库，这些数据是医疗机构在诊疗过程中或者诊疗结束后上传到数据库的。我们需要利用这些病例数据结合当前指南，对患者的检查、检验、诊断及用药等各方面进行质控，以确定这些诊疗是否符合指南的基本要求，并给出诊疗质控报告，从而帮助医疗机构提高医疗水平。

其中有一个环节就是需要把PDF指南文件解析成可以分析并检索的文本片段。

我在网上找了很多工具，其中两款工具我觉得非常不错，所以分享出来，大家可以收藏，备用。

第一款：LiteParse

LiteParse的优势在于解析速度贼快，它是Rust写的，解析一个几十页的PDF文档只要2分钟甚至更短。

开源版有个不足就是：解析出来的json格式不能直接用，每页的text内容保留了双兰的样式，直接把\n替换为回车直接转为Markdown格式后，是双栏样式，需要后期处理才能将双栏样式改为一栏的段落。

官方版的LiteParse解析效果确实出奇的好，速度非常快，可以解析成Markdown格式，也可以解析成直接可用的JSON，直接下载就行。

但是官方版有额度限制，我解析了一个98页的pdf就使用了630积分，不过如果你要应急使用的话应该够了，不够就是多开几个账号的事。

第二款：MinerU

MinerU主打一个功能全面：

自己安装需要硬件要求，达到好的效果 GPU 8G+16G内存。

官网也提供了比较诱人的额度：

单日上限 5000 份｜单文件 ≤200 页｜高优每日 1000 页｜频控优化

可是需要排队，等个半个小时以上是常事。

如果你不急可以使用官方现成的。

以上两款都是主要解析为markdown格式，json格式有页码字段。这是我自己项目正好需要的。

两款pdf解析器分享给大家，可以收藏，备用。

有需要的可以私信，我发给你链接

往期回顾：

感谢关注，点赞，分享，谢谢！

支持PDF、图片与 DOCX、PPTX、XLSX 输入