
背景
背景 : 有的时候,一个项目包含几十甚至上百台泵的技术要求, 但客户给的技术要求或者技术文档又是PDF格式, 这个时候, 需要把所有泵的技术要求提取并整理成公司内部的EXCEL格式文档, 方便相关人员进行技术选型。
如果采用大模型去识别这些PDF, 类似 ChatGPT, Claude, 或者国内的GLM, DeepSeek等大模型 ,都有一个通病, 无法识别空信息, 或者无法正确排版到EXCE里面。
在此背景下, 泵管家的选型系统, 采用PDF工位识别模型, 提取PDF文件中的工位信息(流量, 扬程, 介质参数, 现场条件, 等等), 并整理成EXCEL格式导入到项目中选型。

技术文档(PDF)
下图是一个典型的化工泵技术要求,截图来源某工位的部分截图(此项目文档有几百页, 工位有几十个). 需要把所有工位的:泵台数, 泵型式, 介质要求, 选型点信息(流量,扬程等)提取出来。

识别前: 打标
软件会在需要识别的地方, 绘制自动打标的范围, 如下图的红色矩形(界面
截图), 图中所有红圈内的内容, 都需要AI文字识别. 即使为空的地方, 也需要, 用AI确认是否有此项要求内容。

识别
本案例文档一共有810处需要识别提取, 识别时间大约30秒, 识别后的文字也会绘制在PDF文件相应文字重叠, 以方便用户检查是否有识别错误. 最后导出EXCEL格式到项目中
下图中蜡油(黑色字体) 是PDF原来的值, 蓝色的字体, 是识别后值,绘制在PDF上, 方便对照检查. 总体来说, 810处,识别正确率达到99%, 已经可以很好满足工程使用


如您有类似需求, 可与我们联系:
手机|+86 135 6433 0013
固定电话|+86 021 3430 6562
电子邮件|smh@eventech.cn
夜雨聆风