做过数据录入工作的人应该都有体会,很多时候我们拿到的PDF并不是可以直接复制文字的那种,而是扫描生成的图片版PDF。这类文件看着像普通文档,但实际上里面的内容都是"死"的——选不了、复制不了、搜索不了。如果想要将里面的内容提取出来,就只能手工一个个的敲。少量的几份花点时间还能搞定,但是文件很多的时候,光靠人工一份一份去看、去敲就不太现实了。
批量提取PDF扫描件中指定区域的内容效果预览
提取前
处理前,文件夹中有多个 PDF 文档

这些 PDF 文档中的内容都是相同的结构,只是内容不相同,并且这些pdf文件中的内容是一张图片,不可以复制

提取后
提取后,每个 PDF 文档中都是一条单独的数据,每条数据对应一个 PDF 文件内容。

操作步骤
1、打开「鹰迅OCR」,左侧选择「文档处理」,右侧选择「提取PDF指定区域内容」的功能。

2、选择需要进行数据提取的 PDF 文件,不管是文字版 pdf 还是 pdf 扫描件,这里都支持提取。

3、设置提取的规则。

刚进入页面时,是没有任何提取规则的,我们可以点击「设置提取规则」按钮会打开弹窗进行规则的设置。

在规则设置的界面中,默认会加载我们选择文件列表中的第一个 PDF 文档,当然也可以点击「重新选择」按钮选择其它的 PDF 文档。 - 在 PDF 预览区域,我们可以在需要提取的内容部分绘制选区,绘制的选区有起始坐标,最终软件就会根据这里绘制的选区坐标对每一个 PDF 文件进行内容的提取。
- 我们每绘制一个选区,都会弹窗需要输入「表头名称」,这也就是我们最终提取到 Excel 中显示的表头名称。还会需要我们选择提取的内容内容,目前支持文本和图片两种类型。
- 按住 Ctrl + 滚轮,在 PDF 预览区域内可以进行缩放,方便我们绘制更精准的选区。
- 当 PDF 文件有多页时,我们可以进行页面的切换,可以指定提取内容所在的页面。
选区绘制后,效果如下。

绘制好选区后,我们点击右下角的「完成选区标注」按钮即可。
4、设置输出目录。

4、PDF 指定区域内容提取完成。

就这样简单的几步,我们就将多个pdf扫描件中指定内容全部提取出来并汇总到一个 Excel 文件了。我们这时候可以打开输出目录检查一下提取的结果有没有问题。
整个操作下来,最直观的感受就是省时省力。以前处理200份扫描件,手动录入怎么也得大半天,现在框选好区域,批量跑一遍,几分钟就能拿到结果,直接导出成Excel表格。后面不管来多少份同类型的文件,都是一键处理的事。对于那些每天要跟大量扫描件打交道的岗位来说,这种批量、定点提取的方式,确实从根本上解决了重复劳动的问题,把时间留给更有价值的工作。
夜雨聆风