批量提取PDF扫描件(图片版PDF)中指定区域的内容

做过数据录入工作的人应该都有体会，很多时候我们拿到的PDF并不是可以直接复制文字的那种，而是扫描生成的图片版PDF。这类文件看着像普通文档，但实际上里面的内容都是"死"的——选不了、复制不了、搜索不了。如果想要将里面的内容提取出来，就只能手工一个个的敲。少量的几份花点时间还能搞定，但是文件很多的时候，光靠人工一份一份去看、去敲就不太现实了。

批量提取PDF扫描件中指定区域的内容效果预览

提取前

处理前，文件夹中有多个 PDF 文档

这些 PDF 文档中的内容都是相同的结构，只是内容不相同，并且这些pdf文件中的内容是一张图片，不可以复制

提取后

提取后，每个 PDF 文档中都是一条单独的数据，每条数据对应一个 PDF 文件内容。

操作步骤

1、打开「鹰迅OCR」，左侧选择「文档处理」，右侧选择「提取PDF指定区域内容」的功能。

2、选择需要进行数据提取的 PDF 文件，不管是文字版 pdf 还是 pdf 扫描件，这里都支持提取。

3、设置提取的规则。

刚进入页面时，是没有任何提取规则的，我们可以点击「设置提取规则」按钮会打开弹窗进行规则的设置。

在规则设置的界面中，默认会加载我们选择文件列表中的第一个 PDF 文档，当然也可以点击「重新选择」按钮选择其它的 PDF 文档。
在 PDF 预览区域，我们可以在需要提取的内容部分绘制选区，绘制的选区有起始坐标，最终软件就会根据这里绘制的选区坐标对每一个 PDF 文件进行内容的提取。
我们每绘制一个选区，都会弹窗需要输入「表头名称」，这也就是我们最终提取到 Excel 中显示的表头名称。还会需要我们选择提取的内容内容，目前支持文本和图片两种类型。
按住 Ctrl + 滚轮，在 PDF 预览区域内可以进行缩放，方便我们绘制更精准的选区。
当 PDF 文件有多页时，我们可以进行页面的切换，可以指定提取内容所在的页面。

选区绘制后，效果如下。

绘制好选区后，我们点击右下角的「完成选区标注」按钮即可。

4、设置输出目录。

4、PDF 指定区域内容提取完成。

就这样简单的几步，我们就将多个pdf扫描件中指定内容全部提取出来并汇总到一个 Excel 文件了。我们这时候可以打开输出目录检查一下提取的结果有没有问题。

整个操作下来，最直观的感受就是省时省力。以前处理200份扫描件，手动录入怎么也得大半天，现在框选好区域，批量跑一遍，几分钟就能拿到结果，直接导出成Excel表格。后面不管来多少份同类型的文件，都是一键处理的事。对于那些每天要跟大量扫描件打交道的岗位来说，这种批量、定点提取的方式，确实从根本上解决了重复劳动的问题，把时间留给更有价值的工作。