
之前写了篇WorkBuddy处理PDF扫描件的文章,没想到后台收到一条留言:
"扫描件倒是能识别了,但是PDF里的表格还是搞不定,复制出来全乱了,有啥办法没?"
这条留言我一直记着,也答应出一期专门的文章。
PDF表格提取这事儿,是大多数打工人的痛点,里面的坑是真的多。
要么只提取到了文字,要么复制出来格式全乱,要么Excel里挤成一团,要么跨行跨列的直接废掉。
为了实现PDF表格提取,今天,我用WorkBuddy跑一个下午。
我把市面上能用的方法都试了一遍,筛选出了三个方案。
有一个方案失败了;有个免费的方案,效果还挺能打;有个白嫖腾讯免费额度的方案,出来的效果最精准,对于个人而言,这个免费方案足够用。
怎么白嫖?仔细看完本篇文章你就能get了!
1. 先试试WorkBuddy内置的PDF技能
很多人第一反应跟我一样,直接在WorkBuddy对话框说:
「帮我提取这个PDF里的表格」
WorkBuddy自带的PDF技能处理纯文本没问题,但碰上带表格的PDF就不太行了。
我拿一份7行4列的活动登记表试了试,内置技能提取的结果:字是读出来了,但表格结构丢了。本来该分4列的数据,全挤在一起,哪个字段对哪列完全分不清。实测效果如下图:

结论:对于WorkBuddy内置的PDF技能而言,纯文本PDF可以,表格类PDF不用指望。这一方案宣告失败。
2. 装一个库,表格提取精准到让人意外
这条路我重点要讲的是pdfplumber,一个纯Python库。这个库就是用来提取PDF表格的,这个库安装很简单。
安装只需要一句话
打开WorkBuddy的终端,输入:
pip install pdfplumber完事。不需要什么复杂的环境配置。
怎么提取PDF表格?
我桌面上有个“PDF表格提取实测”的PDF,请用pdfplumber帮我将PDF中的表格转化成word及Excel版
提取效果怎么样?
WorkBuddy快速写了个简单的Python脚本,把提取出来的表格存成了两个格式:
Word版:保留表格线框,表头加粗,排版工整,可以直接编辑 Excel版:蓝色表头、自动列宽、带边框,导出来就能用
表格提取对比图

两个文件我都在桌面打开了,没啥毛病,自己手动调整一下表格行宽行高就可以用,如果一定要挑个毛病的话,那就是有些单元格没有合并。
不过这效果已经可以了,总比自己慢慢重新画表强百倍。
以后收到PDF表格,在WorkBuddy中一句话转成Excel或者Word,随便你。
当然,如果你是个比较挑剔的人,对于表格精度有着严格要求的话,继续看第三种方案。
3. 如果想追求更高精度——腾讯云OCR
如果提取的表格里有合并单元格、跨行跨列等复杂结构,pdfplumber有可能不够。这时候可以上腾讯云的表格识别OCR。
废话不多说,直接实操:
在WorkBuddy中先装腾讯云表格识别OCR技能。

这个技能需要腾讯云的 SecretId 和 SecretKey

别慌,我带你申请。https://console.cloud.tencent.com/cam/capi,打开这个网址,没有账号的注册账号。
接着申请API,会给到你SecretId 和 SecretKey,注意保存,完了之后在WorkBuddy的对话框中输入刚刚申请的SecretId 和 SecretKey,让WorkBuddy帮我配置好。

到这里腾讯云表格识别OCR技能配置好了。这里要说下,这个技能是收费的,但是有免费额度,个人用这个免费额度足够。
可能你会担心,如果免费额度用完了怎么办,只要你没开通“开通后付费”,免费额度用完后自动停掉。
接下来带你开通OCR服务。打开这个网址https://console.cloud.tencent.com/ocr/overview,点击开通,免费资源包才会自动发放。

开通后,来到资源列表页面,如果里面没有数据,耐心等待5分钟。https://console.cloud.tencent.com/ocr/packagemanage。从下图中,可以看出,免费额度足够个人用。

资源包到位后,就剩下最后一步。告诉WorkBuddy,腾讯云的API已经给你了,资源包也到位了,请用腾讯云表格识别OCR技能帮我提取PDF表格。

提取效果如下图。右边是提取后的效果,腾讯云连「活动名称(跨2行×跨2列)」这种合并单元格都认出来了,16个单元格置信度全部100%。还支持直接导出Excel。

费用方面:首次开通有免费额度(每月一千多次),日常用完全够。需要配置一个API密钥,比方案二多一步,但也不复杂。
适合追求极致精度的用户。
4. 三张表说清楚怎么选
| pdfplumber | 免费 | 一句命令 | 精准还原 | 绝大多数人 |
普通场景用pdfplumber就行,免费、一句命令装完就能用。碰到复杂的合并单元格表格,再上腾讯云OCR。
💬 你遇到过哪种"难搞"的PDF?欢迎评论区分享,评论区见。
能看到这里的,大多数是真心想用WorkBuddy提高办公效率的。所以不得不介绍一下我的公众号。
📌 我的公众号写了什么?
我一直在写WorkBuddy相关的内容,主要分三个方向:
关注后搜一搜就能找到,或者直接从合集点进去,按需翻阅。
夜雨聆风