复盘如何免费实现pdf提取excel表格小脚本
上一个笔记我们介绍了pdf提取excel表格脚本的一些功能和使用方法,
这次我们来说一下如何复刻这样一个脚本,同时分享提示词。
跟之前的word和pdf互转一样,pdf提取excel表格也是有对应的库。
只要我们正确使用这个库,就可以实现我们的库。
这次我们选择tabula和PDFPlumber这两个引擎。
为什么选择两个引擎呢?答案很简单,因为目前所有的引擎都有局限性。
pdf转成word或者excel最大的问题就是,pdf底层不是代码,而是图像。
也就是说,他所有显示的内容都是画上去的,都有一个xy坐标,原点在所有页面的左上角。
你没办法直接提取,要借助一些视觉方案。
这就带来一个问题,如果你只是借助某个引擎来提取内容,
那么就没办法处理合并单元格的问题。
你需要借助引擎对于所有单元格的长宽对比,
确定那个大的单元格是合并出来的,那个小的单元格是正常的。
而且也没办法做到100%准确。
同时,由于原点在所有页面的左上角,
你不能根据表格的坐标来判断谁先谁后。
你第一次提取出来的表格顺序永远是乱的,
因此只能一页一页地提取,才能保证顺序正确。
可以说,我后续调整合并单元格这个功能就占了我两天时间,
最终也还是只能应对98%的合并单元格。
当然,这些判断逻辑我都写在提示词当中了,不用大家再跟AI说。
之后,大家在复刻时,可以拿出自己平时用的pdf文件,有针对性地调教。
如果你平时在别的地方使用的工具不合你的心意,
大概率也是因为他们的训练样本跟你的不太一样。
#pdf转换器 #PDF工具 #ai编程 #ai应用 #大模型 #vibecoding #agent #ai工具 #ai软件 #ai
其它金额
赞赏金额
¥
最低赞赏 ¥0
1
2
3
4
5
6
7
8
9
0
.
广东,1分钟前,
夜雨聆风