利用AI将PDF文档转换为PPTX文档的逻辑

我一直认为从事审计行业的工作者写程序是很容易的,原因很简单。因为他们的逻辑思维很严密,经常要在三张报表之间进行复杂的逻辑勾稽。
然而在实际工作中给我的印象并不是这样的,他们虽然在报表和附注之间业务逻辑很缜密,但是一跑到程序里面,就把本有的逻辑给弄丢了,为此我实在想不通这到底是为什么。
我们在实际工作中,经常会接收到大量的PDF版本的PPT文件,所以有时候想把别人的PDF转成真正的PPTX文件。遇到这种情况怎么办呢?
目前我看到大量的视频和媒介都在介绍这种方法,经过我自己的实际测试,利用AI确实可以解决这个比较令人心烦的问题,但是并没有达到完美的程度,只能说可以用起来。
下面就来说一说PDF转PPTX的逻辑:
测试PDF文件(为了说明方便,仅给出一页)

第一步:文字识别
说白了,就是把PDF中的文字识别出来,只不过识别出来的文字和原来文字的位置需要保持一致。
第二步:背景识别
也就是要去掉PDF中的文字,而是把背景图片识别出来,同样的道理,这个图片的位置也要与原文件保持一致。
第三步:合并文字和背景
将第一步和第二步分离出来的文字和背景进行重新组合。
基本逻辑就是这样的,先拆分,后合并。这和我们的“化整为零、化零为整”的思维是一样的。说白了,就是图文拆分,再图文合并。
好了,说一下实际操作。
利用javascript代码进行实际测试:

需要注意的是,这里我只分享操作的逻辑和方法,具体的代码不便于贴出。这是为了保留原创者的版权。
进行预览后得到下面的操作界面,然后按照提示即可轻松完成操作。

最终得到的PPTX效果如下:

总体还说得过去,但是我们发现字体、字体颜色和字体大小还是需要调整的。
今天的分享就到这儿啦,非常感谢您对“Python SQL审天下”公众号的关注和点赞。如果您觉得我的公众号能给您带来一丝丝的收获,请多多转发给您的朋友圈,让更多的人看到并了解。也许您不经意间的点赞和转发,会给他人带来独特的体验和感受。
夜雨聆风
