
最近整理学习资料,遇到一堆扫描版PDF。上面的文字死活复制不下来,纯手动打字吧,工作量太大,又实在不想为了这个功能去开WPS会员。
毕竟自己也算半个技术人,就动手写了一个小工具。底层调用的是百度AI的OCR识别接口识别文字,印刷体中文的识别准确率很高,且有免费额度,所以日常整理资料完全够用。
它核心的功能主要有两个,适合大量扫描版PDF转word。
1. 可选识别区域:自动框选正文区域,页眉、页脚这些乱七八糟的无关内容,会直接帮你砍掉。
2.可替换识别的文字:你可以用“替换词语.txt”配置文件,提前告诉程序要把哪些词自动删掉(比如参考答案),或者把“单选题”批量改成“【单选题】”。
关于百度API密钥
软件需要配置你自己的百度OCR API密钥。这个是去百度云免费申请的,每个月官方会送几万次免费额度,自己用完全足够了。我把软件使用说明一起打了包,照着操作就行。
如果你也有同样困扰,这个工具应该能帮上忙。
注意:涉密文件或者敏感资料禁止使用。
获取方式:关注公众号「数耕老牛」,后台回复关键词「OCR」,免费拿这款工具和配套说明。
点击下面卡片关注
夜雨聆风