AI使用经验|免费或一次性付费的批量OCR识别工具推荐
概要:如果需要批量处理用清晰工整的文字写成的大量材料(如一本甚至多本书),推荐使用PaddleOCR(免费,数秒一页,识别清晰工整文字近乎无误)或Abbyy FineReader(正版较贵,闲鱼0.5元,可能一秒一页,虽差于PaddleOCR但识别清晰工整文字也近乎无误)或ndlocr(免费,可能一秒一页,识别日文效果强于前两者)
我们可能都曾遇到过这样的情形:想找到某本书或多本书包含特定关键词的信息,而人工翻阅耗时耗力——这时,如果将相关书籍OCR转为文字,则可直接关键词检索,非常便利。
打开Gemini, ChatGPT, DeepSeek,豆包….等AI的网页或应用程序,我们可以上传图像,令其OCR识别。这无需付费,且效果颇佳。然而,它们单次处理的内容有限,无法直接OCR一本或多本书,而如果人工切分上传,仍颇为费力。
相比之下,通过API调用AI可以实现批量处理。对字迹潦草或印刷不清晰的资料,这是最佳方法(此处再次推荐南京大学数智文献处理平台)。然而,这需要付费,一本几百页的书可能要接近十块钱。
其实,对清晰工整的文字,可以使用以下免费或一次性付费的批量OCR工具。虽然它们识别潦草/模糊文字的效果不如大语言模型,但处理清晰工整的文字效果已基本无误
网友“周渊日记”封装好的版本(百度网盘)链接如下:https://pan.baidu.com/s/1AYEhtXxATdnJHqeqq3CAEA?pwd=1234,免费,下载安装即可使用,平均数秒一页(第一次启动需加载会较慢)。
2 Abbyy FineReader/Devonthink Pro
Abbyy FineReader速度更快,可能一秒一页。虽需付费,但淘宝、闲鱼等网站有0.5元出售者,虽弱于PaddleOCR,识别清晰文字效果已经很好。
如果使用Macbook,可以下载Devonthink Pro(正版较贵,闲鱼低至1元),这是一个文件管理工具,其OCR功能基于Abbyy FineReader。
该工具由日本国立国会图书馆开发,专门针对日文,免费,速度可能达到一秒一页,识别日本效果可能强于以上两种。
官方下载地址(官方下载地址为外网):https://github.com/ndl-lab