200M+PDF,变小,变小,再变小
今天要处理一个将近300MB的PDF文件,因为体积太大了,处理和存储都很麻烦,所以我想把它压缩一下,或转成MD格式来减小体积,但这个PDF不是普通文字型的,而是扫描件,每一页都是图片,所以文字提取困难,体积也特别大
思路大概就是要么直接压缩,要么直接转MD格式,我就先试了在线压缩工具,发现大多不支持这么大的文件;少数支持的又得付费,转MD也一样,也能理解,初始文件太大了嘛,那我只好切割了,就是先把初始文件切割成几十兆的,不过也是不受欢迎,毕竟初始文件太大了嘛,只能去找小龙虾了
这时候小龙虾的作用就出来了,它最厉害的是能随时编写脚本,它能随时根据你的需求,生成马上能用的脚本,我让它切个文件,它没问我具体怎么切,直接问:“你要切成几份?”我随口说“你看着切吧”,结果它给我切成了10份,每份20多兆,处理的很快,不得不说,小龙虾在工作场景里非常灵活,确实高效
后面的事就简单多了:一旦把初始文件压缩得很小,随便怎么处理都行,然后我接着把它处理为 MD 文档,因为 MD 格式处理起来非常友好,是通用格式,如果你希望用 AI 处理复杂内容,MD 是最高效的文件。
我用的是Mineru,很好用,尤其擅长处理PDF、书籍什么的,对于一些复杂排版的PDF文件,在国内我还没找到比它更专业的,之前它不限文件大小,后来因为用户多了,现在加了限制,但完全够用,每天免费处理几百份文件没问题,准确率极高。我之前试过一本图文并茂的复杂书,所有AI工具都搞不定,只有Mineru处理得非常漂亮,真的值得推荐,这也是一个github的开源软件,你也可以下载到本地,嗯,就这些吧,说的多了还以为是广告。。。

夜雨聆风