一、那个让我崩溃的下午
昨天下午4点,财务科的小张发来一个压缩包:"这是近三年的项目验收材料,领导明天要汇报用,麻烦整理成Excel。"
我解压一看——47个PDF文件,832页扫描件,全是表格。
我的第一反应是打开某付费PDF工具,导出Excel。结果:
格式全乱,单元格错位
扫描件根本识别不了
批量处理要开会员,一年大几百,而且我有接近1000个表格要处理,难道一个一个上传再下载
那一刻,我看着窗外渐暗的天色,想起这半年类似的场景:
有时,收到供应商发来的产品报价单图片,要录入系统。手敲2小时,眼睛看花了,还敲错三处价格,领导第二天就来追问。
也有,上级部门下发纸质文件扫描版,要求"尽快梳理政策落实情况"。想到微信可以提取文字,对着PDF里的表格,Ctrl+C/Ctrl+V,粘贴出来是一团乱码。
还有,整理会议纪要里的数据统计表,拍照发给领导,对方回:"能转成Excel吗?"
二、为什么我们总在重复这些无意义的劳动?
在体制内或企业综合岗干过的人都知道,表格是信息的容器,也是时间的黑洞。
我们明明有电脑、有软件,却还在做"人工OCR"——用肉眼识别、用手指敲击、用耐心校对。更讽刺的是,这些重复劳动往往不产生任何价值,只消耗你的下班时间。
我试过各种"解决方案":
手动录入,慢、错、累,第二天还被批评
某PDF转Excel,扫描件不支持,收费贵
手机拍照识别,单位表格合适,只适合简单表格,批量处理要命
在线工具,涉密文件不敢传,担心数据安全
直到有天加班到深夜,我对着屏幕上扭曲的表格,突然想:既然我是搞技术的,为什么不能自己做一个?
三、三个月的业余时间,我做了什么
说实话,我不是什么大牛。白天写代码做项目,晚上挤时间查文档、调模型、测兼容性。
核心就解决几个问题:
第一,要认得出。 基于百度的PaddleOCR,专门训练了表格结构识别。不管是清晰的电子PDF,还是模糊的扫描件,甚至手机拍的歪歪斜斜的照片,都能把表格"框"出来。
第二,要转得准。 不只是把文字提取出来,而是还原表格结构——几行几列、合并单元格、跨页表格,都要在Excel里保持原样。
第三,要跑得动。 我自己用的是统信UOS系统,单位电脑是Windows。所以必须两边都能跑,最好还能离线用(懂的都懂,有些内网环境连不了外网)。
第四,要批处理。 单个文件谁不会?我要的是扔进去一个文件夹,自动把所有PDF、图片扫一遍,该分页的分页,该命名Sheet的命名,最后输出一个整整齐齐的Excel。
四、这个工具能做什么?
开发过程中,我给自己定了条规矩:每加一个功能,先问自己——这能解决我上周遇到的哪个具体问题?
所以现在的版本,核心就这些:
1. 拖进去就能跑
支持PNG、JPG、PDF、TIFF...反正常见的格式都认。有图形界面,不用记命令行。
2. 批量处理救老命
整个文件夹拖进去,递归子目录,晚上下班前点一下,第二天早上来收成果。
3. PDF指定页码
有些文件几百页,我只要其中几页的表格。支持1,3,5-10这种写法,不用全部跑一遍。
4. 国产系统友好
统信UOS、麒麟这些,缺依赖的话有提示,按说明装一下就行。CPU就能跑,不用非得配显卡。
5. 离线也能用
模型文件可以预下载,拷到内网机器上,指定路径就能跑。数据不出本地,安全。
五、说点实在的:这工具适合谁?
如果你也遇到以下情况,可能用得上:
财务/审计:处理大量凭证、报表、验收材料的扫描件
行政/综合:收发文里的表格整理、数据统计、汇报材料准备
采购/商务:供应商报价单、合同附件里的价格表提取
档案管理:历史纸质档案数字化后的表格结构化
不适合的情况也要说清楚:
手写字体识别率会下降(印刷体效果最好)
特别复杂的嵌套表格、跨页大表,可能需要手动微调
第一次用要下载模型(约100MB),耐心等几分钟
六、为什么免费开源?
有人问我,花这么多时间,为什么不收费?
说实话,这个工具首先是做给我自己用的。 既然已经做了,开源出来,也许能帮到同样被表格折磨的人。
在体制内和企业综合岗,我们太多时间耗在"把A格式的信息搬到B格式"这种机械劳动上。如果一个小工具能帮你省下哪怕一个小时,这一个小时你可以用来:
把汇报材料写得更扎实
早点下班陪家人
或者,只是安静地喝杯茶
技术本该服务于人,而不是让人成为技术的奴隶。
七、写在最后
工具名叫 TabulaGo,取自拉丁文"Tabula"(表格)+ "Go"。没什么深意,就是希望表格处理能"说走就走",不再卡壳。
安装和使用说明都写在项目文档里了。如果你也有同感,可以试试看,完全免费无广告。
遇到问题欢迎反馈——毕竟,一个工具只有被真正用起来,才有存在的意义。
【下载与使用】
项目地址及详细文档:https://github.com/bbc2208/TabulaGo
支持平台:Windows / Linux(正在适配)
硬件要求:64位系统,8GB内存推荐
你在工作中遇到过哪些"被表格逼疯"的瞬间?欢迎在评论区聊聊。
夜雨聆风