审计底稿里的扫描件、财务报告中的PDF表格、客户发来的截图——手动录入?不存在的。
一、痛点:为什么我们急需这个工具
做审计、财务、数据分析的朋友,一定经历过这些场景:
收到100页PDF审计报告,里面嵌了30张表格 手动复制粘贴到Excel,调格式 2小时+
客户发来手机拍照的财务报表 对着图片一个个单元格敲 1小时/张
年底归档,几百张扫描凭证要整理 外包给实习生,回来还要校对 半天
更糟的是:市面上的"免费"工具,要么限次数,要么要上传云端,敏感财务数据谁敢传?
二、解决方案:TabulaGo 完全本地运行
TabulaGo 是一款基于百度 PaddleOCR 开源引擎的表格提取工具,核心特点:
完全免费 开源项目,无订阅、无广告
完全离线 本地运行,数据不出本机
批量处理 拖入文件夹,自动处理所有图片/PDF
跨平台 Windows、Linux、统信UOS/麒麟都支持
精准识别 基于PaddleOCR PP-Structure,表格结构识别率90%+
三、安装:三步上手
# 1. 下载项目
git clone https://github.com/bbc2208/TabulaGo.git
cd TabulaGo
# 2. 安装依赖(CPU版,兼容性好)
pip install -r requirements-cpu.txt
# 3. 启动图形界面
python -m tabula_go --gui
国产系统用户注意:统信UOS/麒麟若提示缺少libGL.so.1,执行:
sudo apt-get install libgl1-mesa-glx
四、使用:拖拽即用
命令行版(脚本集成)
# 单文件
python -m tabula_go report.pdf -o result.xlsx
# 指定页码
python -m tabula_go report.pdf --pages 1,3,5-10
# 批量文件夹(递归)
python -m tabula_go ./input/ -o ./output/ --recursive
# 离线环境(模型已下载)
python -m tabula_go report.pdf --model-dir /path/to/models/
五、输出效果:Excel规则一览
单页图片 单个Sheet Sheet1
多页PDF 每页一个Sheet Page_1, Page_2...
单页多表 每表一个Sheet Table_1, Table_2...
多页多表 组合命名 P1_T1, P1_T2...
注:数字格式自动识别,合并单元格尽量保留
六、常见问题
Q:首次运行慢?
A:会自动下载模型(约100MB),保持网络畅通。之后离线可用。
Q:识别效果不好?
A:提高--dpi参数(默认300,可试400);确保图片清晰;手写体/复杂嵌套表格识别率会下降。
Q:能打包成exe给同事用吗?
A:可以。pip install pyinstaller后执行python build/build_exe.py,生成独立运行包(约500MB)。
Q:支持GPU加速吗?
A:支持。需NVIDIA显卡+CUDA环境,安装requirements-gpu.txt即可,速度提升3-5倍。
七、适用人群
✅ 审计人员:批量提取审计底稿表格
✅ 财务工作者:整理财务报表、凭证
✅ 数据分析师:获取报告中的结构化数据
✅ 行政人员:处理扫描件、截图中的表格
✅ 开发者:集成到自动化工作流
下载地址: https://github.com/bbc2208/TabulaGo.git
为方便使用,已打包为独立exe,下载地址:http://www.livesin.cn/tabulago.zip
夜雨聆风