免费离线批量图片/PDF转Excel,这个神器让表格提取不再抓狂

审计底稿里的扫描件、财务报告中的PDF表格、客户发来的截图——手动录入？不存在的。

一、痛点：为什么我们急需这个工具

做审计、财务、数据分析的朋友，一定经历过这些场景：

收到100页PDF审计报告，里面嵌了30张表格手动复制粘贴到Excel，调格式 2小时+

客户发来手机拍照的财务报表对着图片一个个单元格敲 1小时/张

年底归档，几百张扫描凭证要整理外包给实习生，回来还要校对半天

更糟的是：市面上的"免费"工具，要么限次数，要么要上传云端，敏感财务数据谁敢传？

二、解决方案：TabulaGo 完全本地运行

TabulaGo 是一款基于百度 PaddleOCR 开源引擎的表格提取工具，核心特点：

完全免费开源项目，无订阅、无广告

完全离线本地运行，数据不出本机

批量处理拖入文件夹，自动处理所有图片/PDF

跨平台 Windows、Linux、统信UOS/麒麟都支持

精准识别基于PaddleOCR PP-Structure，表格结构识别率90%+

三、安装：三步上手

# 1. 下载项目

git clone https://github.com/bbc2208/TabulaGo.git

cd TabulaGo

# 2. 安装依赖（CPU版，兼容性好）

pip install -r requirements-cpu.txt

# 3. 启动图形界面

python -m tabula_go --gui

国产系统用户注意：统信UOS/麒麟若提示缺少libGL.so.1，执行：

sudo apt-get install libgl1-mesa-glx

四、使用：拖拽即用

命令行版（脚本集成）

# 单文件

python -m tabula_go report.pdf -o result.xlsx

# 指定页码

python -m tabula_go report.pdf --pages 1,3,5-10

# 批量文件夹（递归）

python -m tabula_go ./input/ -o ./output/ --recursive

# 离线环境（模型已下载）

python -m tabula_go report.pdf --model-dir /path/to/models/

五、输出效果：Excel规则一览

单页图片单个Sheet Sheet1

多页PDF 每页一个Sheet Page_1, Page_2...

单页多表每表一个Sheet Table_1, Table_2...

多页多表组合命名 P1_T1, P1_T2...

注：数字格式自动识别，合并单元格尽量保留

六、常见问题

Q：首次运行慢？

A：会自动下载模型（约100MB），保持网络畅通。之后离线可用。

Q：识别效果不好？

A：提高--dpi参数（默认300，可试400）；确保图片清晰；手写体/复杂嵌套表格识别率会下降。

Q：能打包成exe给同事用吗？

A：可以。pip install pyinstaller后执行python build/build_exe.py，生成独立运行包（约500MB）。

Q：支持GPU加速吗？

A：支持。需NVIDIA显卡+CUDA环境，安装requirements-gpu.txt即可，速度提升3-5倍。

七、适用人群

✅ 审计人员：批量提取审计底稿表格

✅ 财务工作者：整理财务报表、凭证

✅ 数据分析师：获取报告中的结构化数据

✅ 行政人员：处理扫描件、截图中的表格

✅ 开发者：集成到自动化工作流

下载地址： https://github.com/bbc2208/TabulaGo.git

为方便使用，已打包为独立exe，下载地址：http://www.livesin.cn/tabulago.zip