乐于分享
好东西不私藏

PDF 里的表格复制到崩溃?这个免费开源工具能直接导出 Excel

PDF 里的表格复制到崩溃?这个免费开源工具能直接导出 Excel

别人发来一份 PDF 报价单,让你把里面的表格整理进 Excel。

看着不难,真动手就很烦:框选后不是错位,就是整列挤成一行,最后还得自己慢慢抄。

如果你也经常碰到这种“表格明明在 PDF 里,却没法直接拿来用”的情况,可以试试 Tabula

它是一个老牌开源工具,专门干一件事:把 PDF 里的表格提取出来,导出成 CSV / Excel 能继续处理的格式。

它适合什么场景?

  • PDF 报表导进 Excel
  • 论文 / 研报里的表格提取出来继续分析
  • 财务、行政、采购日常整理数据
  • 不想把文件上传到在线网站处理

对这类需求来说,Tabula 的价值很直接:省掉手抄表格这一步。

真实效果到底怎么样?

我专门拿了一页样例 PDF 跑了一遍,左边是原表格,右边是实际提取出来的结果表。

如果 PDF 本身排版规整、文字可以正常选中,Tabula 提出来的效果通常就像这样:结构完整,后面进 Excel 再筛选、汇总、改格式都比较顺手。

怎么用?

很简单,就 4 步:

  1. 下载并打开 Tabula
  2. 导入 PDF
  3. 用鼠标框住表格区域
  4. 预览没问题后导出

它的思路不是花哨的“全自动 AI”,而是让你先告诉它:这块区域是表格。

所以在很多排版规整的 PDF 上,它反而挺稳。预览时如果发现列没有对齐,可以回到上一步重新框选,或者尝试切换不同的提取方式。它不像现在一些 AI 工具那样“自动猜完一切”,但也正因为这样,你更容易知道问题出在哪。

它的优点

1. 免费开源

不会用到一半弹出“开会员才能导出”。

2. 本地运行

官方写得很明确,只要浏览器地址栏还是 localhost127.0.0.1,PDF 和提取出来的数据都在本地机器上处理,不会经过外部服务器。处理报表、合同附件这类内容,会更安心。

3. 对文字型 PDF 很实用

如果 PDF 里的文字本来就是可选中的,Tabula 往往能比较顺利地把表格拉出来。

4. 跨平台

Windows、macOS、Linux 都能用。Windows 和 Linux 需要装 Java,Mac 版自带 Java,装完打开浏览器就能开始提取。

但真话也得说

不适合扫描件

官方 README 和官网都写得很明白:Tabula 只适合 text-based PDF,不适合扫描版 PDF。也就是说,如果你的文件其实是一张图片塞进 PDF 里,那它大概率帮不上忙。那种情况应该去找 OCR 路线工具,而不是硬拿 Tabula 顶。

另外,它也不是那种还在高速迭代的新项目。官网显示当前稳定版还是 1.2.1,发布时间已经比较早;GitHub 上维护者也明确说过,主应用短期内不太会有大更新,更多是底层的 tabula-java 偶尔继续修 bug。

但这不一定是坏事。

因为 Tabula 的定位一直很清楚:

不是炫技,而是老老实实把 PDF 表格弄出来。

如果你要的是“把这份 PDF 里的表格先抠出来,后面我自己进 Excel 再整理”,它依然是个非常顺手的工具。

适合谁?

✅ 经常处理 PDF 表格的人
✅ 想继续在 Excel 里筛选、统计、汇总的人
✅ 在意隐私、不想上传文件的人
✅ 做财务、采购、行政、研究、数据整理的人

⚠️ 如果你处理的主要是截图、照片、扫描版 PDF,那应该去找 OCR 工具,不该选 Tabula。

怎么安装

如果你只是想直接下载来用,不想研究 GitHub 页面,可以直接点官方发布地址:

  • Windows 下载:https://github.com/tabulapdf/tabula/releases/download/v1.2.1/tabula-win-1.2.1.zip
  • macOS 下载:https://github.com/tabulapdf/tabula/releases/download/v1.2.1/tabula-mac-1.2.1.zip
  • Linux / 通用版下载:https://github.com/tabulapdf/tabula/releases/download/v1.2.1/tabula-jar-1.2.1.zip

官方安装方式也很朴素:

  • Windows:下载 tabula-win-1.2.1.zip,解压后运行 tabula.exe
  • macOS:下载 tabula-mac-1.2.1.zip,解压后打开应用
  • Linux:下载 tabula-jar.zip,装好 Java 后运行 tabula.jar

正常情况下,它会自动在浏览器里打开 http://127.0.0.1:8080/

如果打不开,通常就两个原因:

  • 没装 Java
  • 8080 端口被别的程序占了

如果你平时懒得记这些地址,最省事的方法就是先把官网存一下:

https://tabula.technology/

如果你也被 PDF 里的表格折磨过,这个工具值得存一下。下次再收到那种“看得见但用不了”的 PDF,至少不用第一反应就是手抄了。

你平时最烦哪类 PDF:报价单、财务报表,还是论文里的表格?