当前时间: 2026-05-01 18:37:09
分类:办公文件
评论(0)
致敬所有劳动者!处理pdf表格数据的极简方法100多年前的今天,恩格斯先生领导的第二国际在巴黎召开代表大会,通过决议将每年的5月1日定为国际劳动节。劳动是光荣的,无论你从事的是脑力劳动还是体力劳动,都是通过自己的努力来谋生活。只要是正当合法的行业,每一个劳动者都值得我们的尊重,尽管不同行业的劳动报酬有高低之别,但每一个劳动者的付出都是同等的高尚和伟大。今天分享一个办公小技巧,致敬所有的劳动者,希望对“表哥”“表姐”们有所帮助。下图是pdf格式表格,要求提取为Excel表格并清洗数据。如果是pdf文字表格,可以通过Excel的Power Query直接提取数据并清洗。(1)在“数据”下面,依次选择“获取数据”、“来自文件”、“从PDF”。(3)因为有多个表格,需要勾选导航器里的“选择多项”,接着选择Table开头的所有项。如果选择Page开头的项,识别的是每页的数据,如果表格外有不相干的内容,也会被识别。我们只需要表格,所以要选Table开头的项。(4)第一张表有表头,第二张表无表头,双击第二张表的Column1,重命名为“日期”(跟第一张表表头保持一致),同样的方法更改另外两个表头。我们可以看到,这种方式载入的数据,非常规范,甚至不需要清洗。(5)在“主页”下找到“追加查询”,点开下拉选项,选择“将查询追加为新查询”。这里是两张表,如果有3张以上,就选择“三个或更多表”,然后按顺序选择表,并确定。这一步返回如下,可以在查询设置里修改名称,我这里就不修改了。(6)然后点开“关闭并上载”下拉选项,选择“关闭并下载至”。如果直接点击“关闭并上载”,会将所有表都加载到Excel中,我们只需要合并的表,所以先加载到连接,再通过选择来加载需要的表。(8)在“查询 & 连接”窗口中,选中合并表(这里是“追加1”),鼠标右键,选择“加载到”。如果你看不到“查询 & 连接”窗口,可在“数据”选项卡下打开。文字表格的pdf文件,数据处理起来很简单,只需要用到最基础的Power Query功能即可解决。尽管Excel支持识别图片表格,但是目前来讲,精确度不是很高。所以我们根据不同的情况,介绍对应的免费工具(如果你有付费的OCR软件,就用你现有的软件)。如果只有一两张表,我们直接使用Pixwit软件来提取表格。启用Pixwit的截图功能,然后在功能框中选择提取表格即可。Pixwit会自动将图片中的表格数据以表格形式展示出来,复制之后,粘贴到Excel文件中即可,操作比较简单。Pixwit这款软件是开源免费的,大家可自行下载。我也会将文件上传到网盘,大家通过私信(不是留言),发送0501可自取。这里介绍的工具是阿里出品的千问(你也可以使用其他的同类软件),大家可自行搜索下载,也可私信0501自取。此时后缀名不是Excel支持的格式,需要更改文件后缀名。选中下载的文件,鼠标右键,选择“重命名”,将后缀改为.xlsx,弹出的确认窗口选择“是”。这样得出的数据还是有点问题,日期是文本的,要让日期变成数值型日期,操作如下。打开上一步得到的Excel文件,光标定位在表格中任意单元格,在“数据”下面选择“来自表格/区域”,然后确定。进入Power Query之后,系统自动将文本日期转换为数值日期了,非常智能。如果Power Query没有自动转换,在“主页”下找到“数据类型”,下拉选择“日期”即可。练习文件及工具自取方式:私信回复0501,不是留言。
基本
文件
流程
错误
SQL
调试
- 请求信息 : 2026-05-03 02:21:19 HTTP/1.1 GET : https://www.yeyulingfeng.com/a/572426.html
- 运行时间 : 0.114454s [ 吞吐率:8.74req/s ] 内存消耗:4,796.84kb 文件加载:145
- 缓存信息 : 0 reads,0 writes
- 会话信息 : SESSION_ID=187b86acfa3ad1baf1f17efac59a4390
- CONNECT:[ UseTime:0.000618s ] mysql:host=127.0.0.1;port=3306;dbname=wenku;charset=utf8mb4
- SHOW FULL COLUMNS FROM `fenlei` [ RunTime:0.000793s ]
- SELECT * FROM `fenlei` WHERE `fid` = 0 [ RunTime:0.000291s ]
- SELECT * FROM `fenlei` WHERE `fid` = 63 [ RunTime:0.000348s ]
- SHOW FULL COLUMNS FROM `set` [ RunTime:0.000606s ]
- SELECT * FROM `set` [ RunTime:0.000222s ]
- SHOW FULL COLUMNS FROM `article` [ RunTime:0.000580s ]
- SELECT * FROM `article` WHERE `id` = 572426 LIMIT 1 [ RunTime:0.004490s ]
- UPDATE `article` SET `lasttime` = 1777746079 WHERE `id` = 572426 [ RunTime:0.002799s ]
- SELECT * FROM `fenlei` WHERE `id` = 64 LIMIT 1 [ RunTime:0.000329s ]
- SELECT * FROM `article` WHERE `id` < 572426 ORDER BY `id` DESC LIMIT 1 [ RunTime:0.000513s ]
- SELECT * FROM `article` WHERE `id` > 572426 ORDER BY `id` ASC LIMIT 1 [ RunTime:0.000370s ]
- SELECT * FROM `article` WHERE `id` < 572426 ORDER BY `id` DESC LIMIT 10 [ RunTime:0.000810s ]
- SELECT * FROM `article` WHERE `id` < 572426 ORDER BY `id` DESC LIMIT 10,10 [ RunTime:0.001295s ]
- SELECT * FROM `article` WHERE `id` < 572426 ORDER BY `id` DESC LIMIT 20,10 [ RunTime:0.001527s ]
0.118561s