PyPDF2该退休了:合并PDF都能出错一、引言
今天分享用PyPDF2和pypdf合并PDF文件的代码,以飨读者。环境:64位Win 10中文版 + 64位Python 3.8《Python程序设计(基于计算思维和新文科建设)》,ISBN:9787121435577,胡凤国,电子工业出版社,2022年6月。本书是电子工业出版社在国内较早采用纸质版+电子版的创新图书发行模式的第一次尝试。本书是这套创新图书的纸质版部分,与之内容互补的电子版图书将稍后出版。基础篇介绍Python程序设计的入门知识,共12章,包括:⑵ Python软件的安装和Python程序运行;⑶ Python的基本概念(对象、数据类型、表达式、内置函数);排错篇总结初学者常遇到的错误并介绍程序调试方法,包含2章:与本书内容互补的电子版图书包含文本篇和应用篇两部分:文本篇:介绍字符集、编码和文本文件读写的知识,包含了对国家规范《通用规范汉字表》8105个汉字当中难以输入和难以显示的汉字的处理。应用篇:介绍Word、Excel、PPT、PDF、图片等常用办公文件的处理,是大家提高办公和科研效率的好帮手。本书配套有详细的PPT和教学大纲,还有全部例题的程序代码和绝大部分思考题的程序代码。本书配套PPT里面还加入了配套电子版图书中的部分内容,比如字符集和编码,不同编码的文本文件的读写,Word、Excel、PPT、PDF等一些常用办公文件的读写。1、大学文科生,可选本书当Python教材或自学Python的参考书。2、大学理工科学生,可选本书当自学Python的参考书。可拿本书当工具书,本书的配套程序会为您节省效率,在当前大数据和新文科的背景下,本书可以为相关领域的量化研究提供技术支持。本书配套的电子版图书中的编码和文本处理知识也可以作为理工科教师和科研人员处理文本数据的参考资料之一,毕竟专门开辟章节介绍国家标准《通用规范汉字表》汉字处理的程序设计图书并不多见。
本书有专门的海龟画图章节,有大量的有趣数学题目,可以培养学生的计算思维,适合对编程感兴趣的中小学生阅读,也适合打算让娃参加编程辅导班的家长朋友参考。本书在各大实体书店和网店均有销售。京东、天猫、当当的购买渠道如下(可扫码直达购买页面)。找一些PDF文件,放入pdf目录。随便找的PDF文件可能合并不会出错,偏偏我找的PDF文件当中,有一个PDF文件,用PyPDF2合并它的时候会报错,用pypdf合并的时候就不会报错。这段代码一般不会报错,对于个别的PDF文件,合并时会报错:关键的错误信息如下:
PyPDF2.errors.PdfReadError: Invalid Elementary Object starting with b'b' @2: b'DF-1.7\r\n%\xa1\xb3\xc5\xd7\r\n6 0 obj\r\n<</Filter/FlateDecode/Length 1585>>stream\r\nx\x9c\xddZ\xc9\x8a\x1cG\x10\xbd\x1b\xfa\x1f'
AI建议改用 pypdf,再合并同一批文件,成功。代码如下:
这段代码运行不会报错,但合并那个导致PyPDF2出错的PDF文件时,会给出一些提示信息:
Ignoring wrong pointing object 21 0 (offset 0)
Ignoring wrong pointing object 22 0 (offset 0)
Ignoring wrong pointing object 23 0 (offset 0)
Ignoring wrong pointing object 24 0 (offset 0)
Ignoring wrong pointing object 25 0 (offset 0)
Ignoring wrong pointing object 26 0 (offset 0)
Ignoring wrong pointing object 27 0 (offset 0)
Ignoring wrong pointing object 28 0 (offset 0)
Ignoring wrong pointing object 29 0 (offset 0)
Ignoring wrong pointing object 30 0 (offset 0)
Ignoring wrong pointing object 31 0 (offset 0)
Ignoring wrong pointing object 32 0 (offset 0)
这说明那个导致PyPDF2出错的PDF文件是有问题的。
1、这个特定的PDF,用一般的PDF阅读器都能打开查看,但PyPDF2就是不行,说明它的格式不是标准的PDF格式。这种PDF文件可遇而不可求,可能是由不规范的软件产生的。由于该PDF文件有人名,所以不便分享。大家也无法验证第一个程序遇到的错误。
2、pypdf是PyPDF2的升级版,PyPDF2搞不定的,用pypdf往往就能搞定,所以,我们让PyPDF2退休吧。由于本号文章以辅助教学为主,笔者不建议自己的学生直接拿代码运行,而是建议在理解了思路之后自己敲代码来加深印象,所以本号一般不直接贴代码。如果读者朋友有需要本文或本号其它以 nihao2021year 的名义推送的文章的代码,请关注本号,直接加笔者微信联系,尽量别给公众号留言(查看不及时,经常漏看一些留言,时间长了无法回复)。欢迎关注微信公众号“语和言”,本公众号将不定期发布对图书《Python程序设计(基于计算思维和新文科建设)》中的Python知识点进行解读和补充的内容。语和言公众号还有读者交流群,读者朋友可以入群一起讨论问题。欢迎跟图书《Python程序设计(基于计算思维和新文科建设)》的作者胡凤国老师进行交流,电邮:cuchufengguo@163.com。七、图书目录
图书《Python程序设计(基于计算思维和新文科建设)》目录如下(手机端可以用手指上下滑动下面灰色区域的文字来查看全部目录,电脑端可以用鼠标滚动滚轮或拖动下面文本框右边的滚动条来浏览全部目录):
8.2.4 关于元素可比较的有序序列类对象的通用操作10.3.3 用上下文管理语句with来管理文本文件读写12.12.1 datetime标准库定义的常用类参考文献