PDF有目录却没书签?这个Python脚本1分钟搞定,还能精准定位到标题位置
-
下载了200页的学术报告,侧边栏空空如也,想回第一章只能疯狂滚轮 -
扫描版教材有目录页,但PDF阅读器里没有书签树,翻书像大海捞针 -
用阅读器的”添加书签”功能手动一个个加,加了20个就崩溃了 -
好不容易加了书签,点击后跳到页面顶部,标题还得自己找
传统方法的痛,我们一次解决
三大核心亮点
三步上手,有手就会
pip install PyPDF2 pdfplumber
前 言 ........................... 11 人工智能知识领域 ............... 41.1 人工智能基础知识 ............. 51.2 工具与平台基本操作 ........... 72 人工智能能力构成 ............... 102.1 人工智能技术理解与应用能力 . 10附录 1 人工智能工具的使用 ...... 32
python pdf_bookmarker.py -t toc.txt -p 原文件.pdf
程序会自动生成:原文件含目录.pdf
进阶玩法:页码偏移校正
很多PDF前面有封面、版权页、目录页,导致正文第1页在PDF里其实是第3页。这时需要偏移量校正:
# 如果PDF前2页是封面和空白页,正文从第3页开始python pdf_bookmarker.py -t toc.txt -p 原文件.pdf --offset 2
技术原理(极简版)
为什么能做到“精准定位到标题”?
夜雨聆风