30份PDF合同要提取文字做归档。一份份打开、全选、复制、粘贴、保存……重复30遍。
我让AI写了25行代码,一键批量提取,自动保存为TXT。
效果预览
核心代码(精简版)
import osimport fitz # PyMuPDFpath = input("PDF文件夹路径: ")output = os.path.join(path, "提取文字")os.makedirs(output, exist_ok=True)for f in os.listdir(path):if f.endswith('.pdf'):doc = fitz.open(os.path.join(path, f))text = ""for page in doc:text += page.get_text()doc.close()with open(os.path.join(output, f.replace('.pdf', '.txt')), 'w', encoding='utf-8') as out:out.write(text)print(f"完成: {f}")print("搞定")
避坑提醒
扫描件PDF提取不了文字(需OCR),完整版支持加密PDF
夜雨聆风