PyMuPDF 页面标注:PDF 布局分析指南

PyMuPDF 页面标注：PDF 布局分析指南

一、什么是 PyMuPDF 页面标注

PyMuPDF 可以分析每个文本块（block）的字体大小、字体名称、是否加粗等属性，自动推断段落类别，并直接用 draw_rect() 在 PDF 页面上绘制半透明矩形标注，最终输出一份带标注的 PDF 文件。

本文实现的效果：

• 红色框 → 标题（Title）
• 蓝色框 → 图片（Image）
• 绿色框 → 表格（Table）
• 橙色框 → 代码块（Code）
• 灰色框 → 正文（Body）

二、与 Marker 的对比

特性	PyMuPDF（字体分析）	Marker（深度学习）
速度	极快（< 0.1s/页）	慢（~15s/页，CPU）
模型大小	无需模型	3.2 GB
标题识别	基于字号+加粗推断	视觉模型自动识别
图片提取	手动	自动
表格识别	有限（需文本中含 \| 分隔符）	视觉模型自动识别
中文支持	好（直接读取字体名）	好（内置90+语言）
适用场景	快速分析、轻量标注	完整结构化转换

三、核心原理

3.1 PyMuPDF 的 Block 结构

PyMuPDF 通过 page.get_text("dict") 获取页面结构，每个 block 包含：

block = {    "type": 0,          # 0=文本, 1=图片    "bbox": (x0,y0,x1,y1),  # 边界框    "lines": [          # 文本行列表        {            "spans": [  # 文本片段列表                {                    "text": "标题文字",                    "size": 21.9,         # 字号                    "font": "MicrosoftYaHei-Bold",  # 字体名                    "color": 0x000000,    # 颜色                    "flags": 4,           # 样式标志                }            ]        }    ]}

3.2 分类规则

通过分析 block 的文本属性，推断段落类别：

判断条件	分类结果
`block["type"] == 1`	Image （图片）
字体名含 `Console`/`Mono`/`Courier`/`Lucida`	Code （代码块）
文本含 `\|` 或 `│` 分隔符	Table （表格）
字号 >= 17px 且加粗	Title （标题）
字号 >= 14px 且加粗	Title （次标题）
字号 >= 20px	Title （大字标题）
其余	Body （正文）

3.3 颜色映射

使用 PyMuPDF draw_rect() 的 RGB 元组格式（值 0~1），配合 fill_opacity 控制透明度：

COLOR_MAP = {"Title": ((1.0, 0.0, 0.0), 0.35),   # 红色，35% 透明度"Image": ((0.0, 0.0, 1.0), 0.30),   # 蓝色，30% 透明度"Table": ((0.0, 0.7, 0.0), 0.30),   # 绿色，30% 透明度"Code":  ((1.0, 0.5, 0.0), 0.25),   # 橙色，25% 透明度"Body":  ((0.5, 0.5, 0.5), 0.12),   # 灰色，12% 透明度}

四、完整脚本

"""PyMuPDF 读取 PDF，在页面上直接绘制标注矩形框，输出带标注的 PDF 文件。用法: python parse_pdf_annotate.py [pdf文件路径] [--pages 0,1,2] [--preview]"""import sysfrom pathlib import Pathimport fitz  # PyMuPDFdef classify_block(block: dict) -> str:"""根据文本属性分类段落类型。"""if block["type"] == 1:return "Image"    lines = block.get("lines", [])if not lines:return"Body"    all_text = ""    max_size = 0    is_bold = False    is_mono = Falsefor line in lines:for span in line.get("spans", []):            all_text += span["text"]            max_size = max(max_size, span["size"])            font_lower = span["font"].lower()if "bold" in font_lower:                is_bold = Trueif any(m in font_lower for m in ["console", "mono", "courier", "code", "lucida"]):                is_mono = True    text = all_text.strip()if not text:return "Body"# 代码块：等宽字体if is_mono:return "Code"# 表格检测：文本中含管道分隔符    lines_text = []for line in lines:        line_text = "".join(s["text"] for s in line["spans"]).strip()if line_text:            lines_text.append(line_text)if len(lines_text) >= 2:        pipe_count = sum(1 for lt in lines_text if "|" in lt or "│" in lt)if pipe_count >= 1:return "Table"        sep_count = sum(1 for lt in lines_text if lt.startswith("---") or lt.startswith("==="))if sep_count >= 1:return "Table"# 标题：字号大且加粗if max_size >= 17and is_bold:return"Title"if max_size >= 14and is_bold:return"Title"if max_size >= 20:return"Title"return"Body"COLOR_MAP = {"Title": ((1.0, 0.0, 0.0), 0.35),   # 红色"Image": ((0.0, 0.0, 1.0), 0.30),   # 蓝色"Table": ((0.0, 0.7, 0.0), 0.30),   # 绿色"Code":  ((1.0, 0.5, 0.0), 0.25),   # 橙色"Body":  ((0.5, 0.5, 0.5), 0.12),   # 灰色}def main():if sys.platform == "win32":        sys.stdout.reconfigure(encoding="utf-8", errors="replace")    file_path = sys.argv[1] if len(sys.argv) > 1 else "day01.pdf"# ... 参数解析省略，参见实际脚本 ...    doc = fitz.open(str(pdf_path))# ===== 一、打印 metadata =====# ...# ===== 二、逐页分析并标注 =====for page_num in range(doc.page_count):        page = doc[page_num]        blocks = page.get_text("dict")["blocks"]# 对每个 block 分类for b in blocks:            category = classify_block(b)            bbox = b["bbox"]            rect = fitz.Rect(bbox)            rgb, alpha = COLOR_MAP.get(category)# 核心：直接在 PDF 页面上绘制半透明矩形            page.draw_rect(                rect,                color=rgb,                fill=rgb,                fill_opacity=alpha,                width=1.5,            )# 页面底部绘制图例# ...# ===== 三、保存为 PDF =====    doc.save("pdf_output/day01_annotated.pdf", garbage=4, deflate=True)    doc.close()if __name__ == "__main__":    main()

关键 API：

page.draw_rect(    fitz.Rect(x0, y0, x1, y1),  # 矩形区域（原始坐标，无需缩放）    color=(1.0, 0.0, 0.0),       # 边框颜色 RGB 0~1    fill=(1.0, 0.0, 0.0),        # 填充颜色 RGB 0~1    fill_opacity=0.35,           # 透明度 0~1    width=1.5,                   # 边框线宽)

与 matplotlib 方案的区别：

特性	matplotlib	PyMuPDF draw_rect
输出格式	PNG 图片	PDF 文件
坐标缩放	需要 × zoom	原始坐标直接使用
文本保留	渲染为像素，不可选中	原文本保持可复制可搜索
文件大小	17张PNG约 20+MB	单 PDF 约 740KB
颜色格式	颜色名+alpha	RGB 元组+fill_opacity
速度	含图像渲染，较慢	即时绘制

执行命令：

# 完整标注，输出 pdf_output/day01_annotated.pdfpython parse_pdf_annotate.py day01.pdf# 仅标注前 3 页python parse_pdf_annotate.py day01.pdf --pages 0,1,2# 额外弹出 matplotlib 预览窗口python parse_pdf_annotate.py day01.pdf --preview

五、day01.pdf 实测结果

解析前：

以 17 页 Python 学习笔记 PDF 为例：

解析文件: day01.pdf文件大小: 629.4 KB

输出文件：pdf_output/day01_annotated.pdf（738 KB）

分析：

类别	数量	占比	说明
Title	29	6.6%	章节标题，如 "1、Python概述"、"语法规范"
Image	16	3.7%	截图和示意图
Code	337	76.9%	代码示例（LucidaConsole 等宽字体）
Body	56	12.8%	正文说明文字

示例输出（Page 1）：

Page 1: 27 blocks  Title:6 Image:1 Code:6 Body:14  [Title] bbox=[74.5, 36.8, 526.5, 66.7]  "任务（截止11.16:23:59）"  [Body ] bbox=[97.0, 76.9, 331.0, 89.8]  "把听书项目核心模块流程背下来..."  [Body ] bbox=[97.0, 97.2, 282.2, 110.1]  "把核心模块技术栈和细节问题..."  [Title] bbox=[74.5, 142.6, 526.5, 172.4] "1、Python概述"  [Title] bbox=[74.5, 180.0, 525.2, 203.2] "概述"  [Body ] bbox=[97.0, 214.1, 226.7, 227.4] "python是面向对象的编程语言"  ...  [Title] bbox=[74.5, 370.9, 524.6, 390.8] "缩进: 表示范围"  [Code ] bbox=[84.2, 437.3, 137.1, 446.1] "def add():"  [Code ] bbox=[84.2, 450.8, 137.2, 459.6] "x = 10"  [Code ] bbox=[84.2, 465.1, 142.5, 473.9] "if x>0:"  ...  [Image] bbox=[76.8, 691.8, 519.2, 767.5]

可视化效果：

• 红色框标注了 "任务（截止11.16:23:59）"、"1、Python概述" 等标题
• 橙色框标注了所有代码行（def add():、x = 10 等）
• 蓝色框标注了嵌入的截图
• 灰色框标注了正文说明文字

六、分类规则调优指南

不同 PDF 的排版风格不同，分类规则需要根据实际情况调整。以下是一个调试方法：

# 先打印所有 block 的字体信息，找到规律import fitzdoc = fitz.open("your_file.pdf")page = doc[0]blocks = page.get_text("dict")["blocks"]for i, b in enumerate(blocks):if b["type"] == 1:print(f"[{i}] IMAGE  bbox={b['bbox']}")continuefor line in b.get("lines", []):for span in line.get("spans", []):            text = span["text"].strip()if text:print(f"[{i}] size={span['size']:.1f}  "f"font=\"{span['font']}\"  "f"text=\"{text[:60]}\"")

常见字体名规律：

字体名特征	推断
含 `Bold`	加粗（可能是标题）
含 `Console`/`Mono`/`Lucida`	等宽字体（可能是代码）
含 `YaHei`/`Songti`/`Heiti`	中文字体
字号 >= 18px	大概率是标题
字号 < 10px	脚注或辅助文字

扩展：检测更多类别

defclassify_block_advanced(block):"""支持更多类别：表格（空间对齐）、公式、页眉页脚。"""# ... 前面代码同上 ...# 表格检测：多行文本在同一 x 区域内对齐if len(lines) >= 3:        x_starts = [min(s["bbox"][0] for s in line["spans"])for line in lines if line["spans"]]if len(set(round(x, -1) for x in x_starts)) >= 3:return "Table"# 多列对齐 → 可能是表格# 页眉页脚检测：位于页面顶部/底部    y_pos = block["bbox"][1]if y_pos < 50 or y_pos > page_height - 50:return "Header/Footer"return"Body"

七、常见踩坑

坑1：中文字符显示乱码

现象：打印时出现 UnicodeEncodeError 或 \xa0 乱码。

解决：脚本开头添加编码重配置：

if sys.platform == "win32":    sys.stdout.reconfigure(encoding="utf-8", errors="replace")

坑2：字体名大小写不一致

现象："bold" in span["font"] 检测不到加粗。

原因：字体名可能是 MicrosoftYaHei-Bold（首字母大写）。

解决：统一转小写再搜索：span["font"].lower()

坑3：表格检测依赖于文本格式

现象：Table 检测数量为 0。

原因：PDF 中的表格可能以独立文本块存储，不含 | 分隔符。Typora 导出的 PDF 将表格每个单元格渲染为独立 block，没有明确的表格标记。

解决：使用空间对齐分析（多列 x 坐标聚类）来推测表格结构。

坑4：图片块无文本内容

现象：Image 类型的 block 没有 lines 字段。

原因：PyMuPDF 将图片标记为 type=1，只有 bbox 信息，无文本。

解决：在分类函数中优先判断 block["type"] == 1。

八、总结

PyMuPDF draw_rect() 的页面标注方案是一个轻量级的 PDF 布局分析工具：

1. 零额外依赖：不需要 matplotlib、不需要深度学习模型（区别于 Marker）
2. 极快速度：< 0.1 秒/页，适合批量处理
3. 原生 PDF 输出：标注直接绘制在 PDF 页面上，文本保持可选中可搜索
4. 文件紧凑：17 页标注 PDF 仅 738 KB（原文件 629 KB）
5. 可定制：分类规则完全可控，根据不同 PDF 风格灵活调整
6. 每页自带图例：底部自动生成颜色-类别对应图例，无需对照文档查看

局限性是标题推断依赖字体规则（不如 Marker 的视觉模型准确），以及表格检测对特定 PDF 格式效果有限。如需完整结构化转换（保留标题层次+表格+图片到 Markdown），推荐使用 Marker。