
半年前那张表里的"D 级腐蚀风险",到底来自哪份报告的第几页?
当合规审计员把这个问题摔到你面前时,你的系统能不能在 5 秒内把那一页 PDF 翻出来、把那段原文圈出来?
如果不能,你的"入库"就还不算完成。或者更准确地说——你抽到了字段值,但没有抽到它的出处;而在工业、医疗、合规这些下游会被反复追问的场景里,没出处的字段值是没法用来做决策的。
一、抽到字段不等于入库完成
很多 PDF 解析方案都在卷同一件事:字段抽得准不准。报告号、客户名、检测日期、风险等级——抽对了就是赢。
但在工业检测、医疗档案、合规报告这类真正高风险的入库场景里,"抽对"只是入场券。后面还有三件事必须做到:
1. 可回指:每一个字段值都能定位到原始报告的哪一页、哪一段、哪个区域
2. 可修正:人工发现错误时,能低成本改掉,并留下证据链
3. 可审计:半年后、一年后再来追问出处,链路依然完整

一旦导入错误被系统性传播,后续所有统计、分析、比对、生成报告都会跟着错。
入库不是"抽到值",是"在可信、可解释、可审计的前提下完成入库"。
而想做到这三件事,仅靠全文检索的单轨思路,几乎一定会出问题。
二、为什么"只用全文文本"会塌
现实里的历史 PDF 长这样:
一份报告里夹着多个子报告,语义层次复杂
标题、正文、表格、图片、页码的版式每年都在变,模板飘移严重
关键分析文字跨页连续,且常常和表格在版面上贴着
OCR 文本、PDF 文本层、页图坐标三条数据天然不一致
只用全文文本抽取的方案会在这些场景下露馅:
无法稳定支持按页定位:抽到了一段话,但分不清它属于哪一页

跨页对象没法原生建模:一段 summary 横跨两页,要么截断、要么张冠李戴
抽得到 ≠ 回指得到:你能在结果里看到这段文字,但点击它时,系统找不到原文位置
表格邻接区域、页码、低频对象集体翻车
反过来,只用视觉框选也不行——能告诉你"某处有个框",但说不出这个结构化结果对应的是哪一段原文,人工没法做细粒度核对。
任何一条链路单独使用都不够。
三、双轨溯源:文本路径 + 几何路径
我们的做法是同时维护两条独立的证据链:
文本路径(Text Path)—— `page_refs`
```
page_ref {
page_no: 该 ref 所属的页号

source_text: 这一页上该对象对应的原文片段
display_text: 审阅界面展示用的文本
role: summary | continuation | result
}
```
每个语义对象在它涉及的每一页都有一个独立的 `page_ref`,每个 `source_text` 必须只在该页文本中匹配。
几何路径(Geometry Path)—— `anchors`
```
anchor {
page_no, bbox(x,y,width,height),
category, anchor_type,

source_text, source_block_ids,
provenance_type,dependency_level,alignment_status
}
```
每个对象在每一页有一个空间锚点,优先从页面区域、表格边界、文本块几何生成,而不是从文本反推。
两条路径共享相同的 object_id 和 page_no,这就是它们能互相校验的基础。
四、几何优先 anchor 为什么比文本匹配 anchor 更可信
这里有个看似细节、其实是工程关键的设计决策:
几何路径必须优先从版面证据构造,而不是从`source_text` 反推 bbox。
为什么?因为如果几何路径从文本匹配结果反推位置,它就不是独立的第二条链路了——它是文本路径的影子。文本路径一旦上游出错,几何路径会跟着静默失败,但表面上还在出框,造成"两条链路都对"的假象。

为了把这件事写在数据里,每个 anchor 上都带 `dependency_level`:
`independent` —— 完全从版面几何生成,不依赖文本
`partial_text_dependency` —— 几何 + 文本组合
`strong_text_dependency` —— 主要靠文本反推
实测数据:85 页报告、130 个 sub_report + analysis 锚点中,32.31% 是 `independent`,60% 是部分文本依赖,7.69% 强文本依赖。其中 `sub_report` 的几何独立性最高(41/42 个独立锚点都来自这一类),因为子报告标题、页区域有稳定的结构特征。
五、几个具体的工程例子
例 1:表格邻接正文
第一页的 summary 紧挨着一张结果表格(`summary_grade_matrix`)。如果只靠文本反推 summary 的 bbox,要么没框全、要么把下面那张表也包进去。
工程做法:summary anchor 的下边界硬性约束在表格视觉上沿减一个小 margin 处。这是几何证据,不是文本证据。
例 2:跨页延续页
延续页(continuation page)的文本匹配最不稳定——因为延续段往往没有显式标题,只是接上前一页。

工程做法:延续页默认使用整页文本区域作为粗粒度 analysis anchor,`anchor_type=pdf_analysis_region`,`provenance_type=page_region`,`dependency_level=independent`。宁可粗,也要独立——粗框是地理事实,不会因为 `source_text` 出问题而消失。
例 3:页码标记
页码不是被动的版面元数据,而是一等结构化对象:每一页生成一个 `category=page_marker` 的独立 anchor,可以独立审阅、独立修正。这样模板飘移(罗马数字 / 阿拉伯数字、页眉 / 页脚位置变化)都能被 review 界面单独捕获。
六、双轨之间的"对账"信号
两条独立链路最大的好处,是它们可以互相对账。
每个 anchor 上有 `alignment_status`:
```
aligned —— 两条路径一致
unknown —— 证据不足以判断
suspicious —— 文本路径无匹配 / 空,但几何路径有结果
conflict —— 两条路径输出明显矛盾

```
当上游 `page_refs` 拆分错误、某一页 `source_text` 是空字符串时,几何路径仍然会生成独立的页区域锚点——两条路径输出不一致,`alignment_status` 自动变成 suspicious,审阅界面里直接打上标记。
单轨系统里,这种错误是"沉默故障"。
双轨系统里,它是"可见的不一致"。
实测下来,130 个 sub_report + analysis 锚点中,`alignment_status=conflict` 是 0.00%——没有出现两条链路相互矛盾的情况。这个"零冲突"的结果不是说系统完美,而是说当前阶段的标注策略偏保守:宁可标 `suspicious` 也不轻易标 `aligned`,把更多对象推到人工面前确认,而不是擅自宣称"两条链路都对"。对账信号的价值不是替人工拍板,而是让人工知道哪些地方需要再多看一眼。
七、写给在做文档入库的同行
如果你正在做 PDF / 文档入库,且下游用途是入数据库 + 长期审计,请认真考虑这件事:
不要把全文检索当作回指方案。 文本链路必须存在,但它不该独自承担"出处证据"的责任。再加一条几何链路,让它从版面而非文本生成,让两条链路在数据里互相对账——
入库的可信度,不是来自"抽得多准",而是来自"两条独立证据链都指向同一个地方"。
下次有人来问"半年前那张表里的数据从哪来",你的系统应该能:翻到那一页 PDF,画出那个框,给出那段原文,并且告诉审计员——这两条独立证据当时是对齐的。
这才叫入库完成。



2026年6月28日-7月5日伯通会组织超硬核的美国硅谷AI企业考察,8天6夜一起探索全球AI创新圣地与技术革命前沿!
参访企业:
全球顶级AI实验室深度对话:OpenAI主任顾问、伯克利大学人工智能实验室主任Pieter亲授——《朝向AGI,迈向下一场工业革命》,深度解析通用人工智能发展趋势、技术研发底层逻辑与产业应用落地路径
科技巨头创新文化探秘:Google(谷歌)总部园区深度参访,由人工智能负责人Alex分享《谷歌的文化与创新》,零距离体验AI团队协作模式、产品研发流程与硅谷顶尖科技企业创新文化内核
AI算力革命引擎揭秘:英伟达(NVIDIA)研发中心实地考察,深度学习科学家Eric主讲《英伟达的引擎:驱动AI产业革命的底层创新》,全面了解GPU技术迭代历程、AI算力如何支撑深度学习革命及AI模型开发部署全链路
硅谷AI新势力近距离接触:Pika Labs创始团队面对面交流,探索AI生成式内容领域最新技术突破、AI视频生成产品落地场景与商业化路径,洞察硅谷创业公司如何从0到1实现技术与商业双突破
产学研融合标杆学府:斯坦福大学人工智能实验室与机器人实验室深度走访,感受硅谷"灵魂学府"的顶尖学术氛围,了解斯坦福如何持续为硅谷科技生态输送创新人才与前沿技术
电影工业AI应用前沿:好莱坞索尼影业(Sony Pictures)经典影棚实地探访,观摩后期制作部门剪辑、调色和混音工作区域,体验AI技术如何重塑电影工业流程与创作模式
旧金山城市文化深度体验:九曲花街磨练车技、欣赏街道两侧缤纷花卉;金门大桥伴着太平洋海风欣赏跨海大桥壮阔夜景;渔人码头享用海鲜大餐,感受旧金山海港文化与市井气息
洛杉矶高端文化之旅:比佛利山庄 & 罗迪欧大道探访全球最尊贵的住宅区和顶级奢侈品店;盖蒂中心欣赏顶级艺术品和现代主义建筑杰作;圣莫尼卡海滩观赏66号公路终点标志,在落日余晖中漫步木质栈道
考察行程细节欢迎垂询:伯通会客服微信

公众号|伯通会
视频号|商业砖家-明伯老师
点击蓝字
关注我们
夜雨聆风