抽取质量的关键不在「怎么调模型」,而在「怎么跟模型说话」。本模块用系统提示词 + 按表注入字段定义两段式,把通用大模型驯成针对你这套表格的专业抽取器。
5.1 系统提示词 SYSTEM_PROMPT
定义在 AiPdfExtractionServiceImpl,固化了 7 条抽取铁律。这是所有表共用的「底座规则」:
- 逐字保留
:严格按原文抽取,禁止概括、改写、缩写、翻译、合并、推测、补全;完整保留全部文字、数字、单位、括号与符号。 - 字段约束
:若给了「字段清单」, columns必须与之完全一致(同名、同序、不缺、不改名、不新增、不合并);每个 row 都要含全部字段,无内容填""。 - 输出形态
:键值型登记表 → JSON 对象;多行明细表 → {"columns":[...], "rows":[{列名:值,...}, ...]}。 - 合并单元格向下填充
:纵向合并的值属于它跨越的所有行,必须在每一行都重复填入,绝不能只在首行填、其余留空。 - 跨页折行合并
:若某行只有个别单元格有少量文字、标识列(如序号、记录编号)为空,说明是上一行被折断的续接文字,合并回上一行,不单独成行。 去掉页眉页脚、页码(如「— 2 —」)、表格标题等无关内容。 只输出 JSON,不要任何解释或 markdown 代码块。
第 4、5 条最关键——它们直接对抗 PDF 表格最常见的两类结构破坏。配合第 4 章百度 OCR 识别出的结构化 JSON 作为输入:提示词约束 + 结构化输入,两头夹,才压得住。
提示词里的「领域身份」可按需替换。比如把开头设成「你是某某单据的结构化抽取专家」,能进一步收敛模型对该领域术语的理解,但 7 条铁律是通用的。
5.2 字段注册表 TableSchemaRegistry + table-schema.json
字段定义文件
resources/schema/table-schema.json 按「表格标题」定义每张表的结构示例:
"基本信息表": {"title": "基本信息表","rootKey": "基本信息","type": "object","example": {"单位名称": "示例科技有限公司","注册地址": "某省某市某区某路1号","统一社会信用代码": "9100000000000000XX","联系电话": "010-00000000","证件文号列表": ["示字〔2021〕4号", "..."],"指标": {"指标A": { "数值": 5588.22, "单位": "t/a", "说明": "..." }}}}
example 是一份「填好的样表」,直接示范字段名、嵌套层级、数据类型——比干巴巴列字段名更能约束模型输出。
注册表加载与匹配
TableSchemaRegistry 在 @PostConstruct 时加载,外部文件 schemaPath 优先,否则用 classpath 内置,按「去表号/空白」归一化后的标题建索引:
public TableSchema getByTitle(String title) {TableSchema s = schemas.get(normalize(title)); // ① 精确匹配if (s != null) return s;for (entry : schemas) // ② 包含兜底if (key.length() >= 4 && (norm.contains(key) || key.contains(norm)))return entry.getValue();return null;}// normalize: 去掉开头「表N / 表N-N」前缀与所有空白
为什么按标题而非表号匹配?因为同一类表在不同文档里表序号可能不同(这份里是表48,那份里可能是表46),标题更稳定。
外部文件优先还有个运维价值:不重启、不重新打包就能调字段定义,线上发现某表抽得不对,改 JSON 文件即可。
5.3 动态注入 buildSchemaBlock
抽取每张表时,把该表的字段定义拼进用户提示词。逻辑分三档:
TableSchema schema = tableSchemaRegistry.getByTitle(title);if (schema == null) return ""; // ③ 未配置 → 自由抽取if (schema.getExample() != null) { // ① 有结构示例(首选)// 数组型:要求输出 {"rootKey": [元素,…]},每个元素严格遵循示例// 对象型:要求严格遵循结构示例return "请输出 JSON 对象,严格遵循下面的「结构示例」…" + prettyJson(example);}if (schema.getFields() 非空) { // ② 只有字段清单// 登记表:给「字段清单(对象键,不缺不改不增)」// 明细表:给「columns 必须与字段完全一致」}
最终拼出的用户提示词大致是:
表格标题:表3 设备明细表请输出 JSON 对象,格式为 {"设备明细": [元素, ...]};数组每个元素严格遵循下面的「元素结构示例」…元素结构示例:{ "设备编号": "...", "设备名称": "...", "规格": "...", ... }以下是该表百度 OCR 识别出的内容 JSON(跨页已合并),请严格据此抽取为结构化 JSON,逐行输出、不要遗漏任何一行……<OCR 识别结果 JSON>
5.4 这套提示工程为什么有效
example | |
json_object + 低温(见第 6 章) |
一句话:铁律定下限,结构示例定上限,对齐输入降难度。 三者缺一,抽取质量都会塌方。
夜雨聆风