办公族福音,文档提取方式将从此改变!
文档提取方式将从此改变!
传统文档提取流程在处理篇幅长、结构复杂的文档时会遇到困难。 你处理一份100页的合同。将其拆分成若干部分。分别从每个部分提取数据。然后手动将结果拼接起来。一个跨越三页的表格被拆分成三个不相连的片段。

你编写代码将它们重新连接起来。下一个供应商的格式不同。你又编写了更多代码。
你的提取流程最终包含的拼接代码比实际的提取逻辑还要多。
一家供应商称之为“付款条款”,另一家称之为“净额30天”,还有一家将其隐藏在脚注中,没有任何标签。你的提取方案无法处理这些差异。你要么为每个供应商维护单独的方案,要么构建自定义解析器,要么干脆放弃,手动处理。
模式漂移悄无声息地导致故障。供应商更改了发票格式。您的管道仍在运行,但提取的值却不正确。
LandingAI 发布了全新的 ADE Extract API 来解决这个问题。整个文档无需分块处理,只需一次 API 调用即可完成。
主模式可以处理所有厂商的格式差异。
它的运作方式如下:
1. 模式构建 API 会根据示例文档生成一个主模式。一个模式即可处理所有格式变体。
2. Extract API 将该模式应用于新文档并返回结构化的 JSON。
它的独特之处在于:
• 一次通话即可处理 100 页以上的文档
• 将多页表格重构为统一数组
• 语义场匹配将“应付金额”、“总计”和“欠款余额”映射到同一字段
• 模式漂移检测功能可在格式更改破坏您的管道之前将其捕获。
• 嵌套深度可达 10 层以上 最棒的部分是什么? 为了便于追溯,提取的每个值都链接到其源数据块。
(https://github.com/landing-ai/ade-python)!
夜雨聆风