办公族福音,文档提取方式将从此改变!-夜雨聆风

办公族福音,文档提取方式将从此改变!

文档提取方式将从此改变！

传统文档提取流程在处理篇幅长、结构复杂的文档时会遇到困难。你处理一份100页的合同。将其拆分成若干部分。分别从每个部分提取数据。然后手动将结果拼接起来。一个跨越三页的表格被拆分成三个不相连的片段。

你编写代码将它们重新连接起来。下一个供应商的格式不同。你又编写了更多代码。

你的提取流程最终包含的拼接代码比实际的提取逻辑还要多。

一家供应商称之为“付款条款”，另一家称之为“净额30天”，还有一家将其隐藏在脚注中，没有任何标签。你的提取方案无法处理这些差异。你要么为每个供应商维护单独的方案，要么构建自定义解析器，要么干脆放弃，手动处理。

模式漂移悄无声息地导致故障。供应商更改了发票格式。您的管道仍在运行，但提取的值却不正确。

LandingAI 发布了全新的 ADE Extract API 来解决这个问题。整个文档无需分块处理，只需一次 API 调用即可完成。

主模式可以处理所有厂商的格式差异。

它的运作方式如下：

1. 模式构建 API 会根据示例文档生成一个主模式。一个模式即可处理所有格式变体。

2. Extract API 将该模式应用于新文档并返回结构化的 JSON。

它的独特之处在于：

• 一次通话即可处理 100 页以上的文档

• 将多页表格重构为统一数组

• 语义场匹配将“应付金额”、“总计”和“欠款余额”映射到同一字段

• 模式漂移检测功能可在格式更改破坏您的管道之前将其捕获。

• 嵌套深度可达 10 层以上最棒的部分是什么？为了便于追溯，提取的每个值都链接到其源数据块。

（https://github.com/landing-ai/ade-python）！