4700 份工程图 PDF,本来云端调用 Azure OpenAI GPT-4 Vision 要花47 美元,现在三层 Local-First AI Inference 架构只需10-15 美元,处理时间从 100 分钟降到 45 分钟,效率直接翻倍。
- Tier 1 本地 PyMuPDF 提取,处理70-80% 文档,零 API 成本
- Tier 2 云端 Azure OpenAI GPT-4 Vision,处理 20-30% 文档,每份约一美分
- Tier 3 人工复核,覆盖低置信或冲突文档,约 5%
核心架构解析
Local-First AI Inference 的精髓在于什么时候调用模型而不是用哪个模型。Tier 1 使用 PyMuPDF 做确定性抽取,高精度低召回,三秒处理一份文档。Tier 2 渲染失败文档为图像,发送到 Azure OpenAI GPT-4 Vision。Tier 3 对冲突或低置信文档人工复核,形成完整三层保护网。
信心评分是架构核心:先通过 blocklist 剔除已知误判模式,再用空间位置、锚点、格式、上下文四个加权指标评分。公式 score = (40 * spatial) + (30 * anchor) + (20 * format) + (10 * context),确保标题块与修订历史区分开来,避免 98 分误判为 66 分的情况。

实测数据对比
对比云优先方案和人工处理:
- 云优先:47 美元 API 费,100 分钟处理,存在 2% 静默幻觉风险
- 人工:每份 2 分钟,总计 160 人小时,约 8000 英镑
- 三层混合:10-15 美元,45 分钟完成,人工复核约 5%,错误率受控
硬件要求:本地 PyMuPDF 提取即可,无需 GPU;云端使用 Azure OpenAI GPT-4 Vision

实操获取方法
可以直接在 Azure 上部署三层 Local-First AI Inference 架构提取工程图元数据。Tier 1 使用 PyMuPDF,本地处理即可;Tier 2 需要 Azure OpenAI 账号调用 GPT-4 Vision;Tier 3 建议用简单的人工复核队列管理低置信文档。
参考原文链接:Article: Local-First AI Inference: A Cloud Architecture Pattern for Cost-Effective Document Processing|来源 InfoQ AI/ML

留言聊聊
你现在主力用的是 Azure OpenAI GPT-4 Vision 还是本地 PyMuPDF?你觉得三层架构对你接活吃饭的场景有多大帮助?
来源:InfoQ AI/ML|原文:Article: Local-First AI Inference: A Cloud Archite
夜雨聆风