乐于分享
好东西不私藏

中小企业最缺的文档AI,不是识别准确率99%——而是直接把结果装进Excel

中小企业最缺的文档AI,不是识别准确率99%——而是直接把结果装进Excel

一家代账公司每个月要处理几百张发票。PDF的、照片拍的、微信转发的。一个员工每天花六到八个小时,把发票上的公司名称、金额、税号、日期一条一条录入Excel,然后对账。纯手工活,月复一月。

市面上能识别发票的AI工具很多。阿里文档智能、腾讯云OCR(光学字符识别)、百度AI——发票识别的准确率卷到了99.2%。但代账公司的员工并没有减少。因为识别完以后,数据是一条JSON(一种数据结构格式),还是要手动整理成Excel才能用。

这就是大多数文档AI工具的真实处境:技术上做到了99%,体验上卡在了最后1%。

GitHub上有一个叫docflow-automation-agent的开源项目,做的事刚好打在这1%上。它从PDF、图片、Word里提取结构化数据,按预设业务规则处理,输出标准Excel。最关键的细节:AI对每一条提取数据标注了可信度,可信度低的自动标记为需要人复核。

不是”AI读懂文档”——是”AI接住你现有的流程”

市面上做文档AI的公司很多。阿里文档智能、腾讯云OCR(光学字符识别)、百度AI——它们都在卷”识别准确率”。

卷到现在,发票识别准确率到了99.2%。

但真正用起来的企业客户并没有按同比例增长。问题出在哪。

假设你是一家代账公司。每个月客户给你发几十份发票——PDF的、照片拍的、微信转发的。

你用AI工具识别完,拿到一条JSON(一种数据结构格式),里面是公司名称、金额、税号、日期。然后呢?

你要手动把这些数据一条条粘贴到Excel里、对账、调格式、发给客户。

AI帮你省了打字的时间,但增加了格式转换的麻烦。这就是大多数文档AI工具的真实处境:技术上做到了99%,体验上卡在了最后1%

docflow-automation-agent的设计思路不同。它不追求”AI全自动处理一切”。

它的流水线是这样跑的:识别 → 业务规则校验 → Excel输出 → 置信度标记 → 人工复核清单。

你拿到的不是一堆AI猜测,是一份标注了”哪些需要你再确认”的工作表。

这个差异在产品上很小——只是多了一个置信度字段和一份复核清单。但在商业上,这个差异决定了客户付不付钱。

企业客户从来不相信AI能100%准确。他们相信的是”AI提取 + 我复核”这个流程。

三个产品决策,每一个都打在付费意愿上

docflow-automation-agent的技术架构没有任何黑科技。PDF解析用PyMuPDF(开源PDF处理库),OCR接的是现成模型,Excel输出用openpyxl(Python操作Excel的库)。一个中级Python开发者两周可以复现。

真正值钱的是它的产品设计思路:

设计决策
常规做法
docflow的做法
为什么这个选择值钱
输出格式
JSON / API
Excel
中国中小企业的业务语言就是Excel。输出JSON,客户转头找别人。输出Excel,客户当场签合同。
自动化程度
追求100% AI全自动
AI提取 + 置信度标记 + 人工复核
企业客户不相信AI能100%准确。他们相信”AI提取 + 我复核”这个流程。
功能范围
做死一个功能(发票识别)
可配置的规则引擎
今天处理发票,明天处理合同。同一套框架,不同规则。跨行业可复制。
输出格式决定成交速度。自动化程度决定客户信不信你。规则引擎决定你能做多大。

五个可以立刻Copy的垂直行业场景

行业
输入文档
输出交付物
月费定价参考
付费意愿强度
代账/财税
发票、银行回单、工资表
记账凭证汇总表
2000-5000元
刚需,重复性极高
律师事务所
合同、判决书、证据清单
案件要素对比表
3000-8000元
按案件量收费
猎头/HR
简历、职位描述、面试评价
候选人横向对比表
1500-3000元
中高,按岗位计
外贸/物流
提单、报关单、装箱单
货物追踪与费用汇总表
2000-4000元
中等,按票量计
口腔诊所
病历、检查单、收费单
患者诊疗档案表
1000-2000元
增长中,合规驱动

这五个行业的共同特征:有大量标准化文档需要处理、已有明确的付费主体(公司而非个人)、现存解决方案是纯人工或半人工。

最重要的是,不需要AI创新,只需要把现有AI能力拧成一套”行业专用的小流水线”。这是小团队打大厂最有效的方式——大厂做通用平台,你做垂直行业。通用平台的识别准确率再高,它不懂代账公司的业务规则。而你知道。

第一版怎么做轻

不要一上来就做通用平台。代账、律所、猎头、外贸——每个行业的文档格式和业务规则完全不同。同时做五个行业,结果是一个都用不了。

选一个你已经有关系的行业。最理想的情况是你自己或身边人正在被这个问题折磨——比如你表姐开代账公司、你同学在律所做助理。没有真实的痛苦作为起点,做出来的产品大概率是在解决一个不存在的问题。

拿到50份真实文档样本,手动标注每一份文档里应该提取哪些字段。这个标注过程本身就是在定义你的产品范围——一份增值税发票到底有28个字段还是其中8个字段对代账公司有用?不标注你不会知道。标注完你才知道哪些AI已经能识别、哪些需要你配置额外规则。

技术上不需要从零写。docflow-automation-agent的代码base可以直接用,PyMuPDF做PDF解析,现成的OCR模型做识别,openpyxl做Excel输出。一个中级Python开发者在AI辅助下,基础流水线一周能跑通。

但跑通不等于能用。业务规则才是产品值钱的环节。”发票金额不能为负数””合同日期不能晚于签署日期””同一个客户的多张发票要自动合并”——这些规则每多一条,输出准确率就提一截。而规则本身不需要AI,只需要你比写代码的人更懂这个行业。

验证方式很简单:找3个人,把他们的文档跑一遍,问一句话——”如果这个东西每个月帮你们省三天人工,你们愿意付多少钱?”答案如果低于2000块,换一个行业。如果高于3000块,你已经找到了第一个付费客户。

几个容易被忽略的致命细节

第一个致命细节是文档格式的碎片化程度,远超想象。同样是发票,中国大陆的增值税发票、香港的Invoice(英文发票)、跨境电商的Receipt(收据)——格式完全不同。你以为是做了一个”发票识别”功能,落到真实场景里发现80%的发票格式你从来没见过。开局不要做通用功能。选一个极小范围——比如只做”中国大陆增值税普通发票”——做透。

第二个致命细节是人工复核不能设计成”可选的”。

不管你对自己的AI多自信,必须在产品上强制呈现复核步骤。不是因为你不够好,是因为让客户觉得”AI全自动”反而会害了他们——出了错你负全责。

最好的产品策略:AI做完90%,剩下10%清清楚楚标记出来让客户自己判断。客户会觉得你靠谱。

第三个致命细节是开源项目可能随时停更。docflow-automation-agent的作者随时可能放弃维护。

做这个方向不能依赖这个具体项目本身,而是学它的产品设计思路,用稳定的开源组件自己搭建。

依赖一个随时可能死掉的开源项目,等于把自己的商业逻辑绑在别人的业余爱好上。

结尾判断

docflow-automation-agent不是一个技术奇迹。它的价值不在代码里,在产品逻辑的教科书里:敢承认AI会出错、用Excel而不是JSON做输出、人工复核是功能不是妥协。

这三个决策里没有一个是”技术创新”。但每一个都直接打在”客户付不付钱”这个商业问题上。

AI行业有一个普遍的陷阱:做产品的人总想证明AI能做更多。但企业客户要的不是”AI能做更多”,而是“AI能接住我现在的流程”

大部分人还在追”AI能做更多”,少数人已经转向了”AI怎么接住流程”。后者才是能收到钱的人。

参考来源

  • docflow-automation-agent — GitHub
  • 阿里文档智能 / 腾讯云OCR / 百度AI 产品信息引自各平台公开文档