中小企业最缺的文档AI,不是识别准确率99%——而是直接把结果装进Excel
一家代账公司每个月要处理几百张发票。PDF的、照片拍的、微信转发的。一个员工每天花六到八个小时,把发票上的公司名称、金额、税号、日期一条一条录入Excel,然后对账。纯手工活,月复一月。
市面上能识别发票的AI工具很多。阿里文档智能、腾讯云OCR(光学字符识别)、百度AI——发票识别的准确率卷到了99.2%。但代账公司的员工并没有减少。因为识别完以后,数据是一条JSON(一种数据结构格式),还是要手动整理成Excel才能用。
这就是大多数文档AI工具的真实处境:技术上做到了99%,体验上卡在了最后1%。
GitHub上有一个叫docflow-automation-agent的开源项目,做的事刚好打在这1%上。它从PDF、图片、Word里提取结构化数据,按预设业务规则处理,输出标准Excel。最关键的细节:AI对每一条提取数据标注了可信度,可信度低的自动标记为需要人复核。
不是”AI读懂文档”——是”AI接住你现有的流程”
市面上做文档AI的公司很多。阿里文档智能、腾讯云OCR(光学字符识别)、百度AI——它们都在卷”识别准确率”。
卷到现在,发票识别准确率到了99.2%。
但真正用起来的企业客户并没有按同比例增长。问题出在哪。
假设你是一家代账公司。每个月客户给你发几十份发票——PDF的、照片拍的、微信转发的。
你用AI工具识别完,拿到一条JSON(一种数据结构格式),里面是公司名称、金额、税号、日期。然后呢?
你要手动把这些数据一条条粘贴到Excel里、对账、调格式、发给客户。
AI帮你省了打字的时间,但增加了格式转换的麻烦。这就是大多数文档AI工具的真实处境:技术上做到了99%,体验上卡在了最后1%。
docflow-automation-agent的设计思路不同。它不追求”AI全自动处理一切”。
它的流水线是这样跑的:识别 → 业务规则校验 → Excel输出 → 置信度标记 → 人工复核清单。
你拿到的不是一堆AI猜测,是一份标注了”哪些需要你再确认”的工作表。
这个差异在产品上很小——只是多了一个置信度字段和一份复核清单。但在商业上,这个差异决定了客户付不付钱。
企业客户从来不相信AI能100%准确。他们相信的是”AI提取 + 我复核”这个流程。
三个产品决策,每一个都打在付费意愿上
docflow-automation-agent的技术架构没有任何黑科技。PDF解析用PyMuPDF(开源PDF处理库),OCR接的是现成模型,Excel输出用openpyxl(Python操作Excel的库)。一个中级Python开发者两周可以复现。
真正值钱的是它的产品设计思路:
|
|
|
|
|
|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
输出格式决定成交速度。自动化程度决定客户信不信你。规则引擎决定你能做多大。
五个可以立刻Copy的垂直行业场景
|
|
|
|
|
|
|---|---|---|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
这五个行业的共同特征:有大量标准化文档需要处理、已有明确的付费主体(公司而非个人)、现存解决方案是纯人工或半人工。
最重要的是,不需要AI创新,只需要把现有AI能力拧成一套”行业专用的小流水线”。这是小团队打大厂最有效的方式——大厂做通用平台,你做垂直行业。通用平台的识别准确率再高,它不懂代账公司的业务规则。而你知道。
第一版怎么做轻
不要一上来就做通用平台。代账、律所、猎头、外贸——每个行业的文档格式和业务规则完全不同。同时做五个行业,结果是一个都用不了。
选一个你已经有关系的行业。最理想的情况是你自己或身边人正在被这个问题折磨——比如你表姐开代账公司、你同学在律所做助理。没有真实的痛苦作为起点,做出来的产品大概率是在解决一个不存在的问题。
拿到50份真实文档样本,手动标注每一份文档里应该提取哪些字段。这个标注过程本身就是在定义你的产品范围——一份增值税发票到底有28个字段还是其中8个字段对代账公司有用?不标注你不会知道。标注完你才知道哪些AI已经能识别、哪些需要你配置额外规则。
技术上不需要从零写。docflow-automation-agent的代码base可以直接用,PyMuPDF做PDF解析,现成的OCR模型做识别,openpyxl做Excel输出。一个中级Python开发者在AI辅助下,基础流水线一周能跑通。
但跑通不等于能用。业务规则才是产品值钱的环节。”发票金额不能为负数””合同日期不能晚于签署日期””同一个客户的多张发票要自动合并”——这些规则每多一条,输出准确率就提一截。而规则本身不需要AI,只需要你比写代码的人更懂这个行业。
验证方式很简单:找3个人,把他们的文档跑一遍,问一句话——”如果这个东西每个月帮你们省三天人工,你们愿意付多少钱?”答案如果低于2000块,换一个行业。如果高于3000块,你已经找到了第一个付费客户。
几个容易被忽略的致命细节
第一个致命细节是文档格式的碎片化程度,远超想象。同样是发票,中国大陆的增值税发票、香港的Invoice(英文发票)、跨境电商的Receipt(收据)——格式完全不同。你以为是做了一个”发票识别”功能,落到真实场景里发现80%的发票格式你从来没见过。开局不要做通用功能。选一个极小范围——比如只做”中国大陆增值税普通发票”——做透。
第二个致命细节是人工复核不能设计成”可选的”。
不管你对自己的AI多自信,必须在产品上强制呈现复核步骤。不是因为你不够好,是因为让客户觉得”AI全自动”反而会害了他们——出了错你负全责。
最好的产品策略:AI做完90%,剩下10%清清楚楚标记出来让客户自己判断。客户会觉得你靠谱。
第三个致命细节是开源项目可能随时停更。docflow-automation-agent的作者随时可能放弃维护。
做这个方向不能依赖这个具体项目本身,而是学它的产品设计思路,用稳定的开源组件自己搭建。
依赖一个随时可能死掉的开源项目,等于把自己的商业逻辑绑在别人的业余爱好上。
结尾判断
docflow-automation-agent不是一个技术奇迹。它的价值不在代码里,在产品逻辑的教科书里:敢承认AI会出错、用Excel而不是JSON做输出、人工复核是功能不是妥协。
这三个决策里没有一个是”技术创新”。但每一个都直接打在”客户付不付钱”这个商业问题上。
AI行业有一个普遍的陷阱:做产品的人总想证明AI能做更多。但企业客户要的不是”AI能做更多”,而是“AI能接住我现在的流程”。
大部分人还在追”AI能做更多”,少数人已经转向了”AI怎么接住流程”。后者才是能收到钱的人。
参考来源
-
docflow-automation-agent — GitHub -
阿里文档智能 / 腾讯云OCR / 百度AI 产品信息引自各平台公开文档
夜雨聆风