乐于分享
好东西不私藏

AI时代的ERP上线:从上线验收到AI效果验证

AI时代的ERP上线:从上线验收到AI效果验证

UAT测试通过,系统验收签字,项目组撤场——这是传统ERP的标准结局。但AI时代,这个结局往往是问题的开始。

以AI审单为例,上线后,AI每天审核几百张发票,表面上运转正常。但仔细看会发现:财务人员对AI判断的采纳率越来越低——该驳回的没有驳回,不该通过的反而通过了——财务人员要么绕过AI直接处理,要么花更多时间纠正AI的错误。AI没有减轻工作量,只是改变了工作的形式。

与此同时,AI的准确率开始出现下滑趋势。项目组说这是”正常波动”,财务人员开始绕开AI。覆盖率越来越低,AI慢慢成了一个摆设。

这个故事说明了一件事:传统ERP的验收逻辑,在AI面前是失效的。

5.1 传统验收只验功能,AI上线要验效果

传统ERP上线验收,核心是三件事:测试用例执行通过、系统响应时间在设计范围内、数据准确性校验通过。这套逻辑的核心假设是:系统功能是确定的,对就是对,错就是错,跑一遍用例就知道了。

AI不一样。AI的输出是概率性的,不是对错二值——同样一张发票,AI今天判断”通过”,明天可能判断”驳回”,取决于它当天模型推理的随机性。更重要的是,AI的效果会随时间变化:准确率可能上升,也可能下滑;覆盖率可能扩大,也可能萎缩;用户采纳率可能提高,也可能因为体验下降而降低。

所以,AI上线的验收逻辑要改:不是验功能,是验效果。

具体要验的是三个维度:AI准确率、AI覆盖率、AI响应时效。这三个维度不是选一个,而是三个都要看,缺任何一个都不完整。

5.2 AI准确率:不是验收时测一次,是建立持续测量机制

准确率是最容易问、也最容易误解的一个指标。

选型阶段,厂商通常会报一个准确率数字:92%、95%、甚至98%。但这个数字有三个问题:一是厂商在自己数据集上测出来的,不等于在你企业数据上的表现;二是某个时间点的静态数字,不等于持续运营后的结果;三是准确率的定义本身就有歧义——”准确”是指和人工判断一致,还是指符合业务规则?

某企业选型时,厂商演示准确率92%。上线后发现:对付费类发票的判断准确率确实有94%,但对差旅类报销只有71%。

92%是加权平均的结果,掩盖了场景之间的巨大差异。这个差距不在识别层——火车票、机票、出租车票都是标准印刷体,OCR识别率本来就高——而在判断层。差旅报销的政策规则比普通付款复杂得多:职级对应不同的报销额度,哪些城市只能坐地铁、哪些城市能报销出租车,不同时期城差标准还在调整,一张报销单过不过得了,往往要横跨好几条规则才能判断清楚。普通付款的规则简单明了,AI处理起来准确率自然高。两个场景放在一起求平均,差旅的低准确率被付费的高准确率拉平了,看综合数字什么都看不出来。

所以,验收时不能只问”准确率是多少”,要问三句话:

第一句:按业务类型分类,准确率分别是多少? 把AI处理的业务分类型统计,看哪些场景准确率高、哪些场景准确率低。准确率高的场景可以放心扩大AI处理范围,准确率低的场景要设置人工复核兜底。

第二句:这个准确率是在什么数据基础上测出来的? 如果厂商用的是脱敏后的标准测试数据集,而不是你企业的真实历史数据,这个准确率数字要打折扣。你需要用自己的历史数据重新做一次盲测。

第三句:准确率上线后会持续监控吗? 准确率不是测一次就完事的,上线后要持续监控。准确率出现下滑趋势,要能及时发现、分析原因、调整模型或Prompt。上线时要把这件事的机制设计好,不能靠人工定期抽查。

5.3 AI覆盖率:不是越高越好,是持续提升

覆盖率是什么意思?AI处理了全部审核量的百分之多少?数字越高,说明AI用得越广泛。

这个指标和准确率一样重要,但方向相反——准确率高但覆盖率低,说明AI的价值没有充分释放;覆盖率高但准确率低,说明AI制造的问题比解决的问题还多。

理想状态是两者都高,但实际运营中通常有一个阶段是:先提升覆盖率,再提升准确率,或者反过来,根据业务场景选择路径。

覆盖率设计有一个常见的误区:追求100% AI处理,把所有单据都交给AI判断。

这个目标本身就是错的。有些业务天然不适合AI处理:金额超大的、涉及多个部门扯皮的、发票本身存在重大瑕疵的。这些场景应该一开始就被排除在AI处理范围之外,由人工直接处理。AI的覆盖范围要覆盖”AI适合处理的场景”,而不是”所有场景”。

所以覆盖率的设计逻辑是:先把AI适合的场景识别出来,AI做这些;AI不适合的,人做。AI覆盖率指的是”AI适合处理的场景里,AI实际处理了多少比例”,而不是”AI处理了所有单据的比例”。

上线后,覆盖率应该是一个持续提升的曲线。随着AI准确率提升,随着数据基础改善,随着员工对AI的信任建立,覆盖率逐步提高。覆盖率停止提升甚至下降,通常意味着AI效果出了问题,要去查原因。

5.4 AI响应时效:五分钟是个门槛

用户提交一张发票,AI多久给出判断结论?

这个时间太长了不行——如果AI判断一张发票要五分钟,用户不会等。但如果AI判断只要三秒,用户感知不到等待。

在财务审核场景里,有一个经验门槛:单张发票的AI判断,不超过五分钟;批量提交的判断,不超过一小时。 超过这个时间,用户体验会明显下降,要么放弃等AI,要么绕过AI直接处理。

这个指标在验收阶段容易被忽略——UAT测试里用例少,响应时间没问题,但上线后并发量上来,响应时间可能急剧下降。某共享中心上线AI审单后,单日处理量高峰期是平时的三倍,AI判断时间从三秒变成了二十秒,用户投诉随之大量出现。

验收时要模拟真实业务量做压力测试,不能只按平时处理量来测。

5.5 数据迁移的隐性坑:历史数据能不能支撑AI检索

AI上线前,数据迁移是躲不过的一步。

传统ERP数据迁移,验收标准是三条:完整性校验通过(该录的数据都录进来了)、准确性校验通过(关键字段没有错误)、一致性校验通过(跨系统的同一数据口径统一)。这三条过了,数据迁移就合格了。

AI时代,还要加一条硬性标准:AI检索可用性。 这条没过,AI上线后的回答质量会直接打折——该找的信息找不到,答案自然残缺。

某企业把十年历史报销数据迁移到新系统,完整性、准确性、一致性全部绿灯。AI上线后,审单回答却很不稳定:有些标准问题答得很准,有些明明有政策依据的问题,AI却说”没有找到相关规定”。排查后发现,问题出在主数据未归一加知识库标签混乱

十年前的数据里,费用类型写法五花八门:”差旅””出差””Travel””差旅费””其他”……这些本质是同一业务概念,却没有做标准化映射。知识库建设时又原样保留,同一制度被拆成多条、标签各自独立。结果就是:制度内容明明存在,但用户问”差旅报销标准”,标签为”出差””差旅费”的条目无法被精准召回,AI拿到的上下文不完整,回答自然缺漏。

这里有一个极易踩坑的误区:AI确实具备语义识别能力,能理解”出差”和”Travel”是同义词,但它解决的是用户怎么问都能命中的问题,无法自动修复历史数据与知识库中业务概念不统一的底层问题。如果源头标签、分类、口径散乱,语义能力再强也无法保证召回完整。

最终避坑结论非常明确:AI时代的数据迁移,必须比传统时代多一条——AI检索可用性。 同一业务含义的数据要做标准映射,碎片化的历史内容要归并,知识库标签与分类要统一。具体落到三个动作:业务主数据归一(同一概念映射为唯一标准值)、知识库内容归一(同一制度不拆碎、标签统一)、检索回归测试(用真实业务问题抽检,确保召回率达标)。这不是可选项,而是AI能用、好用的前提。

5.6 用户培训的新内容:不是教操作,是教协作

传统ERP上线,用户培训教三件事:怎么登录、怎么录单、怎么审批。学会了,系统就能用起来。

AI财务系统上线,光教这三件事不够了。

AI会给出判断和建议,判断和建议会被采纳或者被拒绝,被拒绝后AI会收到反馈,这个反馈会进入AI的学习循环。财务人员在这个循环里扮演的角色,不是”使用者”,而是”协作者”——他们的反馈决定了AI能不能越做越好。

但协作者需要具备一种以前不需要的意识和能力:知道什么时候该信AI,什么时候该Override AI。

某共享中心AI审单上线后,培训只讲了系统操作,没讲协作意识。结果出现了两个极端:一部分财务人员完全不听AI建议,AI说什么都当没听见,AI形同虚设;另一部分财务人员过度依赖AI,AI说什么就做什么,连明显的错误判断也不Override,导致问题单据直接通过。

两种极端的背后是同一个问题:财务人员不知道AI的判断是概率性的,不知道自己保留最终决定权,不知道Override这个动作本身就是对AI的训练。

所以AI财务系统的用户培训,要有第四块内容:

AI判断出来了,该怎么看? 财务人员要知道AI给出了什么结论、置信度是多少、判断依据是什么。AI不确定的地方,要能看到它不确定的原因。

AI判断错了,该怎么做? 财务人员要知道怎么点Override、Override之后怎么填写正确结论、这个Override会不会反馈给AI。Override不是”AI错了就错了”,而是”AI错了,我来告诉它正确答案”。

我的Override能不能让AI下次做得更好? 财务人员要知道AI有学习机制,自己的反馈会被记录和分析,但AI不会因为一次Override就立刻改变,模型调整需要积累足够多的样本才有意义。

这套意识需要在培训阶段就建立起来,系统上线后再强调,往往来不及了。

5.7 运营仪表盘要改版:不是看系统健康,是看AI效果

传统ERP上线后,运营团队看的是系统监控仪表盘:系统响应时间、接口成功率、服务器CPU占用率、数据库连接数。这套指标的核心逻辑是:系统稳定不出错,就算运营正常。

AI财务系统的运营仪表盘,要加一套全新的指标。

准确率趋势图:AI判断正确的比例,按日或按周统计,看曲线走向。准确率出现连续三周下滑,要触发调查机制,是模型漂移了、是数据质量下降了、还是某个新业务场景没有被覆盖。

覆盖率趋势图:AI处理的业务量占总审核量的比例,看AI是不是被用起来了。覆盖率持续走低,说明用户在绕开AI,要去查原因。

采纳率:财务人员采纳AI建议的比例。采纳率和准确率要一起看——准确率高、采纳率低,说明用户不信任AI,原因通常是AI给出的判断理由不够充分;准确率低、采纳率高,说明用户过度依赖AI,需要提醒Override。

幻觉案例记录:AI给出明显错误判断的具体案例,按月汇总。不需要每条都分析,但要定期review,看错误的模式有没有共性——如果有,说明某个场景的Prompt或者规则需要调整。

比如AI审单上线三个月,仪表盘显示准确率88%,覆盖率71%,采纳率只有32%。表面看数字还行,但采纳率太低了,说明财务人员不信任AI。排查了一圈,发现原因很简单:AI每次给出判断,只显示结论,不显示依据。财务人员不知道AI为什么判断”通过”,自然不敢采纳。后来加了”AI判断依据展示”功能,财务人员看到AI列举了报销标准政策文件里的具体条款,采纳率在三周内从32%提升到67%。

这个案例的教训是:AI判断依据的可解释性,是用户采纳率的前提。 仪表盘里要把采纳率单独列出来,采纳率低就是用户不信任的信号,要去改善AI的解释能力,而不是要求财务人员强制采纳。

本章小结

这一章讨论的是AI财务系统上线,和传统ERP上线的本质区别。

核心论点:AI上线不是终点,是起点。验收通过不代表AI有效果,效果要靠持续监控和优化。

验收新三维:准确率(按业务类型分类测,不只看综合数字)、覆盖率(持续提升,不是越高越好,而是AI适合的场景用AI)、响应时效(五分钟是门槛)。

数据迁移新维度:AI时代的数据迁移除了传统三条标准,还要加一条——AI检索可用性。同一业务含义的数据要做标准映射,碎片化内容要归并,知识库标签要统一。具体三个动作:主数据归一、知识库归一、检索回归测试。

用户培训新内容:光教操作不够,要教协作意识——怎么看待AI判断、怎么做Override、Override对AI意味着什么。

运营仪表盘新指标:准确率趋势、覆盖率趋势、采纳率、幻觉案例记录。采纳率低就是用户不信任的信号,要去改善AI的解释能力。

下一章,我们来聊AI时代的财务共享——AI加入之后,共享的战略要不要重新设计,哪些以前不能共享的业务,现在可以共享了。