传统ERP上线后,运营的核心是系统稳定性——服务器稳不稳、接口通不通、bug多不多。AI财务系统除了这些,还要多盯一件事:AI效果好不好用。
这个区别听起来简单,但它彻底改变了运营团队的职责。传统运营团队管的是"系统不坏",AI运营团队还要管"AI越来越准"——这不是运维能兜住的工作,是一套全新的运营体系。
11.1 运营管什么:AI效果不是上线定型,是持续变化
AI不是一次性训练完就能稳定跑的东西。上线那一刻的准确率,不是天花板,是起点。
原因有几个。第一,数据在变——业务在增长,费用类型在增加,员工报销习惯在变化,AI见过的样本越来越丰富,也越来越需要处理新的边缘情况。第二,知识库要更新——报销政策调整,税率变化、新业务场景出现、历史判断积累了新的案例,知识库不更新,AI给出的建议就是过时的。第三,Prompt需要调优——刚上线时的Prompt是基于设计阶段的假设,上线后接触真实数据,会发现有些问法AI识别不好,有些场景Prompt没有覆盖到,需要持续打磨。
这些工作没有一项是一次性的。上线后第一个月AI准确率是85%,不代表第十二个月还是85%。可能是往上走,也可能是往下掉——往上走需要主动运营,往下掉往往是出了问题才被动发现。
所以,AI运营要管的第一个转变是:从"管系统稳定"升级到"管AI效果持续提升"。
11.2 四个核心指标:上线后每天要看什么
AI运营仪表盘不是传统ERP的监控面板加几个新指标,它是完全不同的东西。
准确率是最直接的一个,但只问"准确率多少"不够,要分场景来看。发票类型识别的准确率和招待费合规判断的准确率,往往差很远——前者规则明确,后者模糊复杂,放在一起问一个数字没有意义。按业务类型分别统计,分别盯趋势,才能看清楚哪里在改善、哪里在恶化。
准确率出现下滑趋势,比准确率低更值得关注。低是一个状态,下滑是一个趋势。连续三周准确率下降,就要触发调查机制——是某个新业务场景没有被覆盖,还是历史数据里混入了错误标注,还是Prompt在最近的更新里出现了回归问题。
覆盖率是第二个指标,反映的是AI实际处理了多少比例的业务量。覆盖率低,说明AI的价值没有充分释放——可能是员工绕开了AI,可能是某些业务类型被排除在AI处理范围之外,原因不同,对策不同。
覆盖率有一个常见的陷阱:追求100%覆盖。有些业务天然不适合AI处理——金额超大的、涉及多方利益复杂的、发票本身有重大瑕疵的。一开始就把这些场景纳入AI处理范围,上线后发现问题再退出来,团队士气会受挫。覆盖率的设计逻辑是:先识别AI适合处理的场景,AI做这些;不适合的,人做。覆盖率指的是AI适合的场景里,AI实际处理了多少比例,不是AI处理了所有单据的比例。
采纳率是第三个指标,也是最容易被忽略的一个。采纳率低,往往不是AI判断错了,而是AI没有说清楚"为什么这样判断"。财务人员看到AI说"建议驳回",不知道驳回理由是什么,自然不敢采纳,也不敢Override,就绕过去自己处理。给AI加上判断依据展示,把AI引用的政策条款、金额计算过程列出来,采纳率通常会在几周内有明显提升。
采纳率和准确率要一起看。准确率高、采纳率低,说明用户不信任AI,问题在解释能力,不在判断质量。准确率低、采纳率高,说明用户过度依赖AI,需要提醒Override机制的重要性。
响应时效是第四个指标,也最容易在验收时被忽略。UAT测试里用例少,响应时间没有问题;上线后并发量上来,响应时间可能急剧下降。某共享中心上线AI审单后,高峰期处理量是平时的三倍,AI判断时间从三秒变成了二十秒,用户等待体验急剧下降,财务人员开始绕开AI。这个指标要在上线前模拟真实业务量做压力测试,不能按平时处理量来测。
11.3 谁来管:AI运营团队的组建和职责
运营指标有了,谁来看、谁来管?
传统FSSC的岗位是按财务职能设计的——报销审核岗、凭证审核岗、资金管理岗。AI上线后,这套岗位体系里多了一块东西:没有人专门负责AI效果。
这个问题不解决,好指标也会变成摆设。AI运营团队不需要很多人,但需要几个关键角色。
AI运营分析师,职责是每天看AI的准确率、覆盖率、采纳率数据,发现下滑趋势及时分析原因,提出优化建议。这个角色需要既懂财务业务又对AI有基本认知——知道什么是Prompt、什么是知识库、什么是模型调优,不需要能写代码,但需要理解这些概念在说什么。
知识库管理员,职责是维护政策知识库和案例知识库。报销政策更新了,第一时间录入知识库;历史判断积累了新的异常案例,第一时间归档到案例库;FAQ里出现了高频但没有被覆盖的问题,第一时间补充。这个角色需要有权限接触最新的报销政策和制度文件,通常由财务部门的业务骨干来担任比较合适。
人机协作协调员,职责是处理AI和人之间的摩擦——员工对AI判断有异议怎么处理、Override案例怎么记录反馈给AI运营分析师、知识库管理员接到反馈后怎么处理。这个角色需要有比较好的沟通能力,处理的是人,不是数据。
这三个角色可以由现有人员兼任,不需要单独招聘。但兼到什么程度,要看AI系统的使用规模——每天处理几百张单据和每天处理几千张单据,需要投入的运营精力完全不同。
还有一个容易被忽视的问题:运营责任要写进岗位职责,不能只是口头安排。 很多企业AI上线后,运营工作名义上是"大家一起盯",实际上没有人真正负责,遇到问题互相推诿。AI运营和系统运维一样,需要明确的责任人。
11.4 知识库不运营,AI能力就会退化
知识库是AI的"大脑"。大脑不更新,知识就是旧的,判断就是错的。
知识库退化的速度往往超出预期。上线第一年,AI回答准确率90%;两年不更新,准确率可能掉到70%以下。不是模型能力退化了,是知识库里的政策文件、案例积累、FAQ内容越来越旧,AI在一个过时的知识体系里做判断,当然越来越不准。
知识库运营有三个层次。
政策知识库要保持实时更新。每一次报销政策调整、每一个新业务的判断标准录入,都要同步到知识库里。这件事说起来简单,做起来难——企业里的政策变化往往通过邮件、通知、口头传达多种方式传递,知识库管理员如果没有一套机制来捕捉这些变化,知识库就会慢慢落后于实际政策。
案例知识库是AI持续优化的原料。AI判断错了、人工Override了,这些case要记录下来,分析根因,补充到知识库里。每个月的Override案例要汇总分析——如果某类场景的Override频率突然上升,往往说明这个场景的Prompt或者规则需要调整。案例积累是AI能力的复利,积累得越久,AI对新场景的处理能力越强。
FAQ知识库要把高频问题逐步覆盖进来。员工反复问同一个问题,说明这个问题没有在系统里被清晰回答过。把标准答案录进FAQ知识库,AI自动回答,财务人员从重复性咨询中解放出来,去处理真正需要判断的复杂问题。
知识库的运营原则很简单:谁变化谁负责录入。 政策变了,财务部门负责把新政策同步给知识库管理员;业务逻辑变了,业务部门负责通知更新。这不是技术问题,是管理流程问题。
11.5 人机协作的持续校准
人机协作不是上线那一刻定好的,上线之后还要持续校准。
上线初期,财务人员对AI不熟悉,通常有两个极端:一部分人完全不听AI建议,AI说什么都当没听见,AI形同虚设;另一部分人过度依赖AI,AI说什么就做什么,连明显的错误判断也不Override。两个极端都是协作模式没有建立好的表现。
正确的协作意识建立,有几件事要做。
上线第一周就要做用户培训,不是教系统操作——那个UAT已经测过了——是教协作意识:AI判断出来了,该怎么看判断依据;AI判断错了,该怎么点Override;Override之后系统会不会自动学习。这个培训做在前面,比上线后出了问题再补救,效果好得多。
采纳率要定期review。AI运营分析师每周把采纳率数据分享给财务团队,让财务人员看到自己的Override率在全团队处于什么水平。这个分享不是为了考核,而是建立意识——Override不是"AI错了",是"我来告诉AI正确答案",这个动作是有价值的。
还有一件事要提前跟管理层说清楚:AI的准确率会波动,这是正常的。 准确率从90%掉到85%,不一定是AI能力退化了,可能是最近出现了新的业务场景,可能是知识库更新滞后,可能是某些边缘案例没有被覆盖。管理层要理解AI效果的波动逻辑,不要一看到数字下降就觉得"系统坏了"。建立这种预期,上线后推进AI运营的阻力会小很多。
11.6 上线只是起点
这一章讨论的是AI财务系统上线之后,运营到底管什么、谁来管、管到什么程度。
核心观点只有一个:AI财务系统上线,是整个数字化旅程的起点,不是终点。
系统验收签字那天,项目组可以撤场,但运营团队要进场。运营要管的不是系统稳不稳,而是AI准不准、知识库新不新、人机协作顺不顺。这三件事没有一件是一次性的,都是持续投入。
选对了场景、打好了数据基础、设计好了人机协作,这三件事做好了,AI财务从0到1走完了。从1到100的路上,靠的是持续运营——持续优化Prompt、持续更新知识库、持续校准人机协作边界。
夜雨聆风