AI时代下的BI:看起来很美,落地还远
前段时间,业务系统稳定运行后,一直在搞数据分析。听数据组同事说BI供应商曾经演示了一个新功能——AI问数。
现场效果确实惊艳。
老板端着茶杯,随口问了一句:”今天销量怎么样?”AI Agent秒回,图表、数据、客户分布,整整齐齐摆在你面前。老板又问:”跟上周比呢?”系统立马甩出环比对比图,连异常波动都标红了。
我在边上听着,说实话,心动了。
这不就是老板们梦寐以求的”所问即所得”吗?不用学SQL或python,不用拖拖拽拽建报表,张嘴就问,答案就来。我要是老板,我也想拥有。
但我冷静下来想了想,又回顾了一下我们目前BI系统的实际情况,得出一个结论——
这件事,远没有看起来那么简单。
痛点是真实存在的,但距离真正落地,还有一段很长的路要走。
一、数据质量:垃圾进,垃圾出
我们做信息化的,有一句老话叫 “Garbage In, Garbage Out”。AI问数再聪明,喂进去的是垃圾,吐出来的只能是精致的垃圾。
现实情况是什么呢?
我们上了这么多系统——CRM、MES、APS、PLM、WMS、ERP、OA,表面上看起来数字化程度很高,但实际上各系统的数据质量参差不齐。
有些系统在业务流程上做了防呆设计,数据质量还能看;没做好的,里面什么妖魔鬼怪都有:空值、异常值、该填数字的地方填了文本、该填枚举值的地方自由发挥……数据清洗的工作量,懂的都懂。
更要命的是应用层面的问题。
各个工厂的情况完全不一样。有些工厂上系统就是为了”录入单据”,真正的数据还在纸质单据上。你问他为什么,他说”系统不好用,我们先线下走一遍,再补录”。好家伙,系统里存的是”事后回忆录”,不是真实业务数据。
还有些工厂,数据确实录进系统了,但录入的动机有问题——是为了填而填,是瞎填的。
举个例子,MES系统。理论上,工人应该做完一单工单,在系统里报工一单。但实际执行的”骚操作”是什么?线下全部干完了,最后批量扫一遍MES系统的工单,批量完成。为什么?因为系统操作麻烦,不如线下爽利。
这时候你要分析”人效”。系统里显示的工单完成时间是下午3点集中爆发的,实际上人家早上10点就干完了。你拿这个数据去分析,结论能靠谱吗?
AI问数再厉害,能识别出这种”业务层面的造假”吗?
它只会忠实地说:”根据MES系统数据,今日人效较昨日下降30%。”然后你就 panic 了,开始找人问责,结果发现是录入方式的问题。
二、数据统计口径:各说各话,鸡同鸭讲
如果说数据质量是”数据本身有问题”,那统计口径就是”数据没问题,但大家对数据的理解完全不在一个频道上”。
这件事,我在实际工作中遇到太多次了。
同样是”本月销售订单金额”,财务部门和销售部门报出来的数字能对不上。为什么?
-
财务:从ERP取数,按”开票金额”统计 -
销售:从CRM取数,按”合同签订金额”统计 -
甚至同样是CRM,有人取”订单金额”字段,有人取”回款金额”字段
两边都对,两边的逻辑都没错,但就是对不上。
再举个例子,”入库数量”。
-
采购部门:入库单制单后就统计,因为系统一录,他们认为货就到了 -
仓库部门:等实物入库、签字确认后才统计,因为货可能还在路上
两边都有自己的道理。采购说”我系统里明明已经入库了”,仓库说”我货架上还没看到货”。
这时候你上一个AI问数系统,老板问:”这个月入库了多少货?”
AI一脸茫然:”请问您是指’系统入库量’还是’实物入库量’?”老板一听,眉头一皱——我花钱请你来,是让你反问我的?
这就是统计口径不统一的后果。 没有一套全公司公认的数据标准和指标定义,AI问数问出来的结果,只会让各部门吵得更凶。
三、数据治理:没有地图的战场
上面两个问题,本质上都是数据治理没做好。
什么叫数据治理?说白了,就是给数据”立法”:
-
每个字段的定义是什么? -
每个业务指标应该从哪个系统取? -
如果数据有问题,应该找谁?是业务人员填错了,还是系统接口传错了? -
数据权限怎么划分?谁能看什么数据?
这些事情,在信息化建设中往往是”重要但不紧急”的,于是就一直被搁置。业务部门各玩各的,IT部门疲于奔命接需求,数据孤岛越建越多。
AI问数就像一个装备精良的特种兵,空投到一个没有地图的战场上。 它再能打,也不知道敌人在哪儿,甚至可能把友军当成目标。
你问它:”给我看看这个月的客户流失情况。”
它得知道:
-
“客户”的定义是什么?是下过单的,还是注册过的? -
“流失”怎么定义?多久没下单算流失? -
数据从CRM取还是ERP取? -
如果CRM和ERP数据对不上,听谁的?
这些问题,不是AI能自己解决的。AI可以帮你算,但它不能帮你定规则。规则,是人定的。
四、先修路,再跑车
幸运的是,我们大领导当初没有被AI问数的demo演示冲昏头脑。
他的判断很清醒:先把基础数仓和BI应用落地,再谈AI。
我们现在正在推的,就是最传统的数据仓库分层建设——ODS、DWD、DWS、ADS,一层一层搭起来。听起来一点都不酷,甚至有点”落后”——毕竟外面都已经开始聊AI Agent自动做数据分析了,我们还在吭哧吭哧建数仓。
但这就是现实。
数据仓库分层的过程,其实就是逼着我们做数据治理的过程。
-
ODS层,你把各个业务系统的原始数据接进来,立马就能发现哪些系统的数据质量有问题; -
DWD层,你开始梳理业务过程,定义事实表,这时候统计口径的问题就会浮出水面; -
DWS和ADS层,你开始面向业务场景建指标,这时候就会倒逼业务部门和IT部门坐下来,对齐每个指标的定义。
所以你看,表面上是”落后”地在做传统数仓,实际上是在借数仓建设的机会,把数据治理这件脏活累活给干了。
等这一层搭好了,数据质量可控了,指标口径统一了,数据权责清晰了,那时候再上AI问数,才是真正的”所问即所得”。
写在最后
写这篇文章,不是想唱衰AI问数。恰恰相反,我相信这是未来的方向。
但做B端产品久了,我越来越相信一句话:技术本身不是解决方案,技术只是放大器。它会放大你已有的优势,也会放大你已有的问题。
如果你的数据一团糟,AI只会让这团糟变得更智能、更高效、更难发现。
所以,与其焦虑”别人家已经在用AI做数据分析了”,不如踏踏实实把自己的数据地基打好。
毕竟,高楼大厦不是从空中盖起来的,是从地基开始的。
哪怕这个时代变天的速度越来越快,有些基本功,急不得。
你在数据治理上踩过哪些坑?欢迎在评论区聊聊。
如果觉得有共鸣,转发给那个也在为数据头疼的同事。
夜雨聆风