乐于分享
好东西不私藏

AI时代下的BI:看起来很美,落地还远

AI时代下的BI:看起来很美,落地还远

前段时间,业务系统稳定运行后,一直在搞数据分析。听数据组同事说BI供应商曾经演示了一个新功能——AI问数

现场效果确实惊艳。

老板端着茶杯,随口问了一句:”今天销量怎么样?”AI Agent秒回,图表、数据、客户分布,整整齐齐摆在你面前。老板又问:”跟上周比呢?”系统立马甩出环比对比图,连异常波动都标红了。

我在边上听着,说实话,心动了。

这不就是老板们梦寐以求的”所问即所得”吗?不用学SQL或python,不用拖拖拽拽建报表,张嘴就问,答案就来。我要是老板,我也想拥有。

但我冷静下来想了想,又回顾了一下我们目前BI系统的实际情况,得出一个结论——

这件事,远没有看起来那么简单。

痛点是真实存在的,但距离真正落地,还有一段很长的路要走。


一、数据质量:垃圾进,垃圾出

我们做信息化的,有一句老话叫 “Garbage In, Garbage Out”。AI问数再聪明,喂进去的是垃圾,吐出来的只能是精致的垃圾。

现实情况是什么呢?

我们上了这么多系统——CRM、MES、APS、PLM、WMS、ERP、OA,表面上看起来数字化程度很高,但实际上各系统的数据质量参差不齐。

有些系统在业务流程上做了防呆设计,数据质量还能看;没做好的,里面什么妖魔鬼怪都有:空值、异常值、该填数字的地方填了文本、该填枚举值的地方自由发挥……数据清洗的工作量,懂的都懂。

更要命的是应用层面的问题。

各个工厂的情况完全不一样。有些工厂上系统就是为了”录入单据”,真正的数据还在纸质单据上。你问他为什么,他说”系统不好用,我们先线下走一遍,再补录”。好家伙,系统里存的是”事后回忆录”,不是真实业务数据。

还有些工厂,数据确实录进系统了,但录入的动机有问题——是为了填而填,是瞎填的。

举个例子,MES系统。理论上,工人应该做完一单工单,在系统里报工一单。但实际执行的”骚操作”是什么?线下全部干完了,最后批量扫一遍MES系统的工单,批量完成。为什么?因为系统操作麻烦,不如线下爽利。

这时候你要分析”人效”。系统里显示的工单完成时间是下午3点集中爆发的,实际上人家早上10点就干完了。你拿这个数据去分析,结论能靠谱吗?

AI问数再厉害,能识别出这种”业务层面的造假”吗?

它只会忠实地说:”根据MES系统数据,今日人效较昨日下降30%。”然后你就 panic 了,开始找人问责,结果发现是录入方式的问题。


二、数据统计口径:各说各话,鸡同鸭讲

如果说数据质量是”数据本身有问题”,那统计口径就是”数据没问题,但大家对数据的理解完全不在一个频道上”。

这件事,我在实际工作中遇到太多次了。

同样是”本月销售订单金额”,财务部门和销售部门报出来的数字能对不上。为什么?

  • 财务:从ERP取数,按”开票金额”统计
  • 销售:从CRM取数,按”合同签订金额”统计
  • 甚至同样是CRM,有人取”订单金额”字段,有人取”回款金额”字段

两边都对,两边的逻辑都没错,但就是对不上。

再举个例子,”入库数量”。

  • 采购部门:入库单制单后就统计,因为系统一录,他们认为货就到了
  • 仓库部门:等实物入库、签字确认后才统计,因为货可能还在路上

两边都有自己的道理。采购说”我系统里明明已经入库了”,仓库说”我货架上还没看到货”。

这时候你上一个AI问数系统,老板问:”这个月入库了多少货?”

AI一脸茫然:”请问您是指’系统入库量’还是’实物入库量’?”老板一听,眉头一皱——我花钱请你来,是让你反问我的?

这就是统计口径不统一的后果。 没有一套全公司公认的数据标准和指标定义,AI问数问出来的结果,只会让各部门吵得更凶。


三、数据治理:没有地图的战场

上面两个问题,本质上都是数据治理没做好。

什么叫数据治理?说白了,就是给数据”立法”:

  • 每个字段的定义是什么?
  • 每个业务指标应该从哪个系统取?
  • 如果数据有问题,应该找谁?是业务人员填错了,还是系统接口传错了?
  • 数据权限怎么划分?谁能看什么数据?

这些事情,在信息化建设中往往是”重要但不紧急”的,于是就一直被搁置。业务部门各玩各的,IT部门疲于奔命接需求,数据孤岛越建越多。

AI问数就像一个装备精良的特种兵,空投到一个没有地图的战场上。 它再能打,也不知道敌人在哪儿,甚至可能把友军当成目标。

你问它:”给我看看这个月的客户流失情况。”

它得知道:

  • “客户”的定义是什么?是下过单的,还是注册过的?
  • “流失”怎么定义?多久没下单算流失?
  • 数据从CRM取还是ERP取?
  • 如果CRM和ERP数据对不上,听谁的?

这些问题,不是AI能自己解决的。AI可以帮你算,但它不能帮你定规则。规则,是人定的。


四、先修路,再跑车

幸运的是,我们大领导当初没有被AI问数的demo演示冲昏头脑。

他的判断很清醒:先把基础数仓和BI应用落地,再谈AI。

我们现在正在推的,就是最传统的数据仓库分层建设——ODS、DWD、DWS、ADS,一层一层搭起来。听起来一点都不酷,甚至有点”落后”——毕竟外面都已经开始聊AI Agent自动做数据分析了,我们还在吭哧吭哧建数仓。

但这就是现实。

数据仓库分层的过程,其实就是逼着我们做数据治理的过程。

  • ODS层,你把各个业务系统的原始数据接进来,立马就能发现哪些系统的数据质量有问题;
  • DWD层,你开始梳理业务过程,定义事实表,这时候统计口径的问题就会浮出水面;
  • DWS和ADS层,你开始面向业务场景建指标,这时候就会倒逼业务部门和IT部门坐下来,对齐每个指标的定义。

所以你看,表面上是”落后”地在做传统数仓,实际上是在借数仓建设的机会,把数据治理这件脏活累活给干了

等这一层搭好了,数据质量可控了,指标口径统一了,数据权责清晰了,那时候再上AI问数,才是真正的”所问即所得”。


写在最后

写这篇文章,不是想唱衰AI问数。恰恰相反,我相信这是未来的方向。

但做B端产品久了,我越来越相信一句话:技术本身不是解决方案,技术只是放大器。它会放大你已有的优势,也会放大你已有的问题。

如果你的数据一团糟,AI只会让这团糟变得更智能、更高效、更难发现。

所以,与其焦虑”别人家已经在用AI做数据分析了”,不如踏踏实实把自己的数据地基打好。

毕竟,高楼大厦不是从空中盖起来的,是从地基开始的。

哪怕这个时代变天的速度越来越快,有些基本功,急不得。


你在数据治理上踩过哪些坑?欢迎在评论区聊聊。

如果觉得有共鸣,转发给那个也在为数据头疼的同事。