AI时代下的BI:看起来很美,落地还远-夜雨聆风

AI时代下的BI:看起来很美,落地还远

前段时间，业务系统稳定运行后，一直在搞数据分析。听数据组同事说BI供应商曾经演示了一个新功能——AI问数。

现场效果确实惊艳。

老板端着茶杯，随口问了一句：”今天销量怎么样？”AI Agent秒回，图表、数据、客户分布，整整齐齐摆在你面前。老板又问：”跟上周比呢？”系统立马甩出环比对比图，连异常波动都标红了。

我在边上听着，说实话，心动了。

这不就是老板们梦寐以求的”所问即所得”吗？不用学SQL或python，不用拖拖拽拽建报表，张嘴就问，答案就来。我要是老板，我也想拥有。

但我冷静下来想了想，又回顾了一下我们目前BI系统的实际情况，得出一个结论——

这件事，远没有看起来那么简单。

痛点是真实存在的，但距离真正落地，还有一段很长的路要走。

一、数据质量：垃圾进，垃圾出

我们做信息化的，有一句老话叫 “Garbage In, Garbage Out”。AI问数再聪明，喂进去的是垃圾，吐出来的只能是精致的垃圾。

现实情况是什么呢？

我们上了这么多系统——CRM、MES、APS、PLM、WMS、ERP、OA，表面上看起来数字化程度很高，但实际上各系统的数据质量参差不齐。

有些系统在业务流程上做了防呆设计，数据质量还能看；没做好的，里面什么妖魔鬼怪都有：空值、异常值、该填数字的地方填了文本、该填枚举值的地方自由发挥……数据清洗的工作量，懂的都懂。

更要命的是应用层面的问题。

各个工厂的情况完全不一样。有些工厂上系统就是为了”录入单据”，真正的数据还在纸质单据上。你问他为什么，他说”系统不好用，我们先线下走一遍，再补录”。好家伙，系统里存的是”事后回忆录”，不是真实业务数据。

还有些工厂，数据确实录进系统了，但录入的动机有问题——是为了填而填，是瞎填的。

举个例子，MES系统。理论上，工人应该做完一单工单，在系统里报工一单。但实际执行的”骚操作”是什么？线下全部干完了，最后批量扫一遍MES系统的工单，批量完成。为什么？因为系统操作麻烦，不如线下爽利。

这时候你要分析”人效”。系统里显示的工单完成时间是下午3点集中爆发的，实际上人家早上10点就干完了。你拿这个数据去分析，结论能靠谱吗？

AI问数再厉害，能识别出这种”业务层面的造假”吗？

它只会忠实地说：”根据MES系统数据，今日人效较昨日下降30%。”然后你就 panic 了，开始找人问责，结果发现是录入方式的问题。

二、数据统计口径：各说各话，鸡同鸭讲

如果说数据质量是”数据本身有问题”，那统计口径就是”数据没问题，但大家对数据的理解完全不在一个频道上”。

这件事，我在实际工作中遇到太多次了。

同样是”本月销售订单金额”，财务部门和销售部门报出来的数字能对不上。为什么？

财务：从ERP取数，按”开票金额”统计
销售：从CRM取数，按”合同签订金额”统计
甚至同样是CRM，有人取”订单金额”字段，有人取”回款金额”字段

两边都对，两边的逻辑都没错，但就是对不上。

再举个例子，”入库数量”。

采购部门：入库单制单后就统计，因为系统一录，他们认为货就到了
仓库部门：等实物入库、签字确认后才统计，因为货可能还在路上

两边都有自己的道理。采购说”我系统里明明已经入库了”，仓库说”我货架上还没看到货”。

这时候你上一个AI问数系统，老板问：”这个月入库了多少货？”

AI一脸茫然：”请问您是指’系统入库量’还是’实物入库量’？”老板一听，眉头一皱——我花钱请你来，是让你反问我的？

这就是统计口径不统一的后果。 没有一套全公司公认的数据标准和指标定义，AI问数问出来的结果，只会让各部门吵得更凶。

三、数据治理：没有地图的战场

上面两个问题，本质上都是数据治理没做好。

什么叫数据治理？说白了，就是给数据”立法”：

每个字段的定义是什么？
每个业务指标应该从哪个系统取？
如果数据有问题，应该找谁？是业务人员填错了，还是系统接口传错了？
数据权限怎么划分？谁能看什么数据？

这些事情，在信息化建设中往往是”重要但不紧急”的，于是就一直被搁置。业务部门各玩各的，IT部门疲于奔命接需求，数据孤岛越建越多。

AI问数就像一个装备精良的特种兵，空投到一个没有地图的战场上。 它再能打，也不知道敌人在哪儿，甚至可能把友军当成目标。

你问它：”给我看看这个月的客户流失情况。”

它得知道：

“客户”的定义是什么？是下过单的，还是注册过的？
“流失”怎么定义？多久没下单算流失？
数据从CRM取还是ERP取？
如果CRM和ERP数据对不上，听谁的？

这些问题，不是AI能自己解决的。AI可以帮你算，但它不能帮你定规则。规则，是人定的。

四、先修路，再跑车

幸运的是，我们大领导当初没有被AI问数的demo演示冲昏头脑。

他的判断很清醒：先把基础数仓和BI应用落地，再谈AI。

我们现在正在推的，就是最传统的数据仓库分层建设——ODS、DWD、DWS、ADS，一层一层搭起来。听起来一点都不酷，甚至有点”落后”——毕竟外面都已经开始聊AI Agent自动做数据分析了，我们还在吭哧吭哧建数仓。

但这就是现实。

数据仓库分层的过程，其实就是逼着我们做数据治理的过程。

ODS层，你把各个业务系统的原始数据接进来，立马就能发现哪些系统的数据质量有问题；
DWD层，你开始梳理业务过程，定义事实表，这时候统计口径的问题就会浮出水面；
DWS和ADS层，你开始面向业务场景建指标，这时候就会倒逼业务部门和IT部门坐下来，对齐每个指标的定义。

所以你看，表面上是”落后”地在做传统数仓，实际上是在借数仓建设的机会，把数据治理这件脏活累活给干了。

等这一层搭好了，数据质量可控了，指标口径统一了，数据权责清晰了，那时候再上AI问数，才是真正的”所问即所得”。

写在最后

写这篇文章，不是想唱衰AI问数。恰恰相反，我相信这是未来的方向。

但做B端产品久了，我越来越相信一句话：技术本身不是解决方案，技术只是放大器。它会放大你已有的优势，也会放大你已有的问题。

如果你的数据一团糟，AI只会让这团糟变得更智能、更高效、更难发现。

所以，与其焦虑”别人家已经在用AI做数据分析了”，不如踏踏实实把自己的数据地基打好。

毕竟，高楼大厦不是从空中盖起来的，是从地基开始的。

哪怕这个时代变天的速度越来越快，有些基本功，急不得。

你在数据治理上踩过哪些坑？欢迎在评论区聊聊。

如果觉得有共鸣，转发给那个也在为数据头疼的同事。