我终于让AI摆脱了数据的一锅粥难题
别急着上AI,你的数据还是一锅粥
你们公司的数据字典,上次更新是什么时候?
同一个指标,不同部门算出来的数一样吗?
如果你需要想一想——我要说一件没人想听的事:你们公司根本没准备好上AI。
不是预算不够,不是人才不够,是你们的数据,还是一锅粥。
而偏偏没有人想承认这件事,因为大模型的demo太好看了。
一个让人尴尬的真相
数据团队辛辛苦苦搭了半年的智能问答系统,用的是最新的大模型,RAG架构做得也很规范。
上线之后,业务同学问了一个最简单的问题:
“上个月华东区的GMV是多少?”
系统回答了一个数字。
但业务运营说,这个数和她自己算的差了300万。
数据工程师去查,发现系统拿的是”交易GMV”,运营算的是”结算GMV”,两个口径在公司里从来没有统一过,一直靠人脑记忆区分。
大模型不知道这件事。它只是忠实地从数据里找了一个叫”GMV”的字段,然后告诉你答案。
这不是模型的问题。这是数据的问题。
模型是放大器,不是净化器
很多人对AI有一个根本性的误解:认为AI足够智能,能自己处理数据里的噪音和歧义。
但事实恰恰相反。
大模型是一个极其强大的放大器。它会把你数据里的每一个问题,以你从未预料到的方式放大并呈现出来。
数据里有多个口径?模型会以极大的自信给你一个混合了多个口径的答案。
数据里有历史遗留的脏数据?模型会把那些异常值当成事实,纳入它的推理逻辑。
数据资产之间没有语义关联?模型不知道”高价值用户”这个标签和”ARPU”这个指标有什么关系,就算这两件事在你们公司密不可分。
垃圾进,垃圾出——这条铁律在AI时代不但没有失效,反而因为模型的”流利表达”变得更加危险。以前脏数据只会让报表出错,现在脏数据会让AI用非常自信的语气告诉你一个错误的商业决策。
AI时代,数据工程到底该沉淀什么
我不是说数据质量要做到100分才能碰AI。但我想认真说说,AI时代的数据工程,沉淀的重心应该和过去不同。
过去的数据工程,核心价值是**”把数据搬过来、算出来、放进报表”**。做好ETL、跑通调度、保证产出,就算交差了。
AI时代需要的,是另一套东西。
1. 语义,而不只是数据
模型读得懂字段名,但它不理解你的业务。
你的”user_id”在订单表里代表下单用户,在会员表里代表注册用户,在行为日志里代表设备用户——这三个在你们公司是三个不同的概念,但字段名一模一样。
AI不知道这件事,除非你告诉它。
AI时代的数据工程,要开始沉淀的是业务语义:这个指标是什么意思、口径是什么、和哪些数据有关、由谁定义、在什么业务场景下使用。
这些知识过去活在人的脑子里,活在口口相传里,活在钉钉消息里。现在必须结构化地沉淀下来,成为机器可以理解和检索的知识。
元数据管理、指标体系、数据字典、知识图谱——这些在过去被很多公司当成”锦上添花”的事,在AI时代变成了地基。
2. 血缘,而不只是报表
过去我们在乎的是报表能不能跑出来。
AI时代更重要的是:这个数据从哪来、经过了什么加工、和哪些业务行为有关。
因为模型要做推理,推理需要上下文。上下文需要的不只是一个数字,而是这个数字背后的来龙去脉。
当AI告诉你”这个月用户增长放缓”,下一步它需要能回答”是哪个环节出了问题”。这就需要它能沿着数据血缘,追溯到是注册转化率低了还是次留率低了还是召回效果差了。
没有血缘,AI的推理到”数字”这一层就断了。有了血缘,AI可以一直追溯到业务行为本身。
这也是为什么数据血缘正在从”技术管道图”升级为”语义知识图谱”——不只记录数据流向,更记录业务概念之间的关系。
3. 信任,而不只是准确
准确是数据质量的基本线,但AI时代还需要一件额外的事:数据要让使用者知道它是可信的,可信到什么程度。
模型生成的答案没有置信区间,没有”这个数可能有问题”的提示——除非你的数据系统主动告诉它。
所以数据工程需要沉淀的,还有数据质量的元信息:这张表多久更新一次、上次更新有没有异常、这个字段的缺失率是多少、这个指标口径最近是否发生了变更。
这些信息注入给模型,它才能说”根据昨天更新的数据,这个月GMV大约是X,但该数据今天还未完成更新,建议下午再确认”——而不是以相同的语气回答一个可能过期的数字。
4. 关联,而不只是孤岛
很多公司的数据现状是这样的:用户标签是用户标签,业务指标是业务指标,数据API是数据API,没有人知道它们之间是什么关系。
这在报表时代问题不大,因为每张报表只用自己的数据。
但AI要做的事,往往需要跨越这些孤岛。”高价值用户的复购周期比普通用户短几天”——这个问题同时需要用户标签、行为数据、订单数据、指标定义,协同作答。
AI时代的数据工程,要开始认真建立资产之间的语义关联。哪个标签和哪个指标相关?哪个API依赖哪张表?哪个指标是另一个指标的细分?
这些关联,不是让数据工程师手动维护一张Excel,而是要有系统性的知识图谱来承载它,让AI能遍历这张图,找到回答问题所需的完整上下文。
我理解为什么大家不愿意做这件事
做语义、做血缘、做关联——这些事有一个共同特点:短期看不到直接产出,长期才能看到价值。
而大模型的诱惑就在这里:它能给你一个看起来很厉害的demo,不需要你做任何数据基础建设。
所以很多公司的AI项目路径是这样的:
3周出demo → 管理层看到很兴奋 → 开始全面推广 → 业务发现答案不对 → 追问为什么 → 发现是数据问题 → 回头重新搞数据 → 但这时项目已经延期半年
这不是假设,这是我见过的真实路径,不止一次。
我不是说不能先做demo。Demo有它的价值,可以快速验证方向、拉齐认知。
但demo的成功不等于数据基础建设可以跳过。它只是推迟了面对数据问题的时间,代价通常是推翻重来的成本。
AI时代的数据工程师,要学会讲一门新语言
最后说一件更重要的事。
过去,数据工程师是”幕后”的角色。把数据管好,保证任务不挂,就是价值。
AI时代,数据工程师需要能和业务对话——不是用技术语言,而是用业务语言。
你需要能说清楚:“你们现在想做的这个AI场景,需要什么样的数据基础,现在差什么,补上这些差距需要多长时间,如果不补会出现什么问题。“
这需要你不只懂技术,还要理解业务逻辑,理解指标口径背后的业务含义,理解用户标签背后的运营策略。
这也是为什么AI时代的数据基础建设,不只是技术工程的问题,而是整个数据组织能力的升级。
数据工程要从”搬运工”升级为”翻译官”——把业务世界里散落的知识,翻译成机器能理解的结构化语义。
这件事很难,也很值得做。
因为当你做完这件事,你的AI才真的是你的AI——理解你的业务、说你的语言、在你的数据上做出可信的推理。
而不是一个借用了最先进模型、却在回答你自己公司的问题时不停说错话的,聪明的外乡人。
作者正在构建面向AI时代的元数据智能化平台,探索数据语义层如何成为企业AI的基础设施。欢迎交流。
夜雨聆风