大模型还在往前冲,很多公司却先卡在了更朴素的地方:数据不够干净、不够新,也没法被稳定送到该去的系统里。模型当然重要,但在真实业务里,AI 往往不是先输给算法,而是先输给数据链路。
这篇文章真正值得看的,不是哪家工具又出了新名字,而是 AI 和分析系统背后那套底座正在怎么变:从现代数据栈到实时处理,从数据质量治理到自愈管道,哪些已经成了新共识,哪些看起来很美、落地时却仍有门槛。

文|Hive硅基秩序编辑|Hive硅基秩序来源|Hive硅基秩序封面来源|图片来源网络
1 AI 不是悬空长出来的,数据工程才是它的燃料系统
原文一开头讲得很直白:AI 从来不是在真空里工作的。 无论是推荐系统、风控系统,还是一个看起来很聪明的模型,背后都要靠一整套数据管道、清洗规则和存储基础设施持续供给。你可以把模型理解成发动机,数据工程更像供油系统。发动机再贵,如果油不干净、油送得慢,车一样跑不起来。
这也是为什么很多企业会遇到一种很典型的落差:模型买了,团队也招了,预算也花了,但结果还是不稳定。至少从这份原始材料看,问题常常不是模型架构不够先进,而是底层数据不完整、延迟太高,或者格式混乱。模型学到的不是世界本来的样子,而是一份过期、缺角、带噪音的现实。
原文还给了一个很关键的时间判断:偏偏是现在,数据工程突然从幕后走到台前,不只是因为 AI 更火了,而是几股力量叠在了一起。 云基础设施比过去更强也更便宜,开源工具比几年前成熟得多,而 AI 和分析系统对数据规模、时效和稳定性的要求,又比五年前高出了一个量级。三件事一起发生,才把数据工程从“支持部门”推成了“战略底座”。
原文用一个电商推荐的例子说明这件事。假设用户刚刚点开一堆运动鞋,你的推荐系统却因为数据晚到了几个小时,还在给他推昨天看的咖啡机,那系统并不是“不会推荐”,而是拿到的世界已经晚了半拍。放到风控、工业设备维护这类场景,代价只会更大。
说到底,能支撑 AI 系统稳定运行的数据工程,至少得交付四样东西:按节奏送达的干净数据、能跟业务一起扩容的基础设施、适合时间敏感场景的低延迟访问,以及可追溯的数据治理能力。
AI 真正难的地方,很多时候不是“模型能不能算出来”,而是“数据能不能按时、按样、按规则喂进去”。
数据治理、数据血缘这些词听起来很硬。大白话说,前者是在管“谁能看、谁能用、出了问题谁负责”,后者是在管“这条数据到底从哪来、被改过几次、最后怎么进了模型”。
2 现代数据栈的流行,说明大家不再迷信“大一统平台”
原文把第一条大趋势放在了现代数据栈上。这个词听起来像新名词,实质上是一个很现实的工程选择:企业不再把所有数据工作都压在一套笨重的一体化平台上,而是开始用“按层拆开、各司其职”的方式来搭系统。
这背后的逻辑其实不复杂。过去很多公司喜欢买一个“大而全”的平台,希望从采集、存储、转换到分析全部包办;问题是,一旦业务变快、数据变多、团队要求变细,这类平台往往像一台很难维修的老机器,任何一层不顺手,整套系统都跟着别扭。现代数据栈更像搭乐高:哪个环节不适合了,可以局部替换,不必推倒重来。
原文给出的典型结构也很清楚:采集层可以用 Fivetran 或 Airbyte,把源系统的数据拉进来;存储层通常是 Snowflake、BigQuery、Redshift 这样的云数仓;转换层会用 dbt 这类工具做 SQL 建模和测试;编排层常见 Airflow、Prefect,负责安排依赖关系和运行顺序;最上面再接 BI 工具和 Reverse ETL 连接器,把处理好的数据送到业务使用场景里。
现代数据栈,简单说就是“别再指望一个超级大工具包打天下,而是让每一层都用更擅长这件事的工具来做”。严格来说,这也会带来集成复杂度,但它换来了更强的弹性和替换空间。
原文还特别点到了 Reverse ETL。如果说传统分析流程更像“把数据拉进仓库,做完报表就算结束”,那 Reverse ETL 讲的是另一件事:把仓库里处理好的结果,再送回 CRM、营销平台、客服系统这些业务系统里。 这一步很关键,因为它让“分析”不再停在看板,而能继续走到“触发动作”。
3 从批处理走向实时处理,不是潮流问题,而是很多 AI 场景真的等不起
原文把第二条关键趋势放在了实时处理上,也就是从 batch 走向 streaming。大白话说,批处理是攒一批数据再统一处理,延迟可能是几小时到几天;流式处理是数据一来就处理,目标是尽量接近实时。
为什么这件事在 AI 时代特别重要?因为越来越多系统要面对“当下正在发生什么”,而不是“昨天大概发生了什么”。原文举了三个非常典型的场景:风控要在毫秒级判断一笔交易是不是可疑,内容平台要根据用户刚刚的动作做推荐,工业设备要持续读取传感器数据,尽量在故障发生前就预警。这里如果还靠传统批处理,系统不一定是坏了,只是永远慢一步。
更值得注意的是,原文没有把实时处理写成“大厂专属能力”。它明确提到,过去只有大型平台团队玩得动的流式基础设施,正在被更多组织拿到手。也就是说,门槛在下降,但这不等于每家公司都应该一股脑上实时架构。
实时不是目的,业务时效性才是目的。月度复盘、季度经营分析这类场景,如果硬上流式系统,得到的可能不是先进,而是更贵、更复杂的维护负担。
真正值钱的不是“有没有实时”,而是系统能不能在应该快的时候快,在不必快的时候别瞎折腾。
4 数据管道的竞争点,正在从“能跑”变成“能编排、能观测、能追溯”
原文在实时处理之后,顺着讲到了另一个很容易被忽视、但其实更基础的变化:数据管道架构本身正在成为一门独立学问。过去很多团队把管道理解成“把数据搬过去就行”,结果系统一复杂,问题就全冒出来了:数据乱序到达、转换静默失败、上游改了字段没人知道、下游出错也查不到源头。
所以原文强调,现在一条像样的数据管道,至少要看三件事。
编排:让流程按规则工作,而不是靠人盯着跑
编排,简单说就是让系统知道“先跑谁、后跑谁、失败了怎么重试、满足什么条件才能继续”。像 Airflow、Prefect 这样的工具,本质上是在把工作流写成代码。它的意义不是炫技,而是让流程可复现、可版本化,不再靠某个人脑子里的经验传承。
可观测性:别等报表错了,才发现管道早就坏了
可观测性,可以理解成给数据管道装上仪表盘和报警器。原文提到,团队会为管道打上指标、日志和告警,甚至开始承诺 Data SLA,也就是“数据应该在什么时间前到、质量至少要到什么程度”。这意味着数据团队开始像运维关键系统一样对待数据链路,而不是“出错了再查”。
数据血缘:知道数据从哪来,出了问题才追得回去
数据血缘,说白了就是把一条数据的前世今生画出来。它来自哪个源系统,中间经历过哪些转换,最终又流进了哪些报表或模型。原文把它和调试效率、影响分析、合规要求放在一起讲,是因为这件事在 AI 时代尤其重要。模型一旦用了错误数据,光知道“结果不对”已经不够,你得知道错是从哪一跳开始发生的。
可观测性管的是“系统现在有没有出问题”,数据血缘管的是“问题到底从哪一层传过来的”。前者像体检,后者像病历。
原文还强调了一个现实收益:当编排、观测、追溯这些能力做起来后,数据团队花在“救火”上的时间会少很多,更多精力才可能回到新能力建设上。这种生产率提升,往往比再买一套新工具更实在。
5 MLOps 和数据工程开始合流,模型团队不可能再只管模型
接下来原文把镜头转向了 MLOps 和数据工程的融合。这一段的核心判断很明确:模型表现已经没法和数据质量、数据新鲜度分开看,所以原来分得很开的两个团队,正在被同一套基础设施重新绑到一起。
MLOps,可以理解成“让机器学习模型在生产环境里持续可用的一整套工程方法”。它管上线、监控、版本、重训;数据工程管采集、清洗、转换、供给。两边交叉的地方,正是 AI 系统最容易出问题、也最值得投资的地方。
原文专门提到一个关键词:特征库(Feature Store)。如果把模型输入理解成“模型吃的标准化原料”,特征库就是这套原料的集中仓库。数据团队把这些特征统一算好,模型团队直接复用,避免同一个定义在训练和线上预测时各算一遍、最后口径不一致。
原文列出的交叉点也很有代表性:数据漂移监控负责盯输入数据分布有没有悄悄变掉;自动重训管道会在数据质量信号恶化或模型效果下降时触发更新;模型血缘追踪则把线上模型和它训练时使用的数据版本绑在一起,方便回溯。你会发现,这些事听起来像模型问题,本质上却都离不开数据工程。
这段最值得普通读者注意的,不是术语本身,而是一个更大的组织信号:以后真正跑得快的团队,大概率不是“数据组一套系统,模型组一套系统,各管各的”,而是共享底座、共享指标、共享反馈闭环。
模型是否聪明,越来越像数据系统是否稳定的下游结果,而不是一场独立竞赛。
6 云原生之所以重要,不是因为大家爱上云,而是 AI 工作负载太不均匀了
原文随后讲到云原生数据工程。这部分如果去掉行业套话,核心就一句:AI 负载往往是突发的、波峰波谷明显的,所以按需取用资源,比自己长期养一大堆机器更划算。
比如训练一个大模型,或者临时处理一批很大的数据,可能只需要几个小时的高算力,剩下时间根本用不上。原文因此强调了云上的几个优势:弹性计算可以忙时扩、闲时缩;托管服务减少了自己装环境、打补丁、修基础设施的负担;多地域可用区方便全球团队和用户使用;云存储、计算、机器学习平台之间的原生集成,也让架构搭起来更顺手。
这部分对大众读者最容易理解的地方,其实是“别把人力浪费在不必要的基础设施杂活上”。原文明确说,托管服务的价值之一,就是把数据工程师从安装、配置、补丁维护这些重体力活里释放出来,让他们去做更接近数据产品本身的事情。
不过边界也要说清楚。上云不等于自动现代化。 架构设计不好、数据模型混乱、质量治理缺位,搬到云上只会让问题跑得更快、账单来得更早。
7 数据质量和治理,已经从“善后动作”变成“先修路”
如果说前面几节讲的是“怎么让系统更快”,那原文接下来这部分讲的是“怎么让系统别跑偏”。它用了一个很老、但在 AI 时代依然非常准确的判断:Garbage in, garbage out。 进来的数据是垃圾,出去的结果大概率也不会好看。
这不是一句空话。原文说得很具体:低质量数据会让模型学错模式,让预测不可靠,最后把业务决策一起带偏。也正因为如此,数据质量现在不再是项目快收尾时补几条校验规则,而是被当成一项一开始就要设计进去的基础能力。
原文列出的常见做法包括:做模式校验,尽早发现上游字段结构变了;做完整性检查,看是不是突然少了很多记录、或者空值异常变多;做分布监控,比较今天的数据和历史基线是不是偏差太大;做引用完整性检查,确保不同数据集之间的关系没断;再加上 Freshness SLA,盯住数据有没有在承诺时间内送达。
数据合同(Data Contract)可以先粗暴理解成“数据生产方和使用方签的技术协议”。它规定这份数据该长什么样、质量至少到什么程度、变更时谁该提前通知谁。它不是法律合同,但在工程上很有约束力。
原文也把数据治理放到了同样重要的位置。谁能访问什么数据,数据被拿去做什么,用多久,什么时候该删除,这些问题在分析时代很重要,在 AI 时代更重要。因为一旦模型开始大量消费数据,错误权限和模糊责任不只会造成效率问题,还可能直接变成合规和信任问题。
8 AI 也开始反过来改造数据工程,但离“全自动自我进化”还早
原文最有未来感的一段,是讲 AI 和自动化正在反过来进入数据工程本身。也就是说,原本负责给 AI 喂数据的那套系统,现在也开始用 AI 来优化自己,形成一个有点“套娃”的反馈循环。
其中最典型的例子,是自愈管道(Self-healing Pipelines)。它的意思不是系统突然拥有意识,而是当模式变化、上游数据异常、管道失败时,系统不只是报错,还能尝试定位原因,甚至自动修一部分问题。对于长期被各种字段变化折磨的数据团队来说,这当然很有吸引力。
原文还列了几类已经出现的方向:根据查询模式自动优化存储格式、分区和索引;自动发现和编目数据资产,推断不同数据集之间的关系;对管道指标做异常检测,在问题扩散到下游前就预警;再加上自然语言接口,让不写 SQL 的人也能直接探索数据。
这里最该保留的,是趋势判断和成熟度边界同时存在。原文的态度偏乐观,认为其中不少能力已经进入生产级工具。更稳一点的说法是:这条路已经不是实验室概念,但距离“公司装上就能拥有一个自动数据团队”显然还很远。 自动化能减轻重复劳动,不等于它已经能独立承担所有上下文判断和风险责任。
自然语言查数真正要成立,前提不是模型会聊天,而是语义层、权限、血缘、质量检查这些底层能力已经铺好。否则它只是把“错误答案”说得更顺滑。
9 真正难的不是知道趋势,而是按顺序把路走对
原文后半段没有继续堆新概念,而是回到一个更现实的问题:这些趋势听起来都对,为什么很多公司做起来还是痛苦?答案也很朴素,因为真实世界里的数据工程,难点从来不是某一个单点技术,而是增长、变化、依赖和集成同时发生。
第一,数据量还在继续长。原文特别提到,从 2023 年开始,IoT 设备、用户交互、交易系统和第三方数据源一起推高了数据规模。系统不是不能扛,而是几年前设计的那套架构,往往没为今天这种增长速度留出空间。
第二,数据质量的维护是持续战,不是一次性项目。 上游改字段、第三方改格式、业务逻辑改口径,都会让一条原本正常的管道慢慢失效。很多团队不是不会做校验,而是没有建立起持续监控、明确 owner、规范处理模式变化和系统故障的长期机制。
第三,系统一多,依赖就会像藤蔓一样长出来。原文点得很准:新增数据产品、用户一扩张,管道之间的相互依赖会急速增加,上游一处故障可能连锁影响多个下游。再叠加现代数据栈里动辄几十个工具,认证、接口、格式、版本、运行方式都不一样,集成本身就会成为一项重工程。
这也是为什么原文专门提醒:没有一套放之四海皆准的“正确工具栈”。 哪些技术该上,最终还是要看具体业务场景、团队能力和已有基础设施。工具生态越丰富,越不能靠跟风选型。
所以原文最后给出的建议,其实相当克制:别幻想一次把所有趋势都吃下来,更现实的办法是分阶段推进。
更现实的三步路
第一步,先打基础。 把核心基础设施升级成更现代的云端数据栈,先解决可扩展性、运维负担和基础工具生态接入的问题。
第二步,再挑高价值场景做实时化。 不是全面上实时,而是先盯风控、推荐、运营监控这类对时效真正敏感的场景。哪怕只把部分链路从批处理改成流式,也可能先拿到一轮很实际的业务收益。
第三步,最后再把 MLOps 和数据工程真正接起来。 包括共享特征库、数据漂移监控、自动重训工作流这些能力。到了这一步,重点已经不是“能不能上线一个模型”,而是“能不能让模型在生产环境里长期稳定地活着”。
原文还反复强调了一件事,我认为这是全篇最不该被轻轻带过的句子:无论走到哪个阶段,数据质量和治理都不是附属品,而是贯穿始终的底座。 一家公司把数据质量当成产品属性,而不是收尾补丁,最后在分析和 AI 上拿到的结果,通常也会更稳定。
【结尾】
AI 和分析系统的未来,确实越来越像一场数据工程考试。模型会继续进步,但真正决定它能不能在现实世界里稳定工作、值得被信任的,仍然是那条把数据送对、送快、送清楚的底层通路。
夜雨聆风