AI落地第二步:数据准备,不是＂治理完再用＂,是＂边用边治＂

核心判断：AI落地的数据准备，最大的误区不是"数据质量差"，而是"想先治理完再用"——正确的做法是"边用边治"，在AI应用场景中驱动数据治理，而不是脱离业务场景做数据治理。

关键数字

60%+ — 企业数据治理项目未产生预期业务价值（Gartner 2025）

200万 — 某制造企业一年数据治理投入，但AI用不上的数据占一大半

72%→91% — "边用边治"模式下，3个月内AI模型准确率的提升幅度

1/3 — "边用边治"模式的数据治理投入，仅为"先治理后使用"的1/3

一家中型制造企业，2024年花了200万做数据治理。项目做了整整一年：梳理了数据字典、定义了数据标准、清洗了主数据、建了数据质量监控体系。项目验收时，数据治理团队交出了一份漂亮的报告：数据完整性从65%提升到92%，数据标准覆盖率从40%提升到85%。

但问题来了：当企业启动AI项目时，发现花了200万治理的数据，AI模型用不上的占一大半。AI真正需要的数据维度——比如特定时间窗口的温度变化曲线、压力与良率的关联关系——治理时根本没覆盖到。

"数据治理的方向错了：企业在'囤数据'，但AI需要的是'精准食材'。"

我在AI落地咨询项目中观察到一个共性现象：AI落地的数据准备，最大的误区不是"数据质量差"，而是"想先治理完再用"——企业把数据治理当成了AI的前置条件，而非并行过程。数据团队埋头治理了一年，等"治理好了"再给AI用，但AI场景需要的数据维度和质量标准，只有在实际使用中才能定义清楚。

Gartner的调研也印证了这一点：超过60%的企业数据治理项目没有产生预期的业务价值，主要原因是治理目标与业务场景脱节。

差距在哪？拆开看三个层面的"坑"。

一、路径错配：脱离AI场景做数据治理，是个无底洞

大多数企业做数据治理的逻辑是这样的：先梳理全量数据资产，建数据字典；定义数据标准和质量规则；清洗数据、建监控体系；"等治理好了，再给AI用"。

这个逻辑听起来没问题，但有个致命缺陷：没有AI场景牵引的数据治理，不知道"治理到什么程度才算好"。

某金融企业2023年启动数据治理项目，目标是"为AI应用打好数据基础"。项目做了两年：统一了客户数据模型、清洗了交易数据、建了数据质量仪表盘。但等到AI团队开始做"客户流失预测"时，发现：治理时重点清洗的"客户基本信息"对AI模型帮助不大，AI真正需要的"客户交互行为数据"反而没有被系统采集。

通俗理解：就像做饭前先把整个厨房打扫一遍——但你可能只需要切个葱花。打扫得很干净，但耽误了做饭。

某金融企业后来调整了策略：不再做"全量数据治理"，而是先明确AI场景，再定义数据维度，最后只治理这些维度。3个月后，AI模型效果显著提升，而数据治理投入只有原计划的1/3。

"关键转折点不是花了更多钱治理数据，而是让AI场景定义了治理方向。"

▲ 图：两条数据准备路径对比——"先治理后使用" vs "边用边治"

二、发现错位：数据质量问题，只有在AI场景中才能真正暴露

即使治理方向对了，还有一个问题：你怎么知道数据质量是否"够好"？

很多企业先做一轮数据质量评估，出一份报告——"数据完整性85%、准确性90%、一致性88%"。然后基于这些指标决定"是否可以启动AI"。但这些指标有个问题：它们是"通用指标"，不是"AI场景指标"。

某制造企业做数据质量评估，报告显示"生产数据完整性95%"。看起来不错。但当AI团队开始做"工艺参数优化"模型训练时，发现：那5%的缺失数据，恰好集中在某个关键工艺阶段。通用质量报告显示"合格"，但AI场景发现"不合格"。

通俗理解：就像做体检——通用体检报告说"基本健康"，但专科检查发现某个指标异常。通用检查发现不了专科问题。

▲ 图：数据质量是场景相关的——通用评估 vs AI场景驱动治理

某制造企业的正确做法：AI工艺参数优化项目启动时，没有先做数据治理，而是直接开始模型训练。第一轮训练效果不好——模型准确率只有72%。分析原因：发现关键工艺参数有缺失。补充传感器数据采集后，准确率提升到83%。第二轮分析发现：部分数据标注不一致。统一标注标准后，准确率提升到91%。

3个月内完成了"数据治理+AI试点"，而不是先花一年做数据治理再启动AI。关键成功因素不是数据治理做得更细，而是让AI场景驱动了数据治理的方向和优先级。

三、组织割裂：数据治理团队和AI项目团队各自为战

即使路径对了、发现方式对了，还有一个问题：谁来负责"数据"和"AI"的衔接？

大多数企业的组织分工是：数据治理团队负责"治理数据"，AI项目团队负责"做AI模型"，两个团队各自有各自的KPI、各自的预算、各自的汇报线。这个分工看起来没问题，但有个致命缺陷：数据治理团队不知道AI需要什么，AI团队不知道数据有什么——两边信息不对称。

通俗理解：就像餐厅的前厅和后厨——前厅按"顾客满意度"优化服务流程，后厨按"出菜效率"优化做菜流程。两边都很努力，但前厅不知道后厨缺食材，后厨不知道前厅有顾客投诉。不是不努力，是信息不通。

某制造企业的正确做法：成立了"数据+AI联合小组"——数据治理负责人参与AI项目需求评审，AI项目负责人参与数据治理规划，每周联合例会，共同KPI：AI模型效果指标同时作为两个团队的考核指标。

结果是：数据治理方向精准对齐AI需求，AI项目不再抱怨"数据不好用"。3个月内，AI模型准确率从72%提升到91%，同时建立了面向AI场景的数据治理体系。

需要说明的是

很多人——包括一些数据管理负责人——会把AI落地的数据问题归因于"数据基础太差"。这个因素确实有影响，但不是根因。

为什么？因为如果是数据基础问题，那先把基础治理好再上AI就好了。但实际情况是：治理了两年，基础好了，AI场景需要的数据维度还是没覆盖到，项目还是会失败。

根因不在基础层，而在方向层：企业在"数据治理方向"这个最关键的决策上，没有以AI场景为牵引。数据基础只是条件——方向错了，再好的基础也用不上。

边界条件：此结论适用于"已有明确AI场景但数据准备不足"的企业。如果是"数据基础建设"阶段（如没有数据仓库、没有数据采集体系），基础建设是必要的前置条件，但建设目标也应该以AI场景为牵引。

▲ 图：边用边治三步走——场景牵引 → 迭代治理 → 联合考核

明天可以做的三件事

以AI场景为牵引，制定"数据治理计划"。
不要做"全量数据治理"。先明确第一优先级的AI场景，然后定义这个场景需要的数据维度：需要哪些数据字段？每个字段的质量标准是什么？现有数据与标准的差距有多大？关键动作：召集数据治理团队和AI项目团队开"数据需求对齐会"，产出一份"AI场景数据需求清单"。
从"边用边治"开始：在AI模型训练中迭代发现数据问题。
不要先做3个月的数据质量评估。直接启动AI试点，在模型训练过程中暴露数据问题。关键动作：设定"迭代节奏"——每两周一次模型训练+数据问题复盘。用AI模型效果指标衡量数据治理成效。
建立"面向AI场景"的数据质量评估体系。
不要再用"通用数据质量指标"评估数据是否"够好"。建立面向AI场景的评估维度：场景相关的数据完整性、准确性、时效性、标注一致性。关键动作：为每个AI场景建立"数据质量基线"和"数据质量目标"。

回到开头那个案例——那家制造企业后来怎么解决的？他们停掉了"先治理后使用"的策略，选择"AI工艺参数优化"作为切入点，在模型训练过程中逐步发现和解决数据问题。3个月内模型准确率从72%提升到91%，同时建立了一套面向AI场景的数据治理体系。

"AI落地的数据准备，不是'治理完再用'，是'边用边治'。让AI场景定义数据治理的方向，让数据治理支撑AI场景的落地——这才是正确的顺序。"

关键要点

场景牵引 > 全量治理：
脱离AI场景的数据治理是无底洞，60%以上项目未产生业务价值
边用边治 > 先治后用：
数据质量问题只有在AI场景中才能真正暴露，通用评估发现不了真问题
联合小组 > 各自为战：
数据治理团队和AI团队必须"绑在一起"，用同一个KPI考核
迭代节奏：
每两周一次模型训练+数据问题复盘，用AI效果指标衡量治理成效
AI是放大器不是万能药：
数据治理是"按需供给"——没有AI场景需求就不知道供什么