AI 时代,数据治理到底应该怎么做?

导读本文主题为 AI 时代，数据治理到底应该怎么做？

主要内容包括以下几个部分：

1. 正在发生什么：数据的消费主体正在发生根本性变化

2. AI 时代传统数据治理的五大变革

3. 三大治理策略：语义丰富、全模态覆盖、AI 可消费

4. 落地中的常见挑战

5. Dataphin 的视角：我们正在做什么过去

一段时间，AI Agent 在全球科技领域持续升温。从最初的“会对话“进化到如今的“能执行“，Agent 展现了参与复杂信息检索、文档处理与流程推进的巨大潜力。然而，在大型企业环境中，智能体从“个人尝鲜“到“组织赋能“的转变并非易事。

以 Quick BI智能小Q为例，它每天帮业务人员回答成百上千个数据问题——查销售额、看流失率、分析转化漏斗，已经大幅提升了一线团队获取数据的效率。但在实际使用中，我们也观察到一个普遍现象：业务人员问“上个月的客户流失率是多少“，小 Q 迅速返回了结果，可不同部门对“流失“的定义本就不同——是 30 天未登录，还是合同到期未续约？

问“北区销售额“，小 Q 查到了一张字段名叫 amt 的表，但 amt 究竟是含税金额、退款后金额、还是成交金额，底层数据本身就没有给出清晰的标注。

问题不在 AI 的能力，而在它所依赖的数据基础。当口径不统一、语义不清晰，再强的智能体也难以发挥更大的业务价值。

这不是 AI 的问题。这是数据治理的问题。

更准确地说，这是传统数据治理体系在 AI 时代集体失效的缩影。

当下，模型开源即可用，算力按需即可买——AI 的基础设施正在快速商品化。对企业而言，真正决定 AI 能否落地赋能业务的，已不再是“用哪个模型“，而是“喂给模型的数据是否可信、可用、可治理“。谁能从散落在各系统中的复杂业务资料里，沉淀出口径统一、语义清晰的高质量数据资产，谁就拥有了驱动精准决策的差异化壁垒。数据治理能力，正在成为智能化竞争中真正的主动权。

01 正在发生什么：数据的消费主体正在发生根本性变化

过去十年，企业数据治理体系是围绕一个基本假设设计的——数据的消费者是人。

链条很清晰：开发人员写 SQL，分析师做报表，业务人员看 Dashboard。数据从底层到用户之间，有一层“翻译层“——开发人员。他们理解数据的含义，知道哪些字段有坑，在加工过程中修正瑕疵、美化输出。

但现在，一个新的“物种“闯入了这条链路：AI Agent。

业务用户不再需要打开报表系统，而是直接用自然语言提问：“上个月华东区 Top 10 客户的复购率是多少？” AI Agent 接到问题后，自主解析意图，查询底层数据，组装结果返回。

数据的消费主体，正在从“少数技术人员“变成“AI Agent + 全体业务人员“。Gartner 在 2025 年报告中预测，到 2028 年，企业内超过 33% 的业务应用交互中将嵌入 AI Agent 驱动；IDC 的调研同样显示，已有45% 的亚太区企业开始在数据分析场景中试点 AI Agent。

所以本质上是数据消费主体变了，整个治理体系的假设就不成立了。

02 AI 时代传统数据治理的五大变革

从传统 BI 到 AI Agent，数据治理面临五个维度的深刻变革。理解这五个变化，是重新设计治理体系的起点。

1. 变化一：消费资源——从“人消费报表“到“人直接消费数据“

过去，普通用户接触到的是报表、Dashboard——经过开发人员精心加工的“成品“。数据中有些瑕疵？没关系，开发人员在加工过程中可以修正、美化。数据在到达用户之前，有一层“翻译层“做质量兜底。

现在，AI Agent 绕过了这层“翻译层“，直接查询底层数据。字段命名不规范？Agent 理解不了。数据有空值？Agent 可能返回错误结论。

从“开发兜底“到“数据裸奔“——原来可以被容忍的数据瑕疵，现在变成了直面用户的错误答案。数据质量的标准必须从“开发可用“提升到“终端用户可用“：完整性、准确性、时效性都需要大幅度拉高。

2. 变化二：消费频次——从被动低频到主动高频

传统模式下，数据消费是被动的、低频的：有需求了才去看报表，最高频的场景不过是定时刷新 Dashboard。

AI Agent 不一样。它是 7×24 小时不间断运行的。一个企业可3能同时有上百个 Agent 在跑——客服 Agent 查客户画像，销售 Agent 分析成交趋势，运营 Agent 监控实时指标。数据查询的频次可能是过去的10 到 100 倍。

从“偶发被动“到“持续高频“——数据服务化成为刚需。你需要实时/近实时的数据 API，需要 SLA 管理（即服务等级协议，定义数据接口的可用性、响应时间等承诺）、限流、监控、版本管理。数据资产需要像微服务一样被运维。

3. 变化三：语义要求——从“人能懂“到“AI 能懂“

这是最容易被忽视、但影响最深远的变化。

你的数仓里有一张表叫 dwd_order_di，里面有个字段叫 amt。开发团队约定俗成，知道这是“每日订单明细表的金额字段“。这个约定从没写进元数据——因为“大家都知道“。

但 AI Agent 不知道。它看到 amt，不确定这是交易金额、退款金额，还是含税金额。没有完整的元数据描述，AI 就像一个入职第一天的新员工，面对一堆缩写和行话，完全懵了。

从“口口相传“到“机器可理解“——治理的核心从“管住数据“升级为“让数据自解释“。这需要四项关键能力：

命名规范化：表名、字段名清晰自解释
描述完整化：每个表/字段/指标都有完整业务含义与计算口径
关系显性化：表关联、指标派生关系显式管理
语义标准化：同一业务概念（如“活跃用户“）跨系统统一定义，消除二义性，让每个数据资产都有“AI 能看懂的说明书“

这四项不再是“锦上添花“的能力，而是 AI 能否正确工作的前提条件。

4. 变化四：知识库——从“人脑存储“到“知识工程化“

在传统数据团队中，大量的业务知识散落在文档、Wiki、邮件甚至微信群聊里。

“这个指标怎么算？问老张。”

“那个口径有特殊逻辑，看看飞书上有没有记录。“

这套靠人脑记忆和经验传递的体系勉强能运转——代价是新人需要几个月才能上手。

AI Agent 没有“几个月“的试用期去慢慢学习。它每次查询都需要精准的知识上下文：分析“客户流失率“，需要知道流失的定义是什么、不同行业的计算口径有什么差异、同比环比的基准期怎么算。

从“人脑记忆“到“知识工程化“——业务知识需要像数据资产一样被盘点、分类、版本管理。从“给人看的文档“变成“可被 AI 消费的结构化知识“。

治理要求也随之升级：知识资产需要系统化管理，每个数据资产需要关联口径说明和使用注意事项，知识需要以结构化形式精准提供给大模型上下文。

5. 变化五：数据模态——从结构化数据到全模态数据

过去十几年，数据治理的重心一直在结构化数据上：数据库表、数仓模型、指标体系。企业里同样大量存在的非结构化数据——合同、研究报告、会议纪要、产品图纸，往往因为提取成本太高、ROI 算不过来，基本被排除在治理范围之外。

大模型改变了这个现状。NLU（自然语言理解）、图像识别、文档解析、音视频理解……大模型让非结构化数据的价值可以被低成本释放。你的 Agent 可以直接理解一份合同的关键条款，从会议录音中提取行动项，解析工程图纸上的参数，费结构化数据的价值可低成本释放。

从“只管结构化“到“全模态覆盖“——数据治理范围必须扩展。文档、图片、音视频都需要纳入元数据管理体系，需要经历解析、切片、向量化（即将文本或图片转化为数学向量，以便 AI 进行语义搜索和匹配）、索引的全链路处理。存储层也需要从传统数据库扩展到向量数据库与全文检索引擎。

03 三大治理策略：语义丰富、全模态覆盖、AI 可消费

面对这五大变化，企业的数据治理升级可以围绕三个核心方向展开。

1. 策略一：丰富语义——让 AI 能自主理解每一个数据资产

核心目标：每张表、每个字段、每个指标都有完整的、AI 可消费的语义描述。

具体做法：

完整元数据描述：为核心业务表的每个字段添加中文名、业务含义、数据类型、取值范围、计算口径说明。优先从高频使用的 Top 100 张表开始，逐步覆盖全量。
清晰命名规范：建立统一的命名规范（如 dwd/dws/ads 分层前缀 + 业务域 + 实体 + 时间粒度），对存量不规范命名进行清理和别名映射。
指标体系标准化：用统一语义层定义全公司的指标口径——让“销售额“在市场部、财务部、管理层只有一个含义。
显式关系图谱建设：显式管理表之间的关联关系、指标的派生关系，让AI 能自主“导航“数据资产间的逻辑链路。

预期效果：以某零售企业的实践为参照，在完成 200+ 核心指标的语义标注后，AI Agent 的查询准确率从约 60% 提升到了 85% 以上，业务人员自助取数的比例从不足 20% 提升到了 55%。

2. 策略二：全模态覆盖——释放非结构化数据的沉睡价值

核心目标：将文档、图片、音视频等非结构化数据纳入统一治理体系，让 AI Agent 能够跨越数据模态获取完整信息。

具体做法：

治理范围扩展：将合同、研报、会议纪要、产品手册等高价值非结构化资产纳入元数据管理，建立统一的分类和标签体系。
加工链路建设：构建“解析→切片→向量化→索引“的标准化处理流水线，让非结构化数据变成 AI 可检索、可理解的知识片段。
跨模态元数据体系：在结构化数据和非结构化数据之间建立关联——比如一份客户合同关联到该客户在 CRM 中的结构化数据，一份产品技术文档关联到对应的产品指标。

预期效果：企业的数据资产覆盖面从“只有结构化表“扩展到“结构化 +非结构化“，AI Agent 回答问题时不仅能查数据库里的数字，还能引用文档中的背景信息，答案的完整度和可信度显著提升，关键的非结构化数据也能沉淀并应用。

3. 策略三：AI 可消费——让数据和知识可以被 Agent 直接理解和调用

核心目标：将数据资产从“被动存储“转变为“主动服务“，让 AI Agent 能像调用 API 一样安全、高效地消费数据和知识。

具体做法：

数据服务化：将核心数据资产封装为标准化 API，配备服务等级协议（SLA）、访问控制、限流和监控能力。数据资产需要像微服务一样被运维——有版本管理、灰度发布、健康检查。
知识工程化：将散落在各处的业务知识结构化管理，建立知识与数据资产的关联关系。每个指标关联其计算口径、使用注意事项、适用场景说明。
上下文注入：支持将结构化的知识上下文自动注入大模型的推理过程。Agent 发出一个查询请求，不仅能拿到数据，还能拿到理解这些数据所需的全部背景知识。

预期效果：AI Agent 从“能查数据但不理解数据“进化为“既能查数据又能理解数据“。回答不再是冷冰冰的数字，而是带有业务语境的完整洞察。

04 落地中的常见挑战

坦率地说，这条路并不轻松。在实际推进中，企业通常会面临几个现实挑战。

第一，“数据债务“的清理成本。大多数企业的数仓积累了数年甚至十年以上的历史数据，命名混乱、口径不清的表可能成千上万。全量治理不现实，关键是建立优先级——先治理 AI Agent 最常用的核心表，用“最小可用集“快速见效，再逐步扩展覆盖面。

第二，组织协同的难度。 语义治理不是数据团队一个部门能完成的事。“销售额“的口径统一需要市场、财务、管理层共同参与。这需要自上而下的推动力，也需要一个所有人都能看到、都愿意用的协作平台。

第三，非结构化数据治理的技术成熟度。 全模态治理目前仍处于快速发展期，文档解析和向量检索的准确性在不同行业、不同文档类型上表现参差不齐。建议从标准化程度高的文档类型（如合同、财报）入手，逐步积累经验后再扩展到更复杂的模态。

第四，ROI 的验证周期。 治理本身不直接产生收入，短期内业务部门可能感知不到变化。建议选择 1-2 个高频使用的 AI Agent 场景作为试点（如智能客服问答、管理层数据助手），用 Agent 回答准确率的提升作为可量化的 ROI 指标，快速证明治理的价值。

05 Dataphin 的视角：我们正在做什么

作为瓴羊旗下的智能数据平台，Dataphin 从 2018 年起就在践行数据治理工程化的理念。OneModel 方法论让数据建模和指标管理有了标准化框架，为企业提供了一套从业务过程到数据模型的规范化路径；全域数据融合架构解决了多源异构数据的统一治理问题；DataOps（数据工程流水线）实践让治理从“运动式“变成了“流水线“——不再是每年集中清理一次，而是嵌入日常开发流程的自动化动作。