当前位置：夜雨聆风 > 技术教程 > 软件教程 > 数据治理之标准&规范(文档)

数据治理之标准&规范(文档)

当前时间： 2026-03-24 09:39:09 更新时间： 2026-03-24 分类：软件教程评论(0)

数据治理之标准&规范(文档)

上一篇：数据治理指南手册（文档）

下一篇：管理PDCA循环八步骤详解（PPT）

内部资料，低调使用，限时删除。关注我们，只分享干货的公众号，不错过资源与福利！

“ 数据治理过程中的标准与规范实践，实践过，验证过”

01

—

命名标准

1、词根设计标准

根据不同的业务领域，有相应的词根版本。可以理解为术语字典，包含数据仓库分层、周期/数据范围、部门、业务域、主题域等

数仓层次

公用维度：dim
DM层：dm
ODS层：ods
DWD层：dwd
DWS层：dws

周期/数据范围

日快照：d
增量：i
全量：f
周：w
拉链表：l
非分区全量表：a

2、表命名标准

常规表：分层前缀[dwd|dws|ads]_部门_业务域_主题域_XXX_更新周期|数据范围
中间表：mid_xxx
临时表：tmp_xxx
维度表：dim_xxx

02

—

数据生命周期

1、历史数据等级划分

主要将历史数据划分P0、P1、P2、P3 四个等级，其具体定义如下：

P0 ：非常重要的主题域数据和非常重要的应用数据，具有不可恢复性，如交易、日志、集团 KPI 数据、 IPO 关联表。
P1 ：重要的业务数据和重要的应用数据，具有不可恢复性，如重要的业务产品数据。
P2 ：重要的业务数据和重要的应用数据，具有可恢复性，如交易线 ETL 产生的中间过程数据。
P3 ：不重要的业务数据和不重要的应用数据，具有可恢复性，如某些 SNS 产品报表。

2、生命周期管理矩阵

03

—

分层标准

ODS(Operational Data Store-操作存储数据层)：是最接近数据源中数据的一层，为了考虑后续可能需要追溯数据问题，因此对于这一层就不建议做过多的数据清洗工作，原封不动地接入原始数据即可
DWD(Date Warehouse Detail-数据明细层)：从 ODS 层中获得的数据按照主题建立各种数据模型
DWM(Date Warehouse Middle-数据中间层)：该层会在 DWD 层的数据基础上，数据做轻度的聚合操作，生成一系列的中间表，提升公共指标的复用性，减少重复加工。（实际情况可能会没有这一层）
DWS(Date Warehouse Service-数据服务聚合层)：公共汇总层，会进行轻度汇总，粒度比明细数据稍粗，基于 DWD 层上的基础数据，整合汇总成分析某一个主题域的服务数据，一般称为宽表
DIM(Dimension-维表层)：一些维度属性表，从哪些角度可以分析数据
ADS(Application Data Service应用层)或者APP：主要是提供给数据产品和数据分析使用的数据，一般会存放在 ES、 PostgreSql、Redis 等系统中供线上系统使用，也可能会存在 Hive 或者 Druid 中供数据分析和数据挖掘使用

某些表应该属于哪一层呢？借鉴下面的思路和流程：

题外话：曾经有次面试，面试官问ODS的全称是什么？一下子把我问蒙了，从那些以后看到缩写就要知道他背后的全称是什么。

04

—

分层调用标准

正常流向：ODS -> DWD -> DWM -> DWS -> APP，当出现 ODS -> DWD -> DWS -> APP 这种关系时，说明主题域未覆盖全。应将 DWD 数据落到 DWM 中，对于使用频度非常低的表允许 DWD -> DWS。
尽量避免出现 DWS 宽表中使用 DWD 又使用（该 DWD 所归属主题域）DWM 的表。
同一主题域内对于 DWM 生成 DWM 的表，原则上要尽量避免，否则会影响 ETL 的效率。
DWM、DWS 和 APP 中禁止直接使用 ODS 的表， ODS 的表只能被 DWD 引用。
禁止出现反向依赖，例如DWM的表依赖DWS的表

05

—

模型设计原则

1、高内聚和低耦合

将业务相近或者相关的数据、粒度相同数据设计为一个逻辑或者物理模型；将高概率同时访问的数据放一起，将低概率同时访问的数据分开存储。

2、核心模型和扩展模型要分离

建立核心模型与扩展模型体系，核心模型包括的字段支持常用核心的业务，扩展模型包括的字段支持个性化或是少量应用的需要。在必须让核心模型与扩展模型做关联时，不能让扩展字段过度侵入核心模型，以免破坏了核心模型的架构简洁性与可维护性。

3、公共处理逻辑下沉及单一

底层公用的处理逻辑应该在数据调度依赖的底层进行封装与实现，不要让公用的处理逻辑暴露给应用层实现，不要让公共逻辑在多处同时存在。

4、成本与性能平衡

适当的数据冗余可换取查询和刷新性能，不宜过度冗余与数据复制。

5、数据可回滚

处理逻辑不变，在不同时间多次运行数据结果确定不变。

6、一致性

相同的字段在不同表中的字段名必须相同。

7、命名清晰可理解

表命名规范需清晰、一致，表命名需易于下游的理解和使用。

8、其他

一个模型无法满足所有的需求。需合理选择数据模型的建模方式。通常，设计顺序依次为：概念模型->逻辑模型->物理模型。

本号声明：

大数据宝藏库、资料库、福利库、资源库！文末直接获取方式

END

据统计，99%的数据大咖都关注了这个公众号

👇

大家都在看：

大数据平台规划建设方案（PPT）

大数据平台数据治理方案（PPT）

大数据资产管理平台方案（PPT）

大数据治理体系指导方案（PPT）

银行大数据治理平台方案（PPT）

大数据中台建设解决方案（PPT）

BAT大数据架构资料汇总（PPT）

大数据存储技术解决方案（PPT）

大数据平台总体架构方案（PPT）

埋点体系: 埋点治理实践（PPT）

大数据综合平台概要设计（PPT）

集团企业主数据管理方案（PPT）

数据安全治理技术设方案（PPT）

DMP 标签系统建设实践（PPT）

大数据架构总体设计方案（PPT）

数据湖体系之规划与规范（PPT）

数据安全之治理解决方案（PPT）

大数据处理平台总体架构（PPT）

如何搭建Spark离线数仓（PPT）

如何搭建 Flink实时数仓（PPT）

主数据管理建设解决方案（PPT）

大数据平台建设解决方案（PPT）

数据治理驾驶舱全景图谱（PPT）

数据治理大数据平台设计（PPT）

加入VIP社群星球 AI·大数据资源库↓

加入社群VIP星球*全部获取*任意下载*行业链接

大模型

Agent

指标字典

全域数据治理

数据治理规划

数据架构&集团数据规划方案

Skills

AI反向赋能Agent

DMM&DPMA

GB/T

高质量数据集

埃森哲&数字化转型

数据架构&数据治理

数字驾驶舱

数字化转型

招标方案

AI中台

非结构化

大模型&智能体

…….

内部VIP社群【大数据资料库】星球全部获取⬆️

加入VIP社群星球 AI·大数据资料库↓

本站文章均为手工撰写未经允许谢绝转载：夜雨聆风 » 数据治理之标准&规范(文档)

wang

猜你喜欢

暂无文章