乐于分享
好东西不私藏

数据治理之标准&规范(文档)

数据治理之标准&规范(文档)

上一篇:数据治理指南手册(文档)

下一篇:管理PDCA循环八步骤详解(PPT)

内部资料,低调使用,限时删除。关注我们,只分享干货的公众号,不错过资源与福利!

 数据治理过程中的标准与规范实践,实践过,验证过

01

命名标准

1、词根设计标准

根据不同的业务领域,有相应的词根版本。可以理解为术语字典,包含数据仓库分层、周期/数据范围、部门、业务域、主题域等

  • 数仓层次

    • 公用维度:dim

    • DM层:dm

    • ODS层:ods

    • DWD层:dwd

    • DWS层:dws

  • 周期/数据范围

    • 日快照:d

    • 增量:i

    • 全量:f

    • 周:w

    • 拉链表:l

    • 非分区全量表:a

2、表命名标准

  • 常规表:分层前缀[dwd|dws|ads]_部门_业务域_主题域_XXX_更新周期|数据范围

  • 中间表:mid_xxx

  • 临时表:tmp_xxx

  • 维度表:dim_xxx

02

数据生命周期

1、历史数据等级划分

 主要将历史数据划分P0、P1、P2、P3 四个等级,其具体定义如下:

  • P0 :非常重要的主题域数据和非常重要的应用数据,具有不可恢复性,如交易、日志、集团 KPI 数据、 IPO 关联表。

  • P1 :重要的业务数据和重要的应用数据,具有不可恢复性,如重要的业务产品数据。

  • P2 :重要的业务数据和重要的应用数据,具有可恢复性,如交易线 ETL 产生的中间过程数据。

  • P3 :不重要的业务数据和不重要的应用数据,具有可恢复性,如某些 SNS 产品报表。

2、生命周期管理矩阵

03

分层标准

  1. ODS(Operational Data Store-操作存储数据层):是最接近数据源中数据的一层,为了考虑后续可能需要追溯数据问题,因此对于这一层就不建议做过多的数据清洗工作,原封不动地接入原始数据即可

  2. DWD(Date Warehouse Detail-数据明细层):从 ODS 层中获得的数据按照主题建立各种数据模型

  3. DWM(Date Warehouse Middle-数据中间层):该层会在 DWD 层的数据基础上,数据做轻度的聚合操作,生成一系列的中间表,提升公共指标的复用性,减少重复加工。(实际情况可能会没有这一层)

  4. DWS(Date Warehouse Service-数据服务聚合层):公共汇总层,会进行轻度汇总,粒度比明细数据稍粗,基于 DWD 层上的基础数据,整合汇总成分析某一个主题域的服务数据,一般称为宽表

  5. DIM(Dimension-维表层):一些维度属性表,从哪些角度可以分析数据

  6. ADS(Application Data Service应用层)或者APP:主要是提供给数据产品和数据分析使用的数据,一般会存放在 ES、 PostgreSql、Redis 等系统中供线上系统使用,也可能会存在 Hive 或者 Druid 中供数据分析和数据挖掘使用

某些表应该属于哪一层呢?借鉴下面的思路和流程:

题外话:曾经有次面试,面试官问ODS的全称是什么?一下子把我问蒙了,从那些以后看到缩写就要知道他背后的全称是什么。

04

分层调用标准

  1. 正常流向:ODS -> DWD -> DWM -> DWS -> APP,当出现 ODS -> DWD -> DWS -> APP 这种关系时,说明主题域未覆盖全。应将 DWD 数据落到 DWM 中,对于使用频度非常低的表允许 DWD -> DWS。

  2. 尽量避免出现 DWS 宽表中使用 DWD 又使用(该 DWD 所归属主题域)DWM 的表。

  3. 同一主题域内对于 DWM 生成 DWM 的表,原则上要尽量避免,否则会影响 ETL 的效率。

  4. DWM、DWS 和 APP 中禁止直接使用 ODS 的表, ODS 的表只能被 DWD 引用。

  5. 禁止出现反向依赖,例如DWM的表依赖DWS的表

05

模型设计原则

1、高内聚和低耦合

将业务相近或者相关的数据、粒度相同数据设计为一个逻辑或者物理模型;将高概率同时访问的数据放一起,将低概率同时访问的数据分开存储。

2、核心模型和扩展模型要分离

建立核心模型与扩展模型体系,核心模型包括的字段支持常用核心的业务,扩展模型包括的字段支持个性化或是少量应用的需要。在必须让核心模型与扩展模型做关联时,不能让扩展字段过度侵入核心模型,以免破坏了核心模型的架构简洁性与可维护性。

3、公共处理逻辑下沉及单一

底层公用的处理逻辑应该在数据调度依赖的底层进行封装与实现,不要让公用的处理逻辑暴露给应用层实现,不要让公共逻辑在多处同时存在。

4、成本与性能平衡

适当的数据冗余可换取查询和刷新性能,不宜过度冗余与数据复制。

5、数据可回滚

处理逻辑不变,在不同时间多次运行数据结果确定不变。

6、一致性

相同的字段在不同表中的字段名必须相同。

7、命名清晰可理解

表命名规范需清晰、一致,表命名需易于下游的理解和使用。

8、其他

一个模型无法满足所有的需求。需合理选择数据模型的建模方式。通常,设计顺序依次为:概念模型->逻辑模型->物理模型。

本号声明:

大数据宝藏库、资料库、福利库、资源库!文末直接获取方式

  1. END 

    据统计,99%的数据大咖都关注了这个公众号

    👇
  1. 大家都在看:

    大数据平台规划建设方案(PPT)

    大数据平台数据治理方案(PPT)

    大数据资产管理平台方案(PPT)

    大数据治理体系指导方案(PPT)

    银行大数据治理平台方案(PPT)

    大数据中台建设解决方案(PPT)

    BAT大数据架构资料汇总(PPT)

    大数据存储技术解决方案(PPT)

    大数据平台总体架构方案(PPT)

    埋点体系: 埋点治理实践(PPT)

    大数据综合平台概要设计(PPT)

    集团企业主数据管理方案(PPT)

    数据安全治理技术设方案(PPT)

    DMP 标签系统建设实践(PPT)

    大数据架构总体设计方案(PPT)

    数据湖体系之规划与规范(PPT)

    数据安全之治理解决方案(PPT)

    大数据处理平台总体架构(PPT)

    如何搭建Spark离线数仓(PPT)

    如何搭建 Flink实时数仓(PPT)

    主数据管理建设解决方案(PPT)

    大数据平台建设解决方案(PPT)

    数据治理驾驶舱全景图谱(PPT)

    数据治理大数据平台设计(PPT)

加入VIP社群星球 AI·大数据资源库↓

加入社群VIP星球*全部获取*任意下载*行业链接

大模型

Agent

指标字典
全域数据治理
数据治理规划
数据架构&集团数据规划方案
Skills
AI反向赋能Agent
DMM&DPMA
GB/T
高质量数据集

埃森哲&数字化转型

数据架构&数据治理

数字驾驶舱

数字化转型
招标方案
AI中台
非结构化
大模型&智能体

…….

内部VIP社群【大数据资料库】星球全部获取⬆️

加入VIP社群星球 AI·大数据资料库↓

本站文章均为手工撰写未经允许谢绝转载:夜雨聆风 » 数据治理之标准&规范(文档)

猜你喜欢

  • 暂无文章