数据治理实战篇-数据仓库怎么落数据治理
本文基于HDSP数据治理功能和项目经验整理,如有意见欢迎评论一起讨论~
数据仓库一般情况下的构成为:ODS-DWD-DWS-ADS,本文我们来一起看看数据在数据仓库流转的过程中,存在哪些数据治理的要点及承载的功能点。
ODS
- 核心定义:从数据源头一比一复制,属于贴源层。
- 数据治理包含:
- 元数据管理:涵盖数据同步频率、数据所属类型、关联业务对象等。所有数据均需做元数据管理,采集目的是方便查看数据,该过程贯穿所有层级。
- 数据安全:针对涉密或加密数据,先进行脱敏处理,再划定密级。
- 数据质量:主要开展完整性校验,识别缺失率、重复性问题,不直接修改数据,可联系数据源处理。
DWD
- 核心定义:基于ODS层的明细数据表,进行基础加工(如数据清洗、维度分表)。
- 数据治理包含:
- 数据标准:将标准落标到数据质量或后台标准中。
- 数据质量:执行完整性、一致性规则,以及其他数据标准落标后的校验。
- 元数据管理:明确数据血缘为 ODS→DWD;记录数据同步频率、数据所属类型、关联业务对象等基础信息。
DWS
- 核心定义:按业务场景汇总的指标数据,在DWD基础加工之上做深度加工,涉及更多计算及表关联,属于汇总层。
- 数据治理包含:
- 指标字典:对指标字段定义原子指标、派生指标、复合指标,确保业务场景相关指标逻辑一致。
- 数据质量:可设置更复杂的校验规则,例如联表汇总计算、及时性校验。
- 元数据管理:明确数据血缘为 ODS→DWD→DWS;记录数据同步频率、数据所属类型、关联业务对象等基础信息。
ADS
- 核心定义:直接支撑应用层的结果表,可直接输出为报表、看板大屏的指标值。
- 数据治理包含:
- 数据质量:开展及时性校验、规范性校验等。
- 指标字典:以派生指标、复合指标为主。
- 元数据管理:明确数据血缘为 ODS→DWD→DWS→ADS;记录数据同步频率、数据所属类型、关联业务对象等基础信息。
- 数据服务:将结果表输出为API接口,供其他系统查询调用。
- 数据资产:根据元数据采集结果进行资产维护,可发布为资产(表/API)。
- 资产超市:提供资产共享服务,涵盖订购申请、审批、查阅、下载等流程。
本文是原创文章,采用 CC BY-NC-ND 4.0 协议,完整转载请注明来自 iShaany‘
评论
匿名评论
隐私政策
你无需删除空行,直接评论以获取最佳展示效果
