数据仓库分层概念

数据仓库一般分为从下到上分为3层:ODS层、CDM层(DWD,DWM,DWS)、ADS层

ODS层(数据准备层也称贴源层)

将数据源通过ETL(抽取、转换、加载),存储至数据仓库,解决数据孤岛,保障数据集成的完整性;这一步几乎对原始数据无处理,结构上与源系统保持一致。
数据处理方法:少量的异常和错误数据处理

CDM层(公共维度模型层)

数据仓库层(DW),是数据仓库的主体。
从 ODS 层中获得的数据按照主题建立各种数据模型。这一层和维度建模会有比较深的联系。

细分:

数据明细层:DWD(Data Warehouse Detail)
数据中间层:DWM(Data WareHouse Middle)或DWB层(Data WareHouse basis)
数据服务层:DWS(Data WareHouse Servce)

DWD层(数据明细层)

将ODS层中的数据按照主题建立数据模型,对原始数据进行清洗和一致性处理,存放明细事实数据。
主要作用:划分数据分析主题域,对数据清洗和一致性处理,解决数据脏乱差的问题和口径不一致问题,最细力度指标存储
数据处理方法:空值处理,验证数据有效性,规范数据格式,统一数据标准,数据转码,业务规则清洗。

DWB或DWM层(轻度汇总层)

在DWD层的基础上,对数据进行一些轻微的聚合,生成一些列的中间结果表,提升公共指标的复用性,减少重复加工的工作

DWS层(数据服务层)

以分析对象作为建模驱动,基于上层的应用和产品的共性需求,构建公共粒度的汇总指标,以宽表化手段物理化模型,为应用层提供统一计算口径和数据指标。一般是宽表
主要作用:满足90%的共性需求,解决口径不一致、开发任务多问题;宽表化处理,解决 性能差提高分析效率
数据处理:维度上卷,指标汇总,指标合并

DIM(维度层)

主要作用:将事实表上重复出现的属性抽取、规范出来用一张表进行管理。
维度表主要包含两部分:
高基数维度数据 一般是用户资料表、商品资料表、数据量千万或者上亿
低基数维度数据: 一般是配置表,枚举字段对应的中文含义,或者日期维表等;数据量可能就是个位数或者几千几万

ADS层(数据应用层)

主要作用: 根据业务需求,提供数据产品和数据分析使用的数据

小结

1. 原始数据拉取过来,保持和元数据同步,不做处理形成ODS层;
  2. 基于ODS层,保持数据原始粒度,对数据加工和处理(也就是清洗),提供干净的数据作DWD层;
  3. 根据ODS和DWD层数据,进行轻度汇总,保留较多维度,形成DWM层;
  4. 基于以上所有DW层数据,进行高度汇总,形成DWS层。