EDW与维度模型间的抉择

 

1          EDW(enterprisedatawarehouse,企业级数据仓库),强调从源系统的业务与数据出发,在企业的的全局高度进行业务对象抽象,使其包含整个企业不同源系统的具体业务对象。

1.1         采用雪花模型架构,设计上符合第三范式

1.2         优点:统一规范

1.3         缺点:复杂,开发周期长,成本高昂

 

2          宽表(维度建模),强调从应用需求的角度出发,以空间换时间,快速响应业务需求,并通过强调维度的一致性来保证各个模型维度数据的一致性

2.1         采用星型模型架构,会出现大量数据冗余

2.2         优点:快速响应

2.3         缺点:当模型数量大了后管理和维度的一致性是巨大的挑战

 

3          维度建模步骤

3.1         确定主题,如客户关系分析、客流分析等

3.2         确定分析的具体内容(指标),如客户流失率、贡献度等

3.3         以【3.2】为基础设计数据模型

3.4         建立数据集市,分类存储

3.5         新主题重复以上步骤

 

4          数据仓库分层概览

4.1         缓冲层(buffer),可选

4.1.1    直接从数据源抽取一模一样的一份数据副本以供使用

4.2         ODS层(operationdata store,营运数据存储层),可选

4.2.1    仍然是明细数据,但数据是被清洗加工过的,结构上符合了DW层,但数据是明细数据

4.2.2    更新频率比DW快,实时性高,如果需要明细或者实时数据,则从ODS层获取

4.3         DW层(datawarehouse,数据仓库层),必选

4.3.1    为汇总数据,且是被清洗加工后按DW的设计存入的数据

4.4         DM层(datamarket,数据集市),可选(但基本都会选)

4.4.1    数据从DW层而来

4.4.2    DM层是依赖主题或者应用需求而建立的(比如,销售部门的DM存储了各部门的相关销售数据,再比如管理层DM则记录了销售、成本、利润等等数据)