EDW与维度模型间的抉择
1 EDW(enterprisedatawarehouse,企业级数据仓库),强调从源系统的业务与数据出发,在企业的的全局高度进行业务对象抽象,使其包含整个企业不同源系统的具体业务对象。
1.1 采用雪花模型架构,设计上符合第三范式
1.2 优点:统一规范
1.3 缺点:复杂,开发周期长,成本高昂
2 宽表(维度建模),强调从应用需求的角度出发,以空间换时间,快速响应业务需求,并通过强调维度的一致性来保证各个模型维度数据的一致性
2.1 采用星型模型架构,会出现大量数据冗余
2.2 优点:快速响应
2.3 缺点:当模型数量大了后管理和维度的一致性是巨大的挑战
3 维度建模步骤
3.1 确定主题,如客户关系分析、客流分析等
3.2 确定分析的具体内容(指标),如客户流失率、贡献度等
3.3 以【3.2】为基础设计数据模型
3.4 建立数据集市,分类存储
3.5 新主题重复以上步骤
4 数据仓库分层概览
4.1 缓冲层(buffer),可选
4.1.1 直接从数据源抽取一模一样的一份数据副本以供使用
4.2 ODS层(operationdata store,营运数据存储层),可选
4.2.1 仍然是明细数据,但数据是被清洗加工过的,结构上符合了DW层,但数据是明细数据
4.2.2 更新频率比DW快,实时性高,如果需要明细或者实时数据,则从ODS层获取
4.3 DW层(datawarehouse,数据仓库层),必选
4.3.1 为汇总数据,且是被清洗加工后按DW的设计存入的数据
4.4 DM层(datamarket,数据集市),可选(但基本都会选)
4.4.1 数据从DW层而来
4.4.2 DM层是依赖主题或者应用需求而建立的(比如,销售部门的DM存储了各部门的相关销售数据,再比如管理层DM则记录了销售、成本、利润等等数据)