数据仓库优势:
查询性能提高
与源数据所在系统隔离,因而不会妨碍业务系统的性能
在数据仓库中进行复杂的查询
数据源所在系统进行联机事务处理
数据仓库中的数据
对源数据进行一定的聚集运算,统一表示方法
可以是历史数据,定期进行刷新
数据仓库最早由美国计算机科学家William H. Inmon于1991年提出,他也因此被称为“数据仓库之父”。他对数据仓库的定义是:“
数据仓库是一个面向主题的(subject-oriented)、
集成的(integrated)、
随时间变化的(time-varying)、
稳定的(non-volatile)
用于支持组织决策的数据集合。”
多维数据模型(multidimensional data model):
上世纪六十年代:通用磨坊(General Mills)公司和美国达特茅斯学院 (Dartmouth College)
它是一种从业务分析的角度来对数据进行逻辑建模的方法,具有简单、易于理解、方便查询等优点,因而是一种常用的数据仓库建模方法。
多维数据模型的构建过程分为四个步骤:
1.选择业务过程或主题
选择标准有两个:
一个是该业务过程或主题存在需要迫切解决的问题,问题的解决有助于提升业务
第二个标准是该业务过程积累了一定的数据,可以作为数据仓库的来源。
典型的业务过程包括:销售、采购、库存和物流等
2.选择粒度
选择事实表中每行取值的粒度。粒度反映了度量取值的粗细程度,分为三种类型:
交易事实表(transaction fact tables)
周期快照事实表(periodic snapshot fact table)
累积快照事实表(accumulating snapshot fact table)
不同粒度的事实表
交易事实表是最细粒度的事实表,它的每一行记录了一个瞬间发生的事件的相关信息。
周期快照事实表比交易事实表的粒度粗,它按照一定的周期,记录每个周期末的状态。
累积快照事实表是最粗粒度的事实表。它记录的是与事物或客户相关的整个生命周期内的主要事件的相关信息,这些事件是事先已知可能发生的。
粒度反映了度量取值的粗细程度,分为三种类型:
3.确定维度
确定事实表中的一行涉及的维度有哪些。通常,粒度确定之后,维度基本确定。粒度越细,维度越多。维度通常涵盖事件发生的时间、地点、主体(事物或人)、原因以及如何发生等方面的角度。
例如,交易型的销售事实表涉及的维度包括时间、地点、商品、顾客、促销类型等等维度
进一步需要细化维度
4.确定度量
度量是用于衡量业务性能的指标,通常业务人员对此非常熟悉。
例如,衡量销售业绩的指标是销售量、销售额等。属于一个事实表中的各个度量的粒度必须相同。