EDW是Enterprise Data Warehouse的简写。这里EDW指Inmon的CIF构建方法,EDW架构指的也是CIF架构。本文比较了EDW架构和总线架构的差别,并指出了EDW架构的缺点,当然这是Kimball的观点。

1.从逻辑模型上来说,两种构建数据仓库的方法都以为企业建立一致性的数据为基础。总线架构采用一致性维度和一致性事实来进行一致性处理。EDW架构采用高度规范化的E/R模型来保证数据的一致性,相对来说,实现的困难要大。

2.EDW架构中企业信息模型经常是一个理想的模型而不是源系统实际的数据模型。规范化的关系数据模型大多是数据规则(多对一的关系),很少有业务专家认为这是业务规则。对于E/R模型来说,与业务相关的解释性的描述很少写到ETL过程、前端查询和报表中,这给使用带来很多不便。

3.在物理模型上来说,总线架构将事实数据保存在不同的数据集市中,通过一致性维度和交叉探察可以实现数据的一致性查询。但是EDW架构中没有类似的解决数据一致性的方法描述。

4.在EDW架构中,没有关于缓慢变化维的解决办法的描述,相对应的是在所有的实体中增加时间戳来实现,这使得管理和使用都非常的麻烦。

5.规范化到第二范式的维度建模中建立聚集相对要容易很多,一致性维度的使用使建立聚集变得更加容易。而E/R建模中,没有系统化的生成聚集的方法。

6.EDW架构在逻辑上和物理上都是集中的。这需要在架构之前,预先理解企业的全部信息,并在已有信息上建立分析系统。而总线架构则鼓励以进化的观点来建立和维护数据仓库,并提出了在以有架构上添加新的数据而不影响已有分析系统的方法。对称的维度模型使扩展变得容易很多。

7.EDW架构中的数据集市从集中的数据仓库中抽取数据,但是仍然需要保留最细粒度的原子数据。否则就可能不能满足企业的分析需求。