目录
- 一、数据仓库的ODS、DW和DM概念
- 二、数据中心整体架构
- 三、ODS、DW、DM协作层次图
- 四、通过一个简单例子看这几层的协作关系
- 五、ODS到DW的集成示例
一、数据仓库的ODS、DW和DM概念
表1 ODS、DW、DM的区分
概念 | 名词解释 | 特征 | 个人理解 |
ODS | ODS(Operational Data Store) 操作性数据,是作为数据库到数据仓库的一种过渡,ODS的数据结构一般与数据来源保持一致,便于减少ETL的工作复杂性,而且ODS的数据周期一般比较短。ODS的数据最终流入DW | 1.在业务系统和数据仓库之间形成一个隔离,ODS直接存放从业务系统抽取过来的数据,这些数据从结构和数据上与业务系统保持一致,降低了数据抽取的复杂性。 2.转移一部分业务系统的细节查询功能,因为ODS存放的数据与业务系统相同,原来由业务系统产生的报表,现在可以从ODS中产生了。 3.完成数据仓库中不能完成的功能。ODS存放的是明细数据,数据仓库DW或DM都存放的是汇聚数据,ODS提供查询明细功能。 4.ODS数据只能增加不能修改,而且数据都是自业务系统中原样拷贝而来,所以可能存在数据冲突的可能,解决办法是为每一条数据增加一个时间版本来区分相同的数据 | 1.ODS提供了数据冗余备份,它的存在可以避免数据仓库直接调用业务系统的数据。 2.数据抽取到ODS中只需要将业务系统的数据原封不动的拷贝过去,可以忽略业务上的规则。 3.ODS就像一个无限大的容器,数据源源不断的写入进去,一经写入的数据就不能被改变,鉴于这些特性,ODS一般会考虑使用分布式文件存储系统。 |
DW | DW (Data Warehouse)数据仓库,是数据的归宿,这里保持着所有的从ODS来的数据,并长期保存,且这些数据不会被修改。 | 1.效率足够高,要对进入的数据快速处理。 2.数据质量高,数据仓库是提供很多决策需要的数据支撑,DW的数据应该是唯一的具有权威性的数据,企业的所有系统只能从DW取数据,所以需要定期对DW里面的数据进行质量检查,保证DW里边数据的唯一、权威和准确。 3.扩展性,企业业务扩展和降低企业建设数据仓库的成本考虑。 4.面向主题,数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域,数据仓库排除对决策无用的数据,提供特定主题的简明视图。 5.DW主要提供查询服务,并且需要查询能够及时响应。 6.DW的数据也是只允许增加不允许删除和修改,数据仓库主要是提供查询服务,删除和修改在分布式系统中会消耗大量的性能资源。 | 1.企业的系统只能使用从DW提供的被认可的数据,所以预先做好企业的元数据建立非常必要。 2.DW的设计基于一个个的事实表,倾向于关系型数据库的架构设计,但当数据量过于庞大时,关系型数据库的架构不再适用。 |
DM | DM(Data Mart) 数据集市,为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject area) | 1.DM结构清晰,针对性强,扩展性好,因为DM仅仅是针对一个领域而建立,容易维护修改 2.DM建设任务繁重,公司有众多业务,每个业务需单独建表。 3.DM的建立更多地消耗存储空间,单独一个DM可能数据量不大,但是企业所有领域都建立DM,这个数据量就会增加多倍。 | 1. 在实施不同的数据集市时,同一含义的字段定义一定要相容,这样在以后实施数据仓库时才不会造成大麻烦。 2.数据集市是以某个业务应用为出发点而建设的局部DW,只关心自己需要的数据,不会全盘考虑企业整体的数据架构和应用,每个应用有自己的DM 3.DM可以以不同形式存在,不一定要是数据产品,甚至可以是一个excel。DM直接从DW中取数,DM本身不做数据库的架构设计 |
二、数据中心整体架构
数据仓库的整理架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS中,对ODS数据进行面向主题域建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM生成的报表。
三、ODS、DW、DM协作层次图
四、通过一个简单例子看这几层的协作关系
五、ODS到DW的集成示例
图4 集成示例