数据仓库(Data warehouse),简称数仓(DW)。主要是面向于主题,进行数据分析工作,主要是存储历史过去的数据,通过对过去历史数据分析从而对未来提供决策支持

数据仓库是面向分析的集成化数据平台,分析的结果给企业提供决策支持。企业中一般先有数据库,然后有数据仓库;可以没有数据仓库,但是不能没有数据库。

数据仓库本身不生产数据
其分析的数据来自于企业各种数据源
企业中常见的数据源
RDBMS关系型数据库--->业务数据
log file--->日志文件数据
其他数据
数据仓库本身也不消费数据,其分析的结果给外部各种数据应用(Data application)来使用。

Data visualization (DV)数据可视化
Data Report 数据报表
Data Mining(DM)数据挖掘
Ad-HOC 即席查询
数据仓库的核心特征

1、面向主题性:在数仓中开展分析,首先确定分析的主题,然后基于主题寻找,采集跟主题相关的数据,一个分析的主题可以对应多个数据源。

2、集成性:确定主题之后,需要把和主题相关的数据从各个数据源集成过来。因为同一个主题的数据可能来自不同的数据源,它们之间会存在着差异(异构数据)诸如字段同名不同意、单位不统一、编码不统一;因此在集成的过程中需要进行ETL(抽取、转换、加载)

3、不可更新性:数仓上面的数据几乎没有修改操作,都是分析的操作。数仓是分析数据规律的平台,不是创造数据规律的平台。(注意:改指的数据之间的规律不能修改。当下发现有些时间也是需要修改的,数据校正。数据缓慢变化)

4、时变性:数仓是一个持续维护建设的东西。站在时间的角度,数仓的数据成批次变化更新。一天一分析(T+1)、一周一分析(T+7)等(上述所讲的更多偏向于离线数仓,当下还有比较火的实时数仓)