一:数据仓库简介
数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
数据仓库系统是一个信息提供平台,他从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。
数据仓库是决策支持系统(dss)和 联机分析应用数据源的结构化数据环境。数据仓库研究和解决从数据库中获取信息的问题。数据仓库的特征在于面向主题、集成性、稳定性和时变性 ,用于支持管理决策。数据仓库存在的意义在于对企业的所有数据进行汇总,为企业各个部门提供统一的 ,规范的数据出口。
面向主题:数据仓库中的数据是按照一定的主题域进行组织的,每一个主题对应一个宏观的分析领域。数据仓库排除对于决策无用的数据,提供特定主题的简明视图。
集成的:企业内不同业务部门数据的完整集成。对于企业内所有数据的集成要注意一致性(假设财务系统中对于性别使用 F/M,而 OA系统对性别使用 A/B,这就是数据不一致,如果想搭建企业级的数据仓库,需要数据具有一致性)。
稳定的:数仓里不存在数据的更新和删除操作。
变化的:数仓里会完整的记录某个对象在一段时期内的变化情况。
数据仓库的目标是实现集成、稳定、反映历史变化有组织有结构的存储数据的集合
二:OLTP 与 与 OLAP
操作型处理(传统数据库):联机事务处理 OLTP(On-Line Transaction Processing)主要关心操作的响应时间、数据的安全性、完整性,事务一致性和并发等问题。传统的数据库系统作为数据管理的主要手段,主要用于操作型处理。所谓操作型处理,即记录用户操作的行为,以及操作过后产生的结果和状态。例如用户购物的行为。在购物中涉及的操作行为有:下单,结算等。产生的结果有:购买的物品,所花费的金额,收货地址,下单时间等。在传统数据库中,通常采用ER图进行描述,主要说明的是数据的流向和操作事务的生命周期。而生命周期的每个阶段主要描述的是实体之间对应的关系。
分析型处理(数据仓库):联机分析处理 OLAP(On-Line Analytical Processing)一般针对某些主题的历史数据进行分析,支持管理决策。操作型处理面对的对象是实体,解决实体之间存在的关系。数据仓库面对的对象是主题,用于统计指标,起到决策的作用。
OLTP 与 与 OLAP:
传统数据库 | 数据仓库 |
涉及到数据处理的每个细节 | 根据业务需求,统计,提炼指标 |
实体-关系(ER)模型 | 星型或雪花模型 |
行记录的状态可更新 只读 | 不可更新,可追加 |
一次操作一个单元 | 一次操作一个集合 |
性能要求高,响应时间短 | 性能要求宽松 |
支持日常事务操作 | 支持决策需求 |
数据量小 | 数据量大 |
客户订单、库存水平和银行账户等 | 客户收益分析、市场细分等 |