了解大数据平台的基础架构有助于我们清楚数据是怎么流转与处理的,在每一层的结构中数据是以什么形式存储的,当我们听到工程师们谈论到这些内容时,不至于一无所知。
本文内容偏基础,适合像作为入门了解。
文不如表,表不如图,先上一张大数据平台架构图:
大数据平台架构图
按数据流向将大数据平台分为3层。
第1层-原始数据层
在这一层中完成的是数据从业务数据系统传输到DOS操作型数据层的过程。业务数据通常是来源于各个业务系统(比如crm系统、订单系统等)、用户操作日志或其他第三方数据系统,这一过程的主要目的是将来自各方的数据在DOS操作型数据库中实现数据集中。集中后的数据可以缓解业务系统的查询压力,同时方便地支持多维度分析等查询功能。
这个过程中,我们要关注的是数据抽取的接口、数据量的大小、抽取方式。
DOS操作型数据层的数据特点:
- 通常是实时或分钟级从业务数据层获取数据
- 存储的是当前的、不断变化的数据,历史数据通常保存3-6个月
第2层-数据仓库层
数据仓库不是一个独立的个体,它是大数据平台的一部分,是一个集成化的、面向主题的数据存储集合,它既不生产数据,也不消费数据,它存储的通常是历史的、不再变化的数据。
数据仓库的特点:
1)面向主题
数据仓库的主要功能就是向数据应用层提供信息以作出决策,所以数据仓库通过一个个主题域将多个业务系统的数据加载到一起,来支持对各个主题的分析。
2)集成性
数据仓库中的数据来源于众多不同数据源。数据仓库系统将多处的数据源通过一定的规则进行etl处理,再聚合集成到数据仓库。
3)稳定性
对数据仓库中的数据一般仅执行查询操作,很少会有删除和更新。这些数据是为企业数据分析而建立,所以数据被加载后通常会被长期保留。
4)数据的切片存储
数据仓库的数据存储是加了时间戳的,相当于是把数据按照快照的方式存了n个版本,从而避免业务数据被不断覆盖,使得历史时间的数据可追溯、分析。
数据的分层存储:
数据仓库的数据存储是分层级的,这个架构一方面跟数据拉取方式有关,一方面也是为了对数据进行层级的抽象处理。数据仓库主要分为基础层、主题层、数据集市层三层。
1)基础层
ODS层的数据经过简单的etl处理进入基础层,通过建模的方式,经业务模型、领域模型、逻辑模型、物理模型一系列处理,来实现对数据的轻度汇总,产出轻度汇总明细表、维度表等。
这个过程中,对于数据的etl处理,会涉及到一些数据错误、遗漏、不规范、不统一等问题,产品经理需要和研发工程师做好沟通,提供数据清洗逻辑。
2)主题层
主题层的存储的是高度综合的数据,是由ODS层和基础层的数据按照一定的维度和业务逻辑聚合而来,仍然覆盖了所有的业务数据,只是它的数据存储形式是面向主题的,比如订单主题、商品主题、物流主题等,目的是可以满足用户分析某个主题的需求。
这一层的搭建规则要依赖于公司业务需求,所以产品经理需要对业务有深入的理解。
3)数据集市层
数据集市可以理解为是一种“小型数据仓库”,一般面向部门、面向主题或特定应用,它最主要作用是将主题数据组合成数据分析模型,数据的结构通常是由事实表和维度表构成的星型结构或雪花结构。
星型模型是面向主题的常用模式,主要由一个事实表及多个维表构成,不存在二级维表。
雪花模型是在星型模型基础上将维度表再次扩展,好处是耦合性低,冗余小。缺点是需要跨多表查询时性能低。
第3层-数据应用层
数据仓库的数据通常服务于数据可视化报表、数据分析(包含数据挖掘)、即席查询。
数据报表几乎是每个数据仓库的必不可少的一类数据应用,将聚合数据和多维分析数据展示到报表,使数据更直观、易理解。
数据分析是数据仓库的主要应用,用户可以提取到隐藏的、重要的信息,进而开展描述性、预测性、指导性的数据分析,为企业提供更大的商业价值。
即席查询(Ad Hoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成返回响应的结果,例如返回用户自定义的统计报表。这需要数据库内部实时自动优化,所以即席查询也是评估数据仓库的一个重要指标。在一个数据仓库系统中,即席查询使用的越多,对数据仓库的要求就越高。
总结
针对大数据平台,作为产品经理,我们首先应该做到:
1)了解大数据平台的架构、数据的流转与处理,方便与研发沟通交流
2)在数据清洗时,能够提供保证数据质量的数据清洗规范
3)对业务要有深刻的理解,能更好地了解或参与主题构建、数据分析模型构建
参考资料
1.《数据产品经理修炼手册》
2.数据仓库学习笔记:修炼数据产品经理
http://www.woshipm.com/data-analysis/950578.html
3.数据仓库的基本架构
http://www.woshipm.com/pd/676.html
4.大数据时代:数据仓库搭建之路