一、数据仓库分层
### --- 数据仓库分层
~~~ 数据仓库更多代表的是一种对数据的管理和使用的方式,
~~~ 它是一整套包括了数据建模、ETL(数据抽取、转换、加载)、
~~~ 作用调度等在内的完整的理论体系流程。数据仓库在构建过程中通常都需要进行分层处理。
~~~ 业务不同,分层的技术处理手段也不同。
~~~ 分层的主要原因是在管理数据的时候,能对数据有一个更加清晰的掌控。
二、详细来讲,主要有下面几个原因:
### --- 详细来讲,主要有下面几个原因:
~~~ # 清晰的数据结构
~~~ 每一个数据分层都有它的作用域,在使用表的时候能更方便地定位和理解。
~~~ # 将复杂的问题简单化
~~~ 将一个复杂的任务分解成多个步骤来完成,每一层只处理单一的问题,比较简单和容易理解。
~~~ 而且便于维护数据的准确性,当数据出现问题之后,可以不用修复所有的数据,
~~~ 只需要从有问题的地方开始修复。
~~~ # 减少重复开发
~~~ 规范数据分层,开发一些通用的中间层数据,能够减少极大的重复计算。
~~~ # 屏蔽原始数据的异常
~~~ 屏蔽业务的影响,不必改一次业务就需要重新接入数据。
~~~ # 数据血缘的追踪
~~~ 最终给业务呈现的是一个能直接使用业务表,但是它的来源很多,
~~~ 如果有一张来源表出问题了,借助血缘最终能够快速准确地定位到问题,并清楚它的危害范围。
三、数仓的分层
### --- 数仓的分层
~~~ 数仓的常见分层一般为3层,分别为:数据操作层、数据仓库层和应用数据层(数据集市层)。
~~~ 当然根据研发人员经验或者业务,可以分为更多不同的层,只要能达到流程清晰、方便查数即可。
~~~ # ODS(Operation Data Store 数据准备区)。
~~~ 数据仓库源头系统的数据表通常会原封不动的存储一份,这称为ODS层,也称为准备区。
~~~ 它们是后续数据仓库层加工数据的来源。
~~~ # ODS层数据的主要来源包括:
~~~ 业务数据库。可使用DataX、Sqoop等工具来抽取,每天定时抽取一次;
~~~ 在实时应用中,可用Canal监听MySQL的 Binlog,实时接入变更的数据;
~~~ 埋点日志。线上系统会打入各种日志,这些日志一般以文件的形式保存,可以用Flume 定时抽取;
~~~ 其他数据源。从第三方购买的数据、或是网络爬虫抓取的数据;
~~~ # DW(Data Warehouse 数据仓库层)。
~~~ 包含DWD、DWS、DIM层,由ODS层数据加工而成。
~~~ 主要完成数据加工与整合,建立一致性的维度,
~~~ 构建可复用的面向分析和统计的明细事实表,以及汇总公共粒度的指标。
~~~ # DWD(Data Warehouse Detail 细节数据层),是业务层与数据仓库的隔离层。
~~~ 以业务过程作为建模驱动,基于每个具体的业务过程特点,构建细粒度的明细层事实表。
~~~ 可以结合企业的数据使用特点,将明细事实表的某些重要维度属性字段做适当冗余,也即宽表化处理;
~~~ # DWS(Data Warehouse Service 服务数据层),基于DWD的基础数据,
~~~ 整合汇总成分析某一个主题域的服务数据。以分析的主题为建模驱动,
~~~ 基于上层的应用和产品的指标需求,构建公共粒度的汇总指标事实表;
~~~ 公共维度层(DIM):基于维度建模理念思想,建立一致性维度;
~~~ TMP层 :临时层,存放计算过程中临时产生的数据;
~~~ # ADS(Application Data Store 应用数据层)。
~~~ 基于DW数据,整合汇总成主题域的服务数据,用于提供后续的业务查询等。
~~~ 数据仓库层次的划分不是固定不变的,可以根据实际需求进行适当裁剪或者是添加。
~~~ 如果业务相对简单和独立,可以将DWD、DWS进行合并。
Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
——W.S.Landor