概述
架构是数据仓库建设的总体规划,从整体视角描述了解决方案的高层模型,描述了各个子系统的功能以及关系,描述了数据从源系统到决策系统的数据流程。业务需求回答了要做什么,架构就是回答怎么做的问题。
数据仓库架构
数据仓库的核心功能从源系统抽取数据,通过清洗、转换、标准化,将数据加载数据仓库中,通过后续加工到BI平台,进而满足业务用户的数据分析和决策支持
层设施
底层设施为架构提供了基础,底层设施包括硬件、数据库平台、网络。
硬件主要指服务器硬件,主要有数据库服务器、ETL服务器、调度服务器、报表服务器、BI门户服务器、接口服务器。
平台分为二大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing),OLAP是为数据分析而设计的数据库管理系统。主要有Oracel,MySQL,Teradata, Greenplum,Hive。
网络是底层设施的基础,特别是大数据时代对网络的要求越来越高。
数据架构
数据架构主要描述数据从源系统抽取数据,然后经过清洗、规范化、提交形成标准模型,最终提交给业务用户,以及对数据的管理。
源系统: 数据仓库一般会面临多个、异构数据源的问题,主要分为结构化,半结构化以及非结构化数据。为了便于管理需要对源系统建立元数据信息。
抽取: 因为源系统的多样性,源抽取阶段一般选择使用工具。在抽取之前还要做以下工作:
数据剖析是对数据的技术性分析,对数据的内容、一致性和结构进行描述。对源系统的数据质量进行评估。
由于面临多个、异构的源系统,抽取方式不尽相同,例如:数据库直连抽取,kettle抽取,Informatica抽取,ftp抽取文件,生成表结构文件,java方式抽取,sqludr2抽取
抽取的数据类型也有区分,数据加载入库方式将在后续内容中讲到:
数据转换: 数据从源系统抽取过来之后,就要进入数据转换阶段。这一阶段是数据仓库开发核心阶段。主要有以下步骤:
清洗: 数据清洗是制定转换规则,筛选数据并纠正数据的过程。清洗的目的是改进源系统的数据质量,但是不要在数据仓库做过多的清洗,源系统的数据质量应该在源头处理。清洗的主要内容包括:
规范化: 规范化就是整合各个源系统的数据,把数据统一命名,统一取值,建立企业标准版本数据。主要内容包括:
提交: 提交就要根据维度模型生成维度表和事实表。提交主要内容包括:
1. 选择合适的缓慢变化维类型
2. 为维表生成代理键
3. 管理不同粒度的层次维
4. 管理专项维
5. 生成维度桥接表
6. 生成代理键管道
7. 选择合适的事实表类型
8. 处理延迟到达的事实
9. 生成维度表
10. 生成事实表
聚集: 聚集是指根据事务事实表进行更高粒度的聚合以及生成相对应的维度表.
行轻度汇总企业数据模型的构建,能够涵盖业务的各个层面,包括交易数据、主数据和参考数据,为整个企业级的数据集成提供一个完整的一致的逻辑视图。为了确保模型对企业经营的映射和相对稳定,采用范式(3NF)化模型,进行定制,为系统间数据交换和使用提供公共汇总数据
例如在金融行业中,会根据Teradata 金融数据模型进行模型层开发
BI应用程序架构
数据仓库是数据处理的后台,业务用户并不关心后台怎么处理。BI应用是数据呈现的前台,是业务用户进行查询的入口。BI应用程序的体验也是衡量数据仓库是否成功的主要因素。
数据服务接口查询: 在数据仓库中进行业务数据的轻度汇总,给第三方业务提供数据查询接口
即席查询: 业务用户根据自己的需求,自定义查询请求,后台自动组织SQL语句访问维度模型
报表展现: 根据业务用户的需求,进行定制报表
驾驶舱和仪表盘: 它是向企业展示度量信息和关键业务指标现状的数据可视化工具。
数据仓库架构图
数据仓库平台逐步从BI报表为主到分析为主、到预测为主、再到操作智能为目标。
数据仓库在系统中得定位
数据仓库系统的作用:
- 能实现跨业务条线、跨系统的数据整合,
- 为管理分析和业务决策提供统一的数据支持。
数据仓库能够从根本上帮助你把公司的运营数据转化成为高价值的可以获取的信息(或知识),并且在恰当的时候通过恰当的方式把恰当的信息传递给恰当的人。
❤️来个「转发朋友圈」和「在看」,是最大的支持❤️