开源数据仓库 kett 开源数据仓库构建工具_etl构建数据仓库五步法


小黎子在没有接触数据仓库之前,一直通过PowerQuery或者是国产数据分析平台进行数据加工处理,再使用PowerBI Desktop进行数据分析展现,没有单独构建数据仓库的概念。了解一些免费的ETL工具介绍和视频后发现原来建立数据仓库确实可以比较简单。ETL工具的简单是相对的,主要还是我们需要有数据仓库相关的知识尤其是数据仓库维度建模,后面的文章我会介绍什么是维度建模?接下来我们看一张图,很形象的表达了有数据仓库和没有数据仓库的数据分析不同。


开源数据仓库 kett 开源数据仓库构建工具_数据仓库_02

有数据仓库和没有数据仓库的区别


图中我们可以看到有数据仓库和没有数据仓库的区别。在进行数据分析的时候,我们总会遇到一些名词,比如数据仓库,事实表,维度表,维度建模等等。数据仓库是数据分析中一个比较重要的东西,数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合。下面就给大家好好的解释一下数据分析中的数据仓库。

对数据分析的理解大家应该都是比较熟悉的,数据分析的流程有很多,首先需要进行对业务的理解,然后就是对数据的理解,挖掘数据,数据处理,数据分析,数据展现,这些步骤就能够给大家带来一个不错的数据分析结果。

但是数据分析中的工作最重要的就是数据处理工作,由于数据分析对数据质量、格式的要求比较高,对数据的理解也必须非常深刻,使得数据契合业务需求也要一定的过程,根据我做数据分析的经验,在整个数据分析流程中,用于数据处理的时间往往要占据70%以上。所以,如何高效、快速地进行数据理解和处理,往往决定了数据分析项目的进度和质量。而数据仓库具有集成、稳定、高质量等特点,基于数据仓库为数据分析提供数据,往往能够更加保证数据质量和数据完整性。

我们如果要做好数据分析的时候,要使用ETL工具构建数据仓库提升数据分析效果需要从三个方面入手。分别是数据理解、数据质量、数据跨系统关联。

一、 数据理解


开源数据仓库 kett 开源数据仓库构建工具_开源数据仓库 kett_03

数据仓库模型

我们都知道,数据仓库是面向主题的,所以其自身与业务结合就相对紧密和完善,更方便数据分析师基于数据理解业务。而数据仓库是有很多的主题组成,包括了很多的数据。当我们需要对数据进行分析的时候,如果理解数据仓库的模型,数据理解也就水到渠成了。

第二、数据质量。


开源数据仓库 kett 开源数据仓库构建工具_etl构建数据仓库五步法_04

数据仓库数据质量

我们在做数据分析的时候要求数据是干净、完整的,而数据仓库已经对源系统的数据进行了业务契合的转换,以及脏数据的清洗,这就为数据分析的数据质量做了较好的保障。

第三、数据跨系统关联


开源数据仓库 kett 开源数据仓库构建工具_数据仓库_05


数据跨系统关联数据仓库的一个简单架构,各业务源系统的数据经过ETL过程后流入数据仓库,当不同系统数据整合到数据仓库之后,至少解决了数据分析中的两个问题:

第一, 跨系统数据收集问题,在金融分析中同一个客户的储蓄交易和理财交易我们在同一张事实表就可以找到;


开源数据仓库 kett 开源数据仓库构建工具_数据_06


第二, 跨系统关联问题,进行数据整合时,总是需要找到共同点来关联来自不同系统的信息,而数据仓库在ETL过程中就会整合相关客户信息,完美解决跨系统关联问题。

通过上面的内容我们不难发现数据仓库确实能够给大家带来很多的帮助,大家在学习数据分析之余需要对数据分析中的数据仓库进行了解,这样才能够更好地去进行数据分析工作。希望这篇文章能够给大家带来帮助,最后感谢大家的阅读。