在大数据处理的过程当中,ETL是非常重要的一个环节,数据引入到系统,进行初步的处理,以备后续的数据处理环节的需求。从事ETL工作的岗位从业者,就被称作大数据ETL工程师。今天我们就来聊聊ETL工作流程分解。
简而言之,ETL的工作,就是输入各种数据源,输出是各种用于分析的表和数据文件。这个过程当中,就涉及到用来分析的数据是否易用、数据质量的好坏、数据是否完整、数据是否可信等关键性问题。
ETL的一般过程
ETL主要包含三大阶段,分别是数据抽取、数据转换、数据加载。
1、数据抽取
这个阶段的主要目标是汇总多种数据源,为下一步的转换做准备。在动手做抽取之前,你需要充分了解你的各种数据源,理解并利用他们的特性,结合实际分析业务需求,选择合适的抽取方式。
2、数据转换
这个阶段是ETL的核心环节,也是最复杂的环节。它的主要目标是将抽取到的各种数据,进行数据的清洗、格式的转换、缺失值填补、剔除重复等操作,最终得到一份格式统一、高度结构化、数据质量高、兼容性好的数据,为后续的分析决策提供可靠的数据支持。
3、数据加载
这部分的主要目标是把数据加载至目的地,比如数据仓库中。通常的做法是,将处理好的数据写成特定格式(如parquet、csv等)的文件,然后再把文件挂载到指定的表分区上。也有些表的数据量很小,不会采用分区表,而是直接生成最终的数据表。
ETL的实际运行过程,不是一个一劳永逸的过程,因为数据会源源不断地来,因此ETL需要定时或实时地对新来的数据进行数据。所以,这其中也涉及到集群服务、资源调度等方面的需求。
关于ETL工作流程分解,以上就为大家做了一个简单的介绍了。大数据在快速发展当中,对专业技能的要求也不断提高,ETL也是如此。