1.前言
小编最近接到一个任务是大数据方向的,业务是将mysql的数据同步到阿里云的MaxCompute(ODPS)数据仓库中。那么过程中会涉及到哪些知识呢?小编记录下了学习过程,欢迎大家指教。
1.1概念扫盲
ETL(Extract-Transform-Load)
数据仓库技术,用来描述将数据从来源端经过抽取(extract)、交互转换(transform)、加载(load)至目的端的过程。ETL一词较常用在数据仓库,但其对象并不限于数据仓库。ETL是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是主要的一个技术手段。
ODPS(Open Data Processing Service)
阿里云产品,现在叫MaxCompute,向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能快速的解决用户海量数据计算问题,降低企业成本,保障数据安全。是阿里巴巴通用计算平台提供的一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。
数据仓库(Data Warehouse)
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。
主要功能是将组织透过资讯系统之联机事物处理(OLTP)上的量资料,透过数据仓库理论,利用联机分析处理(OLAP),数据挖掘(Data Mining)手段作分析整理,帮助决策者从大量资料中分析出有价值的资料,帮助构建商业智能(BI)。
特点:
1、数据仓库是面向主题的,区别于操作性数据库的面向事务处理。
2、集成性,数据仓库的数据来源于分散的操作性数据(比如我们的数据来源分成了2部分①mysql②OSS,阿里云开放存储服务),所以要消除数据源的不一致性。
3、数据主要用于分析决策用,主要用于查询,数据往往会长期保存。通常包含历时数据,记录企业从过去某一时间点到当前各阶段的信息,用于分析和预测。
实现方式:
数据仓库是一个过程而不是一个项目。从业务处理系统获得数据,主要以星型模型和雪花模型进行数据组织,并为用户提供各种手段从数据中获取信息和知识。
从功能结构划分,数据仓库系统至少应该包含数据获取(Data Acquisition)、数据存储(Data Storage)、数据访问(Data Access)三个关键部分。
企业数据仓库的建设,是以现有企业业务系统和大量业务数据的积累为基础。数据仓库不是静态的概念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度看,数据仓库建设是一个工程,是一个过程。
体系结构:
数据源——>存储与管理——>OLAP分析——>前端展示(报表等)
2.数据集成工具
在迁移数据的过程中,将异构数据源集成需要一些工具,常用的工具分析,推荐 学习地址
我们暂时选用DataX进行研究实现,接下来,我会继续总结关于DataX的知识。
小结:
学无止境,新环境,新开始!