datax 可以同步到kafka吗 datax数据同步原理

转载

智慧编织者 2024-08-12 17:06:31

文章标签 datax 可以同步到kafka吗数据库大数据 hadoop 数据 文章分类 架构后端开发

1.datax介绍

DataX 是阿里云 DataWorks数据集成的开源版本，在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。

datax 可以同步到kafka吗 datax数据同步原理_大数据

2.datax框架介绍

datax 可以同步到kafka吗 datax数据同步原理_数据库_02

DataX本身作为离线数据同步框架，采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件，纳入到整个同步框架中。

- Reader：Reader为数据采集模块，负责采集数据源的数据，将数据发送给Framework。

- Writer： Writer为数据写入模块，负责不断向Framework取数据，并将数据写入到目的端。

- Framework：Framework用于连接reader和writer，作为两者的数据传输通道，并处理缓冲，流控，并发，数据转换等核心技术问题。

3.datax插件体系

经过几年积累，DataX目前已经有了比较全面的插件体系，主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入。DataX目前支持数据如下：

类型	数据源	Reader(读)	Writer(写)	文档
RDBMS 关系型数据库	MySQL	√	√	读、写
RDBMS 关系型数据库	Oracle	√	√	读、写
RDBMS 关系型数据库	OceanBase	√	√	读、写

待补充

4.datax核心架构

DataX 3.0 开源版本支持单机多线程模式完成同步作业运行，本小节按一个DataX作业生命周期的时序图，从整体架构设计非常简要说明DataX各个模块相互关系。

datax 可以同步到kafka吗 datax数据同步原理_hadoop_03

4.1datax模块介绍

DataX完成单个数据同步的作业，我们称之为Job，DataX接受到一个Job之后，将启动一个进程来完成整个作业同步过程。DataX Job模块是单个作业的中枢管理节点，承担了数据清理、子任务切分(将单一作业计算转化为多个子Task)、TaskGroup管理等功能。
DataXJob启动后，会根据不同的源端切分策略，将Job切分成多个小的Task(子任务)，以便于并发执行。Task便是DataX作业的最小单元，每一个Task都会负责一部分数据的同步工作。
切分多个Task之后，DataX
Job会调用Scheduler模块，根据配置的并发数据量，将拆分成的Task重新组合，组装成TaskGroup(任务组)。每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task，默认单个任务组的并发数量为5。
每一个Task都由TaskGroup负责启动，Task启动后，会固定启动Reader—>Channel—>Writer的线程来完成任务同步工作。
DataX作业运行起来之后， Job监控并等待多个TaskGroup模块任务完成，等待所有TaskGroup任务完成后Job成功退出。否则，异常退出，进程退出值非0

5.datax核心源码分析

datax 可以同步到kafka吗 datax数据同步原理_大数据_04

5.1JobContainer核心源码分析

JobContainer实现了AbstractContainer的start方法。
方法如下，我们现在主要分析下schedule方法。

datax 可以同步到kafka吗 datax数据同步原理_数据库_05

- 生成scheduler实例

datax 可以同步到kafka吗 datax数据同步原理_数据_06

这里的scheduler实现类是StandAloneScheduler。

调用schedule方法

datax 可以同步到kafka吗 datax数据同步原理_大数据_07

分析startAllTaskGroup方法

①　首先创建固定数量的线程池
②　遍历任务组配置
③　创建TaskGroupContainerRunner对象实例

datax 可以同步到kafka吗 datax数据同步原理_大数据_08

点开TaskGroupContainerRunner可以看到，runner实现了Runnable接口，run方法实际调用的是TaskGroupContainer的start方法

datax 可以同步到kafka吗 datax数据同步原理_大数据_09

④　调用TaskGroupContainer.start方法

5.2TaskGroupContainer核心源码分析

这里我们不对每一行代码进行分析，主要分析下start方法。

datax 可以同步到kafka吗 datax数据同步原理_datax 可以同步到kafka吗_10

前面的逻辑主要是一些初始化参数的配置。

我们重点分析这几行代码

datax 可以同步到kafka吗 datax数据同步原理_datax 可以同步到kafka吗_11

①　创建并初始化TaskExecutor

TaskExecutor是一个完整的执行器，包括reader和writer以及传输通道channel。

datax 可以同步到kafka吗 datax数据同步原理_datax 可以同步到kafka吗_12

datax 可以同步到kafka吗 datax数据同步原理_数据库_13

②　启动器创建逻辑分析

datax 可以同步到kafka吗 datax数据同步原理_datax 可以同步到kafka吗_14

datax 可以同步到kafka吗 datax数据同步原理_hadoop_15

③　调用doStart方法

datax 可以同步到kafka吗 datax数据同步原理_大数据_16

从源码可得知，doStart本质上就是启动了writerTread和readerThread线程。writerTread的Runnable是WriterRunner，readThread的Runnable是ReaderRunner。

5.3.ReaderRunner核心源码分析

ReaderRunner实现了Runnable接口，我们重点关注run方法即可。ReaderRunner的构造方法只有一个参数AbstractTaskPlugin，而AbstractTaskPlugin的实例是通过LoadUtil类加载器创建的，如下图：

datax 可以同步到kafka吗 datax数据同步原理_hadoop_17

LoadUtil.loadPluginClass底层其实就是通过反射技术获取plugin的实例，有兴趣的同学可以追踪下LoadUtil.getJarLoader的源码，我这里就不多做介绍了，下面我们重点分析run方法。
在开始具体分析之前，我们先看下下面的截图，可以很清晰的发现，核心方法就是startRead，事实上确实如此，基本上所有的reader插件最复杂的部分就是startRead方法的实现。话不多说，我们看下startReader的具体实现是什么样的，下面我以MysqlReader读取插件作为范例，给大家揭开datax读取插件的神秘面纱。

datax 可以同步到kafka吗 datax数据同步原理_数据库_18

5.4 MysqlReader核心源码分析

先来一张图：

datax 可以同步到kafka吗 datax数据同步原理_数据_19

Datax给我们提供了一个模板，所有的读取插件都要实现Job、Task两个内部类。而MysqlReader继承Reader并实现了Job和Task两个内部类，如下图：

datax 可以同步到kafka吗 datax数据同步原理_数据库_20

本质上，MysqlReader其实是调用了CommonRdbmsReader的方法。它没干啥事，有兴趣的同学可以看下其他的read插件，其实可以发现PostgresReader、OracleReader等关系型数据库都是一样的，都是调用的模板方法。
我们继续往下挖/(ㄒoㄒ)/~~

①　Job内部类的实现
实现了init()、preCheck()、split(int adviceNumber)、post()、destory()方法。

init方法解读

datax 可以同步到kafka吗 datax数据同步原理_大数据_21

commonRdbmsReaderJob.init方法做了什么?我们点进去看下：

datax 可以同步到kafka吗 datax数据同步原理_datax 可以同步到kafka吗_22

datax 可以同步到kafka吗 datax数据同步原理_数据库_23

preCheck方法解读

datax 可以同步到kafka吗 datax数据同步原理_hadoop_24

post方法解读
destroy方法解读
split方法解读

主要是做切分工作，有兴趣的同学可以看下doSplit具体的实现。

②　Task内部类的实现
Task内部的实现，主要实现了init和startRead方法，我们只介绍startRead方法。

startRead方法解读

需要注意的是，每次读取到的数据，都会调用recordSender.sendToWriter方法。Record对象类型是通过core.transport.record.class属性控制的。

datax 可以同步到kafka吗 datax数据同步原理_datax 可以同步到kafka吗_25

RecordSender的实现类一共有三个，分别是RecordExchanger、BufferedRecordExchanger、BufferedRecordTransformerExchanger。

A.RecordExchanger

datax 可以同步到kafka吗 datax数据同步原理_数据_26

在这里可以做校验或者转换。调用的是TransformerExchanger抽象类的doTransformer方法。然后调用channel.push方法推送至writer，从以上代码可以得出，channel是reader和writer之间数据沟通的桥梁。Channel的实现类只有一个MemoryChannel，底层使用的是ArrayBlockingQueue有界阻塞队列。

datax 可以同步到kafka吗 datax数据同步原理_大数据_27

B.BufferedRecordExchanger

datax 可以同步到kafka吗 datax数据同步原理_数据_28

从字面意思上看，BufferedRecordExchanger是一个可以缓存的Record交互类。先判断缓存区是否满了，如果满了会调用flush方法，将所有的数据推送至channel，并清空缓存，重置下标和缓存大小。不管怎么操作，数据最终还是会通过channel流向writer插件。

datax 可以同步到kafka吗 datax数据同步原理_数据_29

C.BufferedRecordTransformerExchanger

BufferedRecordTransformerExchanger和BufferedRecordExchanger一样。

5.5.MysqlWriter核心源码分析

先来一张图：

datax 可以同步到kafka吗 datax数据同步原理_大数据_30

可以看到，Writer模板和Reader模板比较类似，这里我们着重看下startWrite的实现。

①　startWrite方法解读

datax 可以同步到kafka吗 datax数据同步原理_大数据_31

datax 可以同步到kafka吗 datax数据同步原理_datax 可以同步到kafka吗_32

A.调用DBUtil，根据数据库类型、用户、密码、连接URL获取连接。
B.处理session，这里有兴趣可以看到，我们着重介绍下面的方法。
C.startWriteWithConnection方法一个有三个参数，分别是RecordReceiver接收器、taskPluginCollector数据收集器，Connection数据库连接。

datax 可以同步到kafka吗 datax数据同步原理_大数据_33

跟踪getFromReader方法：

datax 可以同步到kafka吗 datax数据同步原理_数据库_34

其实就是从channel中获取数据，底层就是调用了阻塞队列的take方法。

跟踪doBatchInsert方法：

datax 可以同步到kafka吗 datax数据同步原理_数据_35

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。

上一篇：zabbix Last check 数据滞后实际时间 zabbix问题持续时间

下一篇：java ef表达值值给jsp代码 jsp el表达式的语法

提问和评论都可以，用心的回复会被更多人看到评论

发布评论

相关文章

官方博客	全部文章	热门标签	班级博客
了解我们	网站地图	意见反馈

鸿蒙开发者社区	51CTO学堂
51CTO	软考资讯