文章目录


01 引言

通过前面的博文,我们大概把DataX的用法、源码以及配置全部理清了:

那么,我们最终还是要把​​DataX​​应用到我们的项目中的,那么该如何使用呢?

在这里,我要推荐下​​DataX-Web​​​,主要它对于项目使用者来说,提供了一个很清晰的​​swagger​​接口文档,以及可视化界面,方便理解流程,本文讲解下。

02 DataX Web概述

Github地址:​​https://github.com/WeiYe-Jing/datax-web​

从下图,可以看到还是挺多星星的。

DataX教程(05)- DataX Web项目实践_DataX

官方是这样描述的​​DataX Web​​的:


​DataX Web​​​是在​​DataX​​​之上开发的分布式数据同步工具,提供简单易用的 操作界面,降低用户使用​​DataX​​​的学习成本,缩短任务配置时间,避免配置过程中出错。用户可通过页面选择数据源即可创建数据同步任务,支持​​RDBMS​​​、​​Hive​​​、​​HBase​​​、​​ClickHouse​​​、​​MongoDB​​​等数据源,​​RDBMS​​​数据源可批量创建数据同步任务,支持实时查看数据同步进度及日志并提供终止同步功能,集成并二次开发​​xxl-job​​可根据时间、自增主键增量同步数据。


顺便看看它的架构图:

DataX教程(05)- DataX Web项目实践_大数据_02

总结:该项目主要的就是两个核心服务,通过调度中心服务(​​DataXAdminApplication​​)来构建任务,然后​​rpc​​远程调用调用执行器(​​DataXExcutor​​)去执行。

03 DataX Web本地运行

具体的操作步骤本文不再描述,按照官方的文档来一步步操作即可,文档地址:

​https://github.com/WeiYe-Jing/datax-web/blob/master/userGuid.md​​​

其实主要分为几个步骤:

  1. 编译DataX源码,并导出编译后的文件夹,前面已经讲过了(可以参考:​​《DataX教程(02)- IDEA运行DataX完整流程(填完所有的坑)》​​)
  2. 执行​​bin/db​​​下面的​​datax_web.sql​​文件
  3. 修改项目配置,有两个,一是​​datax_admin​​​下​​resources/application.yml​​​文件,另外一个是​​datax_executor​​​下​​resources/application.yml​​文件。

然后需要运行两个服务,分别为:

  • ​DataXAdminApplication​​(​调度中心服务​)DataX教程(05)- DataX Web项目实践_ETL_03
    -​​​DataXExecutorApplication​​(​执行器服务,可做集群​)DataX教程(05)- DataX Web项目实践_数据同步_04

04 DataX Web简单使用

启动成功后打开页面(默认管理员用户名:admin 密码:123456) ​​http://localhost:8080/index.html#/dashboard​​​

DataX教程(05)- DataX Web项目实践_数据同步_05

ok,现在我想把本地MySQL数据库(​​bm_wxcp​​​)里表(​​t_sync_log​​​)的所有内容同步到本地SQLServer数据库(​​datax_web​​​)里的表(​​t_sync_log_target​​),该如何操作呢?下面来说说。

4.1 step1: 新增数据源

首先需要新增本地的MySQL和SQLServer数据源:

DataX教程(05)- DataX Web项目实践_数据同步_06

新增完成后:

DataX教程(05)- DataX Web项目实践_大数据_07

4.2 step2: 新增任务模板

新增DataX任务模板,我这里新增了一个每30秒执行一次的任务:

DataX教程(05)- DataX Web项目实践_大数据_08

新增完成:

DataX教程(05)- DataX Web项目实践_DataX_09

4.3 step3: 任务构建

新增完任务了,那么现在就到了核心的事情了,就是任务的构建,即可以简单理解为配置​​DataX​​​能识别的​​json​​配置。

从下图可以看到有4个步骤来构建任务,按照提示一步一步来:

DataX教程(05)- DataX Web项目实践_DataX_10

①构建reader:

DataX教程(05)- DataX Web项目实践_数据源_11

②构建writer:

DataX教程(05)- DataX Web项目实践_数据同步_12

③ 字段映射:

DataX教程(05)- DataX Web项目实践_大数据_13

④ 构建任务(构建->选择模板->下一步)

DataX教程(05)- DataX Web项目实践_数据同步_14

⑤ 启动任务

DataX教程(05)- DataX Web项目实践_DataX_15

4.4 step4: 查看任务

启动完成后,在日志管理模块,可以看到任务的执行结果:

DataX教程(05)- DataX Web项目实践_DataX_16

DataX教程(05)- DataX Web项目实践_大数据_17

在SQLServer目标源,可以看到同步成功结果:

DataX教程(05)- DataX Web项目实践_DataX_18

05 文末

本文主要讲了​​DataX Web​​​的概念以及基本使用,具体的源码需要去​​Debug​​并应用到实际的项目中去,本文完!