DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、Hologres、DRDS 等各种异构数据源之间高效的数据同步功能。
DataX目前已经有了比较全面的插件体系,主流的RDBMS数据库、NOSQL、大数据计算系统都已经接入,目前支持数据如下图:
类型 | 数据源 | Reader(读) | Writer(写) | 文档 |
RDBMS 关系型数据库 | MySQL | √ | √ | |
| Oracle | √ | √ | |
| OceanBase | √ | √ | |
SQLServer | √ | √ | ||
PostgreSQL | √ | √ | ||
DRDS | √ | √ | ||
Apache Doris | √ | 写 | ||
StarRocks | √ | 写 | ||
通用RDBMS(支持所有关系型数据库) | √ | √ | ||
阿里云数仓数据存储 | ODPS | √ | √ | |
ADS | √ | 写 | ||
OSS | √ | √ | ||
OCS | √ | 写 | ||
NoSQL数据存储 | OTS | √ | √ | |
Hbase0.94 | √ | √ | ||
Hbase1.1 | √ | √ | ||
Phoenix4.x | √ | √ | ||
Phoenix5.x | √ | √ | ||
MongoDB | √ | √ | ||
Hive | √ | √ | ||
Cassandra | √ | √ | ||
无结构化数据存储 | TxtFile | √ | √ | |
FTP | √ | √ | ||
HDFS | √ | √ | ||
Elasticsearch | √ | 写 | ||
时间序列数据库 | OpenTSDB | √ | 读 | |
TSDB | √ | √ | ||
TDengine | √ | √ |
1.环境准备
JDK(1.8以上,推荐1.8)
Python(2或3都可以) #centos7默认已经安装了Python2
2.下载DataX
下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz
3.安装
验证是否安装成功
如果遇到报错可以参考次文章:https://blog.51cto.com/u_13753753/5761114