多维度对比


较维度\产品

Kettle

DataX

设计及架构

适用场景

面向数据仓库建模传统ETL工具

面向数据仓库建模传统ETL工具

支持数据源

多数关系型数据库

少数关系型数据库和大数据非关系型数据库


开发语言

Java

Python、Java


可视化web界面


KettleOnline代码收费

Kettle-manager代码免费



Data-Web代码免费



底层架构

主从结构非高可用,扩展性差,架构容错性低,不适用大数据场景

支持单机部署和集群部署两种方式


功能

CDC机制

基于时间戳、触发器等

离线批处理

抽取策略

支持增量,全量抽取

支持全量抽取。不支持增量抽取要通过shell脚本自己实现


对数据库的影响

对数据库表结构有要求,存在一定侵入性

通过sql select 采集数据,对数据源没有侵入性


自动断点续传

不支持

不支持


数据清洗

围绕数据仓库的数据需求进行建模计算,清洗功能相对复杂,需要手动编程

需要根据自身清晰规则编写清洗脚本,进行调用(DataX3.0 提供的功能)。


数据转换

手动配置schema mapping

通过编写json脚本进行schema mapping映射


特性

数据实时性

非实时

定时

应用难度


是否需要开发


易用性


稳定性


抽取速度


小数据量的情况下差别不大,大数据量时datax比kettle快。

datax对于数据库压力比较小



其他

实施及售后服务

开源软件,社区活跃度高

阿里开源代码,社区活跃度低

拓展阅读