多维度对比
较维度\产品 | Kettle | DataX | |
设计及架构 | 适用场景 | 面向数据仓库建模传统ETL工具 | 面向数据仓库建模传统ETL工具 |
支持数据源 | 多数关系型数据库 | 少数关系型数据库和大数据非关系型数据库 | |
开发语言 | Java | Python、Java | |
可视化web界面 | KettleOnline代码收费 Kettle-manager代码免费 | Data-Web代码免费 | |
底层架构 | 主从结构非高可用,扩展性差,架构容错性低,不适用大数据场景 | 支持单机部署和集群部署两种方式 | |
功能 | CDC机制 | 基于时间戳、触发器等 | 离线批处理 |
抽取策略 | 支持增量,全量抽取 | 支持全量抽取。不支持增量抽取要通过shell脚本自己实现 | |
对数据库的影响 | 对数据库表结构有要求,存在一定侵入性 | 通过sql select 采集数据,对数据源没有侵入性 | |
自动断点续传 | 不支持 | 不支持 | |
数据清洗 | 围绕数据仓库的数据需求进行建模计算,清洗功能相对复杂,需要手动编程 | 需要根据自身清晰规则编写清洗脚本,进行调用(DataX3.0 提供的功能)。 | |
数据转换 | 手动配置schema mapping | 通过编写json脚本进行schema mapping映射 | |
特性 | 数据实时性 | 非实时 | 定时 |
应用难度 | 高 | 高 | |
是否需要开发 | 是 | 是 | |
易用性 | 低 | 低 | |
稳定性 | 低 | 中 | |
抽取速度 | 小数据量的情况下差别不大,大数据量时datax比kettle快。 datax对于数据库压力比较小 | ||
其他 | 实施及售后服务 | 开源软件,社区活跃度高 | 阿里开源代码,社区活跃度低 |
拓展阅读