- 核心组成
- 勺子(
Spoon.bat/spoon.sh
):是一个图形化的界面,允许用图形化的方式开发转换和作业 - 煎锅(
Pan.bat/pan.sh
):利用Pan
可以命令行调用Spoon
编辑好的Job
- 厨房(
Kitchen.bat/kitchen.sh
):利用Kitchen可以使用命令行调用由Spoon
编辑好的Job
- 菜单(
Carte.bat/Carte.sh
):Carte
是一个轻量级的Web
容器,用于建立专门,远程的ETL Server
kettle
的目录说明- 概念
- 可视化编程语言(
Visual Programming Languages
):快速构建复杂的ETL
作业和减低工作维护量 - 转化(
Transformation
):负责数据的输入、转化、校验和输出等工作;Kettle
使用转化完成数据ETL全部工作;转化由多个步骤(Step
)组成,各个步骤使用跳来连接;在Kettle
中最小单位是数据行(row
),数据流中流动的是行集(RowSet
) - 步骤(
Step
):转换里的基本组成部分;步骤在统一转换范围内唯一;每个步骤都会读、写数据行;步骤将数据写到与之相连的一个或多个输出跳,再传递到跳的另一端的步骤;大多数步骤都可以有多个输出跳;一个步骤的数据发送可以设置为分发和复制;分发是目标步骤轮流接收记录,复制是所有的记录被同时发送到所有的目标步骤 - 跳(
Hop
)是步骤之间带箭头的连线,定义了步骤之间的数据通路 - 元数据:
①名称:数据行里的字段名是唯一的。
②数据类型:字段的数据类型。
③格式:数据显示的方式,如Integer
的#
、0.00
。
④长度:字符串的长度或者BigNumber类型的长度。
⑤精度:BigNumber
数据类型的十进制精度。
⑥货币符号:¥
⑦小数点符号:十进制数据的小数点格式。不同文化背景下小数点符号是不同的,一般是点(.
)或逗号(,
)。
⑧分组符号:数值类型数据的分组符号,不同文化背景下数字里的分组符号也是不同的,一般是点(.
)或逗号(,
)或单引号(’
) - 数据类型
①String
:字符类型数据
②Number
:双精度浮点数。
③Integer
:带符号长整型(64
位)。
④BigNumber
:任意精度数据。
⑤Date
:带毫秒精度的日期时间值。
⑥Boolean
:取值为true
和false
的布尔值。
⑦Binary
:二进制字段可以包含图像、声音、视频及其他类型的二进制数据。 - 作业 (
Job
):定义一个完成整个工作流的控制;一个串行的调度工具执行转换