• 核心组成
  1. 勺子(Spoon.bat/spoon.sh):是一个图形化的界面,允许用图形化的方式开发转换和作业
  2. 煎锅(Pan.bat/pan.sh):利用Pan可以命令行调用Spoon编辑好的Job
  3. 厨房(Kitchen.bat/kitchen.sh):利用Kitchen可以使用命令行调用由Spoon编辑好的Job
  4. 菜单(Carte.bat/Carte.sh):Carte是一个轻量级的Web容器,用于建立专门,远程的ETL Server
  • kettle的目录说明
  • 概念
  1. 可视化编程语言(Visual Programming Languages):快速构建复杂的ETL作业和减低工作维护量
  2. 转化(Transformation):负责数据的输入、转化、校验和输出等工作;Kettle使用转化完成数据ETL全部工作;转化由多个步骤(Step)组成,各个步骤使用跳来连接;在Kettle中最小单位是数据行(row),数据流中流动的是行集(RowSet
  3. 步骤(Step):转换里的基本组成部分;步骤在统一转换范围内唯一;每个步骤都会读、写数据行;步骤将数据写到与之相连的一个或多个输出跳,再传递到跳的另一端的步骤;大多数步骤都可以有多个输出跳;一个步骤的数据发送可以设置为分发和复制;分发是目标步骤轮流接收记录,复制是所有的记录被同时发送到所有的目标步骤
  4. 跳(Hop)是步骤之间带箭头的连线,定义了步骤之间的数据通路
  5. 元数据:
    ①名称:数据行里的字段名是唯一的。
    ②数据类型:字段的数据类型。
    ③格式:数据显示的方式,如Integer#0.00
    ④长度:字符串的长度或者BigNumber类型的长度。
    ⑤精度:BigNumber数据类型的十进制精度。
    ⑥货币符号: ⑦小数点符号:十进制数据的小数点格式。不同文化背景下小数点符号是不同的,一般是点(.)或逗号()。
    ⑧分组符号:数值类型数据的分组符号,不同文化背景下数字里的分组符号也是不同的,一般是点(.)或逗号()或单引号(
  6. 数据类型
    String:字符类型数据
    Number:双精度浮点数。
    Integer:带符号长整型(64位)。
    BigNumber:任意精度数据。
    Date:带毫秒精度的日期时间值。
    Boolean:取值为truefalse的布尔值。
    Binary:二进制字段可以包含图像、声音、视频及其他类型的二进制数据。
  7. 作业 (Job):定义一个完成整个工作流的控制;一个串行的调度工具执行转换