1.1 基本概念
Kettle 是”Kettle E.T.T.L. Envirnonment”只取首字母的缩写,这意味着它被设计用来帮助你实现你的ETTL 需要:抽取、转换、装入和加载数据;翻译成中文名称应该叫水壶,名字的起源正如该项目的主程序员MATT 在一个论坛里说的哪样:希望把各种数据放到一个壶里然后以一种指定的格式流出。
Spoon 是一个图形用户界面,它允许你运行转换或者任务,其中转换是用Pan 工具来运行,任务是用Kitchen 来运行。
1.2 安装和配置
Kettle 的下载可以到http://kettle.pentaho.com/取得最新版本,现在的最新的版本是4.4 。Windows平台上运行spoon.bat,而在Linux环境下运行spoon.sh。
1.3 资源库配置
一个 Kettle 资源库可以包含那些转换信息,这意味着为了从数据库资源中加载一个转换,你必须连接相应的资源库。要实现这些,你需要在资源库中定义一个数据库连接,你可以在Spoon 启动的时候,利用资源仓库对话框来定义。当然,也可以定义文件资源仓库。
Kettledatabaserepository即保存在各种常见的数据库资源仓库类型,用户通过用户名/密码来访问资源仓库中的资源,默认的用户名/密码是admin/admin和guest/guest;
Kettlefilerepository,保存在服务器硬盘文件夹内的资源仓库类型,此类型的资源仓库无需用户进行登录,直接进行操作。为了方便管理,建议用户建立并使用数据库类型资源仓库Kettledatabaserepository。
1.4 实例演示
运用CSV fileinput、Modified Java Script Value和XML Output组件实现csv文件的读取、处理和导出数据到xml文件中。从这个实例里,可以学到如何去使用CSV file input、Modified Java Script Value和XML Output。
分别将CSV file output、ModifiedJava Script Value和XML Output组件拖到主工作台上,按住Shift键,同时,点击一个组件,形成被选中的状态,拖动到目标组件上。于是,形成一个数据流向的箭头(hop)。显示效果如上图所示,下面将展示组件配置。CSV的原始文件的结构如下:
根据这个原始文件,依次配置CSV file output、Modified Java Script Value和XMLOutput组件。
上面的这个实例的源码,请点击下载。