搞了一下午的eclise搭建kettle源代码,遇到了几个坑:下面总结一下搭建的过程:
1、引言
Data Integration - Kettle 作为免费开源的ETL工具,可以通过其桌面程序进行ETL步骤的开发并执行。kettle以插件形式来实现每个转换步骤的工作,发行版中已经提供了常用的转换清洗插件,如果还不能满足业务需求的话,则可以自己开发相应插件实现。但在使用原有插件或者自定义插件的过程中遇到问题时,如果不好定位原因,则可以通过源码环境来调试,可以更加方便和容易地解决问题。另外,通过源码的开发和学习,也能更加深入地理解kettle的原理。
2.环境准备
2.1下载kettle工具包
下载地址:https://sourceforge.net/projects/pentaho/files/Data%20Integration/6.1/pdi-ce-6.1.0.1-196.zip/download
解压后的如下:
2.2 下载kettle源码
源码下载地址:https://github.com/pentaho/pentaho-kettle,在master下选择tags选项卡,选取自己需要的版本,并下载。
注意:从git上下载一个与自己开发用kettle版本一致的 发行版源码 例如:我使用的是pdi-ce-6.1.0.1-196,那么在下载时就选择:6.1.01-R。
如果下载其他版本的源码,自己去下载相应的发行版kettle后,也可取得里面的lib/*.jar。
本文下载pentaho-kettle-6.1.0.1-R.zip,解压后文件夹名为pentaho-kettle-6.1.0.1-R,如下图:
3、开发环境搭建
具体步骤如下:
1)在Eclipse中新建java project项目kettle-src,java环境设置为JDK或者JRE,不要选JavaSE,不然会报缺少Krb5loginModule的错误。
2)在kettle-src根目录下,新建core、engine、dbdialog、ui四个文件夹(注意是文件夹,非package!),并将四个文件夹设置为source folder(在文件夹上右键点击>>Build Path>>Use as Source Folder或者在项目的Java Build Path里面选择Source选项卡,将四个文件夹添加进去)。
3)进入源码解压包,将pentaho-kettle-6.1.0.1-R\core\src下面的内容全部拷贝到项目的core文件夹下,同样,将engine、dbdialog、ui三个文件夹src下的内容也分别拷贝到项目对应的文件夹下。
4)将源码包下pentaho-kettle-6.1.0.1-R\assembly\package-res\ui(或者工具包下ui文件夹data-integration6.1\ui)里面的内容拷贝到项目ui文件夹下。
5)进入kettle桌面工具的解压包,将lib文件夹(data-integration6.1\lib)及其里面的jar全部拷贝到项目根目录下,并删除kettle-core-6.1.0.1-196.jar、kettle-dbdialog-6.1.0.1-196.jar、kettle-engine-6.1.0.1-196.jar三个jar包,再将data-integration6.1\libswt目录下,对应操作系统的文件夹下的swt.jar(本文选择data-integration6.1\libswt\win64\swt.jar)拷贝到项目的lib下,最后将lib下所有的jar包添加到项目的build path中。
6)在项目根目录下新建plugins文件夹,然后根据需要将工具包下的plugins里面的插件拷贝到plugins目录下(如果不在项目下建立plugins目录,也可以在系统的user_home/.kettle/下面创建plugins目录,比如在C:\Users\Administrator\.kettle下面创建)。
至此,环境准备完毕,最后项目结构如下图所示:
最后启动就可以了:
接着就会出现:
接着输入spoon kettle就会启动。看图