先上整个的流程图。

kettle如何调hive kettle getvariable_大数据

大致的思想是这样的

步骤一

start开启一个job。

步骤二

kettle如何调hive kettle getvariable_数据_02


excel内容如下:

kettle如何调hive kettle getvariable_控件_03


读取excel中的url链接中的业务如下:

kettle如何调hive kettle getvariable_数据_04


其实就是读取Excel文件中的链接,然后将记录复制到结果中,供下一个步骤流程使用。

步骤三

kettle如何调hive kettle getvariable_控件_05


其中的代码:

//

//获取前一个步骤的所有结果集数据
var prevRow=previous_result.getRows();

//如果结果集数据为null或者没有数据,直接返回false
if(prevRow == null &&(preRow.size()==0)){
	false;
}else{
	//将所有结果集数据存进sourceUrl变量
	parent_job.setVariable("sourceUrls",prevRow);
	//将元素个数设置给size变量
	parent_job.setVariable("size",prevRow.size());
	//设置一个循环起始变量
	parent_job.setVariable("i",0);
	//获取第一个元素
	parent_job.setVariable("path",prevRow.get(0));
	true;
}

将获取到的内容设置成变量保存起来,i和size用于后面做循环的判断条件,path表示当前使用的元素,sourceUrs表示所有的元素集合。

步骤四

这一步实现了循环以及下载。

kettle如何调hive kettle getvariable_控件_06


使用JavaScript脚本验证i的值,这个控件内容如下:

var size=new Number(parent_job.getVariable("size"));


var i=new Number(parent_job.getVariable("i"));

if(i>=size){
	false;
}else{
	//因为上一步添加进去的时候,是作为一个像数组元素一样的对象添加进去,变量都会转成字符串,所以直接移除掉就可以了
	var path=parent_job.getVariable("path").replace("[","").replace("]","");
	parent_job.setVariable("path",path);
	true;
}

这个控件主要是判断i和size值,判断是否要继续循环下去。

名称为作业的这个job,里面业务如下:

kettle如何调hive kettle getvariable_控件_07


在HTTP控件中读取变量path,然后保存成文件,这里主要是演示就直接将将响应数据保存成了html文件。

如下:

kettle如何调hive kettle getvariable_控件_08


名称为js递增i的值,并且获取下一行的值设置成变量控件的内容如下:

//变量i自加
var i = new Number(parent_job.getVariable("i"))+1;

//在把i设置回去
parent_job.setVariable("i",i);


//更新path的值
var arr=parent_job.getVariable("sourceUrls").replace("[","").replace("]","").split(",");

//更新path的值
parent_job.setVariable("path",arr[i]);
true;

这个控件的内容主要是更新变量i和path,达到循环的效果。

步骤五

kettle如何调hive kettle getvariable_大数据_09


所有流程走完,执行结束。执行完之后就可以看到在先前指定的文件夹中有以下文件了。

如图:

kettle如何调hive kettle getvariable_kettle如何调hive_10