ITPub博客

首页 > 大数据 > 数据挖掘 > Kettle实现Transformation 循环及跳出

Kettle实现Transformation 循环及跳出

原创 数据挖掘 作者:newknight 时间:2013-12-20 21:37:21 0 删除 编辑

Kettle实现Transformation 循环及跳出


在ETL操作中,经常需要对某个操作进行循环调用,可是使用Kettle工具时,并没有循环的组件可以调用,但在Job中引用Transformation时,可通过设置Transformation 的高级属性(”执行每一个输入行”)来实现Transformation 的循环,而在Transformation执行过程中,可根据条件设置跳出循环,或者略过本次操作,进入下一次循环。


循环配置步骤如下:

说明:

本例中将涉及两个Transformation 和一个Job

Get FileNamesTransformation 】:通过此Transformation 获取固定目录下(D:\test)的sql文件全路径名称

Output FileNamesTransformation 】:通过此Transformation 将上一步骤获得的每个sql文件名写入files_output.txt文本。

Output FileNames_LoopJob】:此Job调用Get FileNamesOutput FileNames,实现Output FileNames的循环调用。


  1. 先设置循环的For loop点。

    Get FileNames的配置如下图,注意通配符设置:



  2. 设置循环的操作主体

    先引用上一步的结果记录,引用的是filename这个全路径文件名



    对于Modified Java Script Value这个步骤,设置的是当文件名大于”D:\test\dm.sql“时,是跳出循环,还是略过本次,进入下一次循环。

    Modified Java Script Value配置的脚本如下:

trans_Status = CONTINUE_TRANSFORMATION;

//调试

//Alert(filename.getString());

//注意“\”需要加转义符“\”

if(filename.getString().compareTo(“D:\\test\\dm.sql”)>0) {

//条件满足时,跳出循环

    trans_Status = ERROR_TRANSFORMATION;

}


如果要设置为满足条件时,略过本次而进入下一次循环,可修改红色字体部分为SKIP_TRANSFORMATION


文件输出的配置如下:




  1. 两个Transformation 完成后,新建一个JobOutput FileNames_Loop


    注意Output FileNamesTransformation 】的高级属性中,勾上”执行每一个输入行”。


    保存后,执行进行调试即可。

来自 “ ITPUB博客 ” ,链接:http://blog.itpub.net/10009036/viewspace-1063937/,如需转载,请注明出处,否则将追究法律责任。

请登录后发表评论 登录
全部评论
希望各位朋友多多指点,QQ:1125819792

注册时间:2013-11-27

  • 博文量
    84
  • 访问量
    1864223