一个运行于HIVE的简单的UDF程序,可以作为对UDF的一个简单的入门,你自己也可以很容易的亲自实践。

主要包括以下步骤:

 在hive中建一个测试用例表、编辑UDF的java程序、HIVE中添加JAR包并创建UDF临时函数

(1)在hive中建一个测试用例表(当然如果你已经有合适的数据可以跳过这一步)

create table littlebigdata
(
name string,
email string,
bday string
) 
row format delimited fields terminated by ',';



在根目录下(我的是在/root 目录)新建一个文件存放测试要用的数据,后面导入到测试表littlebigdata中。

hive中udf函数怎么打印日志_hive中udf函数怎么打印日志

测试数据:

zly,aabbcc@163.com,10-18-1990
xiaozhu,aabbcc@qq.com,12-4-1990

load数据到hive中

加载表数据命令:

load data inpath '${env:HOME}/littlebigdata.txt' into table littlebigdata;

hive中udf函数怎么打印日志_apache_02

可以看到测试数据已经成功加载到表littlebigdata中了。

(2)编辑UDF的java程序

 UDFZodiacSign.java (借鉴《hive编程指南》中的生日解析为星座的例子,这里做了简化,仅仅对月份做一个判断,当然你可   以扩展更加复杂的处理逻辑)。

package zly.udf;

import java.util.Date;
import java.text.SimpleDateFormat;
import org.apache.hadoop.hive.ql.exec.UDF;


public class UDFZodiacSign extends UDF {
    private SimpleDateFormat df;

    public UDFZodiacSign(){
        df = new SimpleDateFormat("MM-dd-yyyy");
    }

    public String evaluate(Date bday){
        return this.evaluate( bday.getMonth(),bday.getDay() );
    }

    public String evaluate(String bday){
        Date date = null;
        try {
            date = df.parse(bday);
        }catch(Exception ex){
            return null;
        }

        return this.evaluate( date.getMonth()+1,date.getDay() );
    }

    public String  evaluate(Integer month,Integer day){
         if(month==10){
             return "hello zly";
         }

         if(month==12){
             return "hello xiaozhu";
         }

         return null;
    }

}

编写一个UDF,需要继承UDF类并实现evaluate()函数。在查询执行过程中,查询中每个应用到这个函数的地方都会对这个类进行实例化。对于每行输入都会调用evaluate函数,而evaluate函数处理的结果会返回到hive。同时用户是可以重载evaluate函数的。HIVE会像java的重载一样,选择合适的函数版本。

注意,在UDF中,evaluate()函数的参数和返回值只能是HIVE可序列化的数据类型。null在HIVE中对于 任何数据类型都是合法的。

(3)编译打包java程序

使用maven编译打包Java程序

首先创建必要的目录结构:

mkdir -p src/main/java/UDFZodiacSign

然后将源文件放入UDFZodiacSign目录中


在项目根目录(src同一级)下创建pom.xml文件,使用下面的pom.xml配置;

<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
  <modelVersion>4.0.0</modelVersion>
  <groupId>zly.udf</groupId>
  <artifactId>dateudf</artifactId>
  <version>1.0</version>

  <name>hive</name>
  <url>http://maven.apache.org</url>

  <properties>
    <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
  </properties>


  <dependencies>
    <dependency>
        <groupId>org.apache.hive</groupId>
        <artifactId>hive-exec</artifactId>
        <version>1.1.0</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-common</artifactId>
        <version>2.5.0</version>
    </dependency>
  </dependencies>
  <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-shade-plugin</artifactId>
                <version>2.2</version>

                <executions>
                    <execution>
                        <phase>package</phase>
                        <goals>
                            <goal>shade</goal>
                        </goals>
                        <configuration>
                            <filters>
                              <filter>
                                <artifact>*:*</artifact>
                                  <excludes>
                                     <exclude>META-INF/*.SF</exclude>
                                     <exclude>META-INF/*.DSA</exclude>
                                     <exclude>META-INF/*.RSA</exclude>
                                  </excludes>
                              </filter>
                            </filters>
                        </configuration>
                    </execution>
                </executions>
            </plugin>
        </plugins>
 </build>
</project>

mvn编译并打包程序(要保证环境是在联网的情况下,需要下载第三方依赖库)

mvn compile
mvn package


hive中udf函数怎么打印日志_hive中udf函数怎么打印日志_03


程序打包成功之后,jar文件放于target目录下:(class文件在classes目录)

hive中udf函数怎么打印日志_一个简单的UDF例子(HIVE)_04

(3)HIVE中添加JAR包并创建UDF临时函数

  (填写你自己的JAR包的路径)

add jar /home/soft/UDF/target/dateudf-1.0.jar;

hive中udf函数怎么打印日志_hive_05

创建临时函数:

create temporary function dateudf as 'zly.udf.UDFZodiacSign';

hive中udf函数怎么打印日志_hive_06

调用自定义UDF函数dateudf:

select name,bday,dateudf(bday) from littlebigdata;

hive中udf函数怎么打印日志_lua_07

可以看到,自定义UDF程序已经可以正确运行。


再次说明,UDF允许用户在HIVE语言中执行自定义的转换过程。通过上面的UDF,HIVE可以实现日期的一些处理了,当然也可以做其他的转换和聚合操作。


当我们使用完自定义UDF之后,可以通过下面的命令实现删除此函数:

drop temporary function if exists dateudf;

hive中udf函数怎么打印日志_hive中udf函数怎么打印日志_08


第一次编译运行UDF程序时,遇到了下面的问题:

程序编译和打包都可以成功,但是在HIVE中创建临时函数时,会报错:

hive中udf函数怎么打印日志_apache_09

经过度娘帮助,这个错误是因为在使用Maven打包的时候导致某些包的重复引用,以至于打包之后的META-INF的目录下多出了一些*.SF,*.DSA,*.RSA文件所致,我们可以在pom文件里面加入以下配置:

<configuration>
                            <filters>
                              <filter>
                                <artifact>*:*</artifact>
                                  <excludes>
                                     <exclude>META-INF/*.SF</exclude>
                                     <exclude>META-INF/*.DSA</exclude>
                                     <exclude>META-INF/*.RSA</exclude>
                                  </excludes>
                              </filter>
                            </filters>
                        </configuration>

当然,你也可以将报错的jar包解压,然后删除META-INF的目录下的*.SF,*.DSA,*.RSA文件,然后再打包即可。