一个运行于HIVE的简单的UDF程序,可以作为对UDF的一个简单的入门,你自己也可以很容易的亲自实践。
主要包括以下步骤:
在hive中建一个测试用例表、编辑UDF的java程序、HIVE中添加JAR包并创建UDF临时函数
(1)在hive中建一个测试用例表(当然如果你已经有合适的数据可以跳过这一步)
create table littlebigdata
(
name string,
email string,
bday string
)
row format delimited fields terminated by ',';
在根目录下(我的是在/root 目录)新建一个文件存放测试要用的数据,后面导入到测试表littlebigdata中。
测试数据:
zly,aabbcc@163.com,10-18-1990
xiaozhu,aabbcc@qq.com,12-4-1990
load数据到hive中
加载表数据命令:
load data inpath '${env:HOME}/littlebigdata.txt' into table littlebigdata;
可以看到测试数据已经成功加载到表littlebigdata中了。
(2)编辑UDF的java程序
UDFZodiacSign.java (借鉴《hive编程指南》中的生日解析为星座的例子,这里做了简化,仅仅对月份做一个判断,当然你可 以扩展更加复杂的处理逻辑)。
package zly.udf;
import java.util.Date;
import java.text.SimpleDateFormat;
import org.apache.hadoop.hive.ql.exec.UDF;
public class UDFZodiacSign extends UDF {
private SimpleDateFormat df;
public UDFZodiacSign(){
df = new SimpleDateFormat("MM-dd-yyyy");
}
public String evaluate(Date bday){
return this.evaluate( bday.getMonth(),bday.getDay() );
}
public String evaluate(String bday){
Date date = null;
try {
date = df.parse(bday);
}catch(Exception ex){
return null;
}
return this.evaluate( date.getMonth()+1,date.getDay() );
}
public String evaluate(Integer month,Integer day){
if(month==10){
return "hello zly";
}
if(month==12){
return "hello xiaozhu";
}
return null;
}
}
编写一个UDF,需要继承UDF类并实现evaluate()函数。在查询执行过程中,查询中每个应用到这个函数的地方都会对这个类进行实例化。对于每行输入都会调用evaluate函数,而evaluate函数处理的结果会返回到hive。同时用户是可以重载evaluate函数的。HIVE会像java的重载一样,选择合适的函数版本。
注意,在UDF中,evaluate()函数的参数和返回值只能是HIVE可序列化的数据类型。null在HIVE中对于 任何数据类型都是合法的。
(3)编译打包java程序
使用maven编译打包Java程序
首先创建必要的目录结构:
mkdir -p src/main/java/UDFZodiacSign
然后将源文件放入UDFZodiacSign目录中
在项目根目录(src同一级)下创建pom.xml文件,使用下面的pom.xml配置;
<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>zly.udf</groupId>
<artifactId>dateudf</artifactId>
<version>1.0</version>
<name>hive</name>
<url>http://maven.apache.org</url>
<properties>
<project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
</properties>
<dependencies>
<dependency>
<groupId>org.apache.hive</groupId>
<artifactId>hive-exec</artifactId>
<version>1.1.0</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-common</artifactId>
<version>2.5.0</version>
</dependency>
</dependencies>
<build>
<plugins>
<plugin>
<groupId>org.apache.maven.plugins</groupId>
<artifactId>maven-shade-plugin</artifactId>
<version>2.2</version>
<executions>
<execution>
<phase>package</phase>
<goals>
<goal>shade</goal>
</goals>
<configuration>
<filters>
<filter>
<artifact>*:*</artifact>
<excludes>
<exclude>META-INF/*.SF</exclude>
<exclude>META-INF/*.DSA</exclude>
<exclude>META-INF/*.RSA</exclude>
</excludes>
</filter>
</filters>
</configuration>
</execution>
</executions>
</plugin>
</plugins>
</build>
</project>
mvn编译并打包程序(要保证环境是在联网的情况下,需要下载第三方依赖库)
mvn compile
mvn package
程序打包成功之后,jar文件放于target目录下:(class文件在classes目录)
(3)HIVE中添加JAR包并创建UDF临时函数
(填写你自己的JAR包的路径)
add jar /home/soft/UDF/target/dateudf-1.0.jar;
创建临时函数:
create temporary function dateudf as 'zly.udf.UDFZodiacSign';
调用自定义UDF函数dateudf:
select name,bday,dateudf(bday) from littlebigdata;
可以看到,自定义UDF程序已经可以正确运行。
再次说明,UDF允许用户在HIVE语言中执行自定义的转换过程。通过上面的UDF,HIVE可以实现日期的一些处理了,当然也可以做其他的转换和聚合操作。
当我们使用完自定义UDF之后,可以通过下面的命令实现删除此函数:
drop temporary function if exists dateudf;
第一次编译运行UDF程序时,遇到了下面的问题:
程序编译和打包都可以成功,但是在HIVE中创建临时函数时,会报错:
经过度娘帮助,这个错误是因为在使用Maven打包的时候导致某些包的重复引用,以至于打包之后的META-INF的目录下多出了一些*.SF,*.DSA,*.RSA文件所致,我们可以在pom文件里面加入以下配置:
<configuration>
<filters>
<filter>
<artifact>*:*</artifact>
<excludes>
<exclude>META-INF/*.SF</exclude>
<exclude>META-INF/*.DSA</exclude>
<exclude>META-INF/*.RSA</exclude>
</excludes>
</filter>
</filters>
</configuration>
当然,你也可以将报错的jar包解压,然后删除META-INF的目录下的*.SF,*.DSA,*.RSA文件,然后再打包即可。