Hive UDF开发-低调大师

Hive UDF开发

2017-11-13 534

HIVE允许用户使用UDF（user defined function）对数据进行处理。
用户可以使用‘show functions’ 查看function list，可以使用'describe function function-name'查看函数说明。

[plain] view plain copy

hive> show functions;
OK
!
!=
......
Time taken: 0.275 seconds
hive> desc function substr;
OK
substr(str, pos[, len]) - returns the substring of str that starts at pos and is of length len orsubstr(bin, pos[, len]) - returns the slice of byte array that starts at pos and is of length len
Time taken: 0.095 seconds

hive提供的build-in函数包括以下几类：
1. 关系操作符：包括 = 、 <> 、 <= 、>=等
2. 算数操作符：包括 + 、 - 、 *、／等
3. 逻辑操作符：包括AND 、 && 、 OR 、 || 等
4. 复杂类型构造函数：包括map、struct、create_union等
5. 复杂类型操作符：包括A[n]、Map[key]、S.x
6. 数学操作符：包括ln(double a)、sqrt(double a)等
7. 集合操作符：包括size(Array<T>)、sort_array(Array<T>)等
8. 类型转换函数： binary(string|binary)、cast(expr as <type>)
9. 日期函数：包括from_unixtime(bigint unixtime[, string format])、unix_timestamp()等
10.条件函数：包括if(boolean testCondition, T valueTrue, T valueFalseOrNull)等
11. 字符串函数：包括acat(string|binary A, string|binary B...)等
12. 其他：xpath、get_json_objectscii(string str)、con

编写Hive UDF有两种方式：
1. extends UDF ，重写evaluate方法
2. extends GenericUDF，重写initialize、getDisplayString、evaluate方法

编写UDF代码实例（更多例子参考https://svn.apache.org/repos/asf/hive/tags/release-0.8.1/ql/src/java/org/apache/hadoop/hive/ql/udf/）：
功能：大小转小写
ToLowerCase.java:

[plain] view plain copy

package test.udf;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
public class ToLowerCase extends UDF {
public Text evaluate(final Text s) {
if (s == null) { return null; }
return new Text(s.toString().toLowerCase());
}
}

功能：计算array中去重后元素个数
UDFArrayUniqElementNumber .java

[java] view plain copy

package test.udf;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.exec.UDFArgumentTypeException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDF;
import org.apache.hadoop.hive.serde2.objectinspector.ListObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorUtils;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector.Category;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import org.apache.hadoop.io.IntWritable;
/**
* UDF:
* Get nubmer of objects with duplicate elements eliminated
* @author xiaomin.zhou
*/
@Description(name = "array_uniq_element_number", value = "_FUNC_(array) - Returns nubmer of objects with duplicate elements eliminated.", extended = "Example:\n"
+ " > SELECT _FUNC_(array(1, 2, 2, 3, 3)) FROM src LIMIT 1;\n" + " 3")
public class UDFArrayUniqElementNumber extends GenericUDF {
private static final int ARRAY_IDX = 0;
private static final int ARG_COUNT = 1; // Number of arguments to this UDF
private static final String FUNC_NAME = "ARRAY_UNIQ_ELEMENT_NUMBER"; // External Name
private ListObjectInspector arrayOI;
private ObjectInspector arrayElementOI;
private final IntWritable result = new IntWritable(-1);
public ObjectInspector initialize(ObjectInspector[] arguments)
throws UDFArgumentException {
// Check if two arguments were passed
if (arguments.length != ARG_COUNT) {
throw new UDFArgumentException("The function " + FUNC_NAME
+ " accepts " + ARG_COUNT + " arguments.");
}
// Check if ARRAY_IDX argument is of category LIST
if (!arguments[ARRAY_IDX].getCategory().equals(Category.LIST)) {
throw new UDFArgumentTypeException(ARRAY_IDX, "\""
+ org.apache.hadoop.hive.serde.Constants.LIST_TYPE_NAME
+ "\" " + "expected at function ARRAY_CONTAINS, but "
+ "\"" + arguments[ARRAY_IDX].getTypeName() + "\" "
+ "is found");
}
arrayOI = (ListObjectInspector) arguments[ARRAY_IDX];
arrayElementOI = arrayOI.getListElementObjectInspector();
return PrimitiveObjectInspectorFactory.writableIntObjectInspector;
}
public IntWritable evaluate(DeferredObject[] arguments)
throws HiveException {
result.set(0);
Object array = arguments[ARRAY_IDX].get();
int arrayLength = arrayOI.getListLength(array);
if (arrayLength <= 1) {
result.set(arrayLength);
return result;
}
//element compare; Algorithm complexity: O(N^2)
int num = 1;
int i, j;
for(i = 1; i < arrayLength; i++)
{
Object listElement = arrayOI.getListElement(array, i);
for(j = i - 1; j >= 0; j--)
{
if (listElement != null) {
Object tmp = arrayOI.getListElement(array, j);
if (ObjectInspectorUtils.compare(tmp, arrayElementOI, listElement,
arrayElementOI) == 0) {
break;
}
}
}
if(-1 == j)
{
num++;
}
}
result.set(num);
return result;
}
public String getDisplayString(String[] children) {
assert (children.length == ARG_COUNT);
return "array_uniq_element_number(" + children[ARRAY_IDX]+ ")";
}
}

生成udf.jar

hive有三种方法使用自定义的UDF函数
1. 临时添加UDF
如下：

[plain] view plain copy

hive> select * from test;
OK
Hello
wORLD
ZXM
ljz
Time taken: 13.76 seconds
hive> add jar /home/work/udf.jar;
Added /home/work/udf.jar to class path
Added resource: /home/work/udf.jar
hive> create temporary function mytest as 'test.udf.ToLowerCase';
OK
Time taken: 0.103 seconds
hive> show functions;
......
mytest
......
hive> select mytest(test.name) from test;
......
OK
hello
world
zxm
ljz
Time taken: 38.218 seconds

这种方式在会话结束后，函数自动销毁，因此每次打开新的会话，都需要重新add jar并且create temporary function

2. 进入会话前自动创建
使用hive -i参数在进入hive时自动初始化

[plain] view plain copy

$ cat hive_init
add jar /home/work/udf.jar;
create temporary function mytest as 'test.udf.ToLowerCase';
$ hive -i hive_init
Logging initialized using configuration in file:/home/work/hive/hive-0.8.1/conf/hive-log4j.properties
Hive history file=/tmp/work/hive_job_log_work_201209200147_1951517527.txt
hive> show functions;
......
mytest
......
hive> select mytest(test.name) from test;
......
OK
hello
world
zxm
ljz

方法2和方法1本质上是相同的，区别在于方法2在会话初始化时自动完成

3. 自定义UDF注册为hive内置函数
可参考：hive利器自定义UDF+重编译hive

和前两者相比，第三种方式直接将用户的自定义函数作为注册为内置函数，未来使用起来非常简单，但这种方式也非常危险，一旦出错，将是灾难性的，因此，建议如果不是特别通用，并且固化下来的函数，还是使用前两种方式比较靠谱。

本文转自 yntmdr 51CTO博客，原文链接：http://blog.51cto.com/yntmdr/1716940，如需转载请自行联系原作者

微信关注我们

原文链接：https://yq.aliyun.com/articles/512175

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

Hadoop Hive概念学习系列之hive里的优化和高级功能（十四）

　在一些特定的业务场景下，使用hive默认的配置对数据进行分析，虽然默认的配置能够实现业务需求，但是分析效率可能会很低。 Hive有针对性地对不同的查询进行了优化。在Hive里可以通过修改配置的方式进行优化。以下，几种方式调优的属性。 1、列裁剪在通过Hive读取数据的时候，并不是所有的需求都要获取表内的所有的数据。有些只需要读取所有列中的几列，而忽略其他列的的数据。例如，表Table1包含5个列Column1、Column2、Column3、Column4、Column5。下面的语句只会在表Table1中读取Column1、Column2、Column5三列， Column3和Column4将被忽略。 SELECTColumn1,Column2 FROM Table1 WHEREColumn5<1000; 列裁剪的设置为hive.optimize.cp，默认为true。 2、分区裁剪在Hive中，可以根据多个维度对Hive表进行分区操作，且分区也可以多层嵌套。当有需要对目标表的某一个区域内的数据进行分析而不需要设计其他区域时，可以使用分区裁剪，将目标区域以条件的形式...

2017-11-14

577

介绍实现了一个简单的从实时日志文件监听，写入socket服务器，再接入Storm计算的一个流程。源码日志监听实时写入socket服务器 packagesocket;importjava.io.BufferedReader;importjava.io.File; importjava.io.IOException; importjava.io.InputStreamReader;importjava.io.PrintWriter;importjava.io.RandomAccessFile; importjava.net.Socket;importjava.util.concurrent.Executors; importjava.util.concurrent.ScheduledExecutorService; importjava.util.concurrent.TimeUnit; /* *监测数据，通过socket远程发送到另外服务器，见MyServerMulti *ClientRead再通过服务器从socket里读 * */ publicclassLogViewToSock...

2017-11-14

520

资源下载

更多资源

优质分享App

近一个月的开发和优化，本站点的第一个app全新上线。该app采用极致压缩，本体才4.36MB。系统里面做了大量数据访问、缓存优化。方便用户在手机上查看文章。后续会推出HarmonyOS的适配版本。

Mario

马里奥是站在游戏界顶峰的超人气多面角色。马里奥靠吃蘑菇成长，特征是大鼻子、头戴帽子、身穿背带裤，还留着胡子。与他的双胞胎兄弟路易基一起，长年担任任天堂的招牌角色。

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Hive UDF开发

Hadoop Hive概念学习系列之hive里的优化和高级功能（十四）

storm实时计算实例（socket实时接入)

相关文章

发表评论

资源下载

优质分享App

Mario

腾讯云软件源

Spring

欢迎您来访！