hive常见自定义函数

2020-05-25 649

　　hive常见自定义函数先来讲一下hive自定义函数
1.1 为什么需要自定义函数
hive的内置函数满足不了所有的业务需求。hive提供很多的模块可以自定义功能，比如：自定义函数、serde、输入输出格式等。
1.2 常见自定义函数有哪些
.UDF：用户自定义函数，user defined function。一对一的输入输出。（最常用的）。
.UDTF：用户自定义表生成函数。user defined table-generate function.一对多的输入输出。lateral view explode
.UDAF：用户自定义聚合函数。user defined aggregate function。多对一的输入输出 count sum max。
2 自定义函数实现
2.1 UDF格式
先在工程下新建一个pom.xml,加入以下maven的依赖包请查看code/pom.xml
定义UDF函数要注意下面几点:
.继承org.apache.hadoop.hive.ql.exec.UDF
.重写evaluate()，这个方法不是由接口定义的,因为它可接受的参数的个数,数据类型都是不确定的。Hive会检查UDF,看能否找到和函数调用相匹配的evaluate()方法
2.1.1 自定义函数第一个案例
public class FirstUDF extends UDF {

public String evaluate(String str){
    String upper = null;
    //1、检查输入参数        if (StringUtils.isEmpty(str)){
    } else {
        upper = str.toUpperCase();
    }
    return upper;
}
//调试自定义函数    public static void main(String[] args){
    System.out.println(new firstUDF().evaluate("jiajingwen"));
}}

2.2 函数加载方式
2.2.1 命令加载
这种加载只对本session有效

1、将编写的udf的jar包上传到服务器上，并且将jar包添加到hive的class path中

进入到hive客户端,执行下面命令

add jar /hivedata/udf.jar

2、创建一个临时函数名,要跟上面hive在同一个session里面：

create temporary function toUP as 'com.qf.hive.FirstUDF';

3、检查函数是否创建成功
show functions;

测试功能
toUp('abcdef');

删除函数
temporary function if exists tolow;

2.2.2 启动参数加载
(也是在本session有效，临时函数)
1、将编写的udf的jar包上传到服务器上
2、创建配置文件
vi ./hive-init
add jar /hivedata/udf.jar;
create temporary function toup as 'com.qf.hive.FirstUDF';

3、启动hive的时候带上初始化文件：

hive -i ./hive-init
select toup('abcdef')
2.2.3 配置文件加载
通过配置文件方式这种只要用hive命令行启动都会加载函数
1、将编写的udf的jar包上传到服务器上
2、在hive的安装目录的bin目录下创建一个配置文件，文件名：.hiverc
vi ./bin/.hiverc
add jar /hivedata/udf.jar;
create temporary function toup as 'com.qf.hive.FirstUDF';
3、启动hive
hive
2.3 UDTF格式
UDTF是一对多的输入输出,实现UDTF需要完成下面步骤
.继承org.apache.hadoop.hive.ql.udf.generic.GenericUDF，
.重写initlizer（）、getdisplay（）、evaluate()。
执行流程如下:
UDTF首先会调用initialize方法，此方法返回UDTF的返回行的信息（返回个数，类型）。
初始化完成后，会调用process方法,真正的处理过程在process函数中，在process中，每一次forward()调用产生一行；如果产生多列可以将多个列的值放在一个数组中，然后将该数组传入到forward()函数。
最后close()方法调用，对需要清理的方法进行清理。
2.3.1 需求:
把"k1:v1;k2:v2;k3:v3"类似的的字符串解析成每一行多行,每一行按照key:value格式输出
2.3.2 源码
自定义函数如下:
package com.qf.hive;
public class ParseMapUDTF extends GenericUDTF{

 @Override
 public void close() throws HiveException {
 }
 @Override
 public StructObjectInspector initialize(ObjectInspector[] args)
         throws UDFArgumentException {
     if (args.length != 1) {
         throw new UDFArgumentLengthException(" 只能传入一个参数");
     }
     ArrayList<String> fieldNameList = new ArrayList<String>();
     ArrayList<ObjectInspector> fieldOIs = new ArrayList<ObjectInspector>();
     fieldNameList.add("map");
     fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
     fieldNameList.add("key");
     fieldOIs.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
     return ObjectInspectorFactory.getStandardStructObjectInspector(fieldNameList,fieldOIs);
 }
 @Override
 public void process(Object[] args) throws HiveException {
     String input = args[0].toString();
     String[] paramString = input.split(";");
     for(int i=0; i<paramString.length; i++) {
         try {
             String[] result = paramString[i].split(":");
             forward(result);
         } catch (Exception e) {
             continue;
         }
     }
 }

}
2.3.3 打包加载
对上述命令源文件打包为udf.jar,拷贝到服务器的/hivedata/目录
在Hive客户端把udf.jar加入到hive中,如下:
add jar /hivedata/udf.jar;
2.3.4 创建临时函数:
在Hive客户端创建函数:
create temporary function parseMap as 'com.qf.hive.ParseMapUDTF'; # 创建一个临时函数parseMap# 查看函数是否加入show functions ;
2.3.5 测试临时函数
select parseMap("name:zhang;age:30;address:shenzhen")
结果如下:

map key

name zhang
age 30
address shenzhen
2.4 UDAF格式
用户自定义聚合函数。user defined aggregate function。多对一的输入输出 count sum max。定义一个UDAF需要如下步骤:
.UDF自定义函数必须是org.apache.hadoop.hive.ql.exec.UDAF的子类,并且包含一个火哥多个嵌套的的实现了org.apache.hadoop.hive.ql.exec.UDAFEvaluator的静态类。
.函数类需要继承UDAF类，内部类Evaluator实UDAFEvaluator接口。
.Evaluator需要实现 init、iterate、terminatePartial、merge、terminate这几个函
这几个函数作用如下:
函数说明init实现接口UDAFEvaluator的init函数iterate每次对一个新值进行聚集计算都会调用,计算函数要根据计算的结果更新其内部状态terminatePartial无参数，其为iterate函数轮转结束后，返回轮转数据merge接收terminatePartial的返回结果，进行数据merge操作，其返回类型为boolean。terminate返回最终的聚集函数结果。
2.4.1 需求
计算一组整数的最大值
2.4.2 代码
package com.qf.hive;public class MaxValueUDAF extends UDAF {

public static class MaximumIntUDAFEvaluator implements UDAFEvaluator {
    private IntWritable result;
    public void init() {
        result = null;
    }
    public boolean iterate(IntWritable value) {
        if (value == null) {
            return true;
        }
        if (result == null) {
            result = new IntWritable( value.get() );
        } else {
            result.set( Math.max( result.get(), value.get() ) );
        }
        return true;
    }
    public IntWritable terminatePartial() {
        return result;
    }
    public boolean merge(IntWritable other) {
        return iterate( other );
    }
    public IntWritable terminate() {
        return result;
    }
}}

2.4.3 打包加载
对上述命令源文件打包为udf.jar,拷贝到服务器的/hivedata/目录
在Hive客户端把udf.jar加入到hive中,如下:
add jar /hivedata/udf.jar;
2.4.4 创建临时函数:
在Hive客户端创建函数:
create temporary function maxInt as 'com.qf.hive.MaxValueUDAF';# 查看函数是否加入show functions ;
2.3.5 测试临时函数
select maxInt(mgr) from emp
结果如下:

结果

7902

微信关注我们

原文链接：https://yq.aliyun.com/articles/762428

转载内容版权归作者及来源网站所有！

低调大师中文资讯倾力打造互联网数据资讯、行业资源、电子商务、移动互联网、网络营销平台。持续更新报道IT业界、互联网、市场资讯、驱动更新,是最及时权威的产业资讯及硬件资讯报道平台。

hive存储过程

hive存储过程，1、hive存储过程简介1.x版本的hive中没有提供类似存储过程的功能，使用Hive做数据开发时候，一般是将一段一段的HQL语句封装在Shell或者其他脚本中，然后以命令行的方式调用，完成一个业务或者一张报表的统计分析。好消息是，现在已经有了Hive存储过程的解决方案（HPL/SQL –Procedural SQL on hadoop），并且在未来的Hive的版本（2.0）中，会将该模块集成进来。该解决方案不仅支持Hive，还支持在SparkSQL，其他NoSQL，甚至是RDBMS中使用类似于Oracle PL/SQL的功能，这将极大的方便数据开发者的工作，Hive中很多之前比较难实现的功能，现在可以很方便的实现，比如自定义变量、基于一个结果集的游标、循环等等。 2、hplsql安装和存储过程案例下载：官网下载地址：http://www.hplsql.org/download 0.3.31版本下载地址：http://www.hplsql.org/downloads/hplsql-0.3.31.tar.gz 安装hplsql： [root@hadoop01 home...

2020-05-25

702

Hive是一种建立在Hadoop文件系统上的数据仓库架构，并对存储在HDFS中的数据进行分析和管理；本文通过一个简单的示例来展现如何结合OSS+EMR+Hive来分析OSS上的数据。前提条件 • 已注册阿里云账号，详情请参见注册云账号。• 已开通E-MapReduce服务和OSS服务。• 已完成云账号的授权，详情请参见角色授权。• 已创建Haoop集群，且带有Hive组件, 且配置好OSS数据源。步骤一：上传数据至OSS hadoop fs -put course.csv oss://your-bucket-name/ 步骤二：创建Hive作业开发页面步骤三：SQL 实现创建数据表 CREATE TABLE course (num INT, subject string, level string) row format delimited fields terminated by "," location "/"; 导入数据 LOAD DATA INPATH 'oss：//your-bucket-name/course.csv' INTO TABLE course; 查询语句...

2020-05-25

1023

资源下载

更多资源

腾讯云软件源

为解决软件依赖安装时官方源访问速度慢的问题，腾讯云为一些软件搭建了缓存服务。您可以通过使用腾讯云软件源站来提升依赖包的安装速度。为了方便用户自由搭建服务架构，目前腾讯云软件源站支持公网访问和内网访问。

Nacos

Nacos /nɑ:kəʊs/ 是 Dynamic Naming and Configuration Service 的首字母简称，一个易于构建 AI Agent 应用的动态服务发现、配置管理和AI智能体管理平台。Nacos 致力于帮助您发现、配置和管理微服务及AI智能体应用。Nacos 提供了一组简单易用的特性集，帮助您快速实现动态服务发现、服务配置、服务元数据、流量管理。Nacos 帮助您更敏捷和容易地构建、交付和管理微服务平台。

Spring

Spring框架（Spring Framework）是由Rod Johnson于2002年提出的开源Java企业级应用框架，旨在通过使用JavaBean替代传统EJB实现方式降低企业级编程开发的复杂性。该框架基于简单性、可测试性和松耦合性设计理念，提供核心容器、应用上下文、数据访问集成等模块，支持整合Hibernate、Struts等第三方框架，其适用范围不仅限于服务器端开发，绝大多数Java应用均可从中受益。

Sublime Text

Sublime Text具有漂亮的用户界面和强大的功能，例如代码缩略图，Python的插件，代码段等。还可自定义键绑定，菜单和工具栏。Sublime Text 的主要功能包括：拼写检查，书签，完整的 Python API ， Goto 功能，即时项目切换，多选择，多窗口等等。Sublime Text 是一个跨平台的编辑器，同时支持Windows、Linux、Mac OS X等操作系统。