【Hive】(十二)Hive自定义函数详解(UDF、UDAF、UDTF)

简介: 【Hive】(十二)Hive自定义函数详解(UDF、UDAF、UDTF)

文章目录


前言

一、自定义函数


二、UDF:用户定义(普通)函数,只对单行数值产生作用

1.创建一个Maven工程Hive

2.导入依赖

3.创建一个类

4.打成jar包上传到服务器/opt/soft/data/udf.jar

5.将jar包添加到hive的classpath

6.创建临时函数与开发好的java class关联

7.即可在hql中使用自定义的函数


三、UDAF:User- Defined Aggregation Funcation 用户定义聚合函数,可对多行数据产生作用;等同与SQL中常用的SUM(),AVG(),也是聚合函数

四、UDTF:User-Defined Table-Generating Functions,用户定义表生成函数,用来解决输入一行输出多行


前言


在前面,我详细的整理了【Hive】(十一)Hive 内置函数集合,但有的时候面对复杂的业务场景,系统的内置函数难免力有不逮,这时候就是我们自定义函数派上用场的时候了!✌


一、自定义函数


1)Hive 自带了一些函数,比如:max/min等,但是数量有限,自己可以通过自定义UDF来方便的扩展。


2)当Hive提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function)。


3)根据用户自定义函数类别分为以下三种:


  • UDF(User-Defined-Function) 用户定义函数

一进一出


  • UDAF(User-Defined Aggregation Function) 用户定义聚集函数

聚集函数,多进一出

类似于:count/max/min


  • UDTF(User-Defined Table-Generating Functions)用户定义表生成函数

一进多出

如lateral view explore()


UDF 操作作用于单个数据行,并且产生一个数据行作为输出。大多数函数都属于这一类(比如数学函数和字符串函数)。


UDAF 接受多个输入数据行,并产生一个输出数据行。像COUNT和MAX这样的函数就是聚集函数。


UDTF 操作作用于单个数据行,并且产生多个数据行-------一个表作为输出。


简单来说:

UDF:返回对应值,一对一 | UDAF:返回聚类值,多对一 | UDTF:返回拆分值,一对多


二、UDF:用户定义(普通)函数,只对单行数值产生作用


1.创建一个Maven工程Hive


2.导入依赖

<!-- https://mvnrepository.com/artifact/org.apache.hive/hive-exec -->
    <dependency>
      <groupId>org.apache.hive</groupId>
      <artifactId>hive-exec</artifactId>
      <version>1.1.0</version>
    </dependency>

 

3.创建一个类


(1)继承org.apache.hadoop.hive.ql.UDF

(2)需要实现evaluate函数;evaluate函数支持重载

(3)在hive的命令行窗口创建函数

(4)在hive的命令行窗口删除函数


Drop [temporary] function [if exists] [dbname.]function_name

hive> drop temporary function iu;


示例如下:

package com.kgc.services.udf;
import org.apache.hadoop.hive.ql.exec.UDF;
/**
 * @author:Tokgo J
 * @date:2019/12/16
 * @aim:
 */
public class InitialUpper extends UDF {
    public String evaluate(final String txt){
        return txt.substring(0,1).toUpperCase()+txt.substring(1);
    }
}


4.打成jar包上传到服务器/opt/soft/data/udf.jar


5.将jar包添加到hive的classpath


添加jar

add jar linux_jar_path

hive> add jar /opt/soft/data/fun.jar;
Added [/opt/soft/data/fun.jar] to class path
Added resources: [/opt/soft/data/fun.jar]


6.创建临时函数与开发好的java class关联


创建function

create [temporary] function [dbname.]function_name AS class_name
hive> create temporary function iu as 'com.kgc.services.udf.InitialUpper';


7.即可在hql中使用自定义的函数

hive> select iu(name) from mtest;


三、UDAF:User- Defined Aggregation Funcation 用户定义聚合函数,可对多行数据产生作用;等同与SQL中常用的SUM(),AVG(),也是聚合函数


UDAF实现有简单与通用两种方式:


a. 简单UDAF因为使用Java反射导致性能损失,而且有些特性不能使用,已经被弃用了;


View Code


b. 另一种涉及两个类:AbstractGenericUDAFResolver、GenericUDAFEvaluator;


继承UDAFResolver类,重写 getEvaluator() 方法;


继承GenericUDAFEvaluator类,生成实例给getEvaluator();


在GenericUDAFEvaluator类中,重写init()、iterate()、terminatePartial()、merge()、terminate()方法

package com.kgc.services.udaf;
import org.apache.hadoop.hive.ql.exec.UDAF;
import org.apache.hadoop.hive.ql.exec.UDAFEvaluator;
/**
 * @author:Tokgo J
 * @date:2019/12/17
 * @aim:将用户名连成一行 多进一出 依靠内部类进行加工
 *
 */
public class LinkStr extends UDAF {
    private static String result = "";
    public static class  MyLink implements UDAFEvaluator{
        @Override
        public void init() {
        }
        // 聚合工作,写业务逻辑  一部分map的功能 
        public boolean iterate(String name){
            result = result.concat(name);
            return true;
        }
        // 一部分mapper作用,大部分是combiner作用 分组 分割
        public String terminatePartial(){
            return result;
        }
        // partition
        public boolean merge(String name){
            return iterate(name);
        }
  // reduce 的一部分功能
        public String terminate(){
            return result;
        }
    }
}


四、UDTF:User-Defined Table-Generating Functions,用户定义表生成函数,用来解决输入一行输出多行


继承GenericUDTF类,重写initialize(返回输出行信息:列个数,类型), process, close三方法

package com.kgc.services.udtf;
import org.apache.hadoop.hive.ql.exec.UDFArgumentException;
import org.apache.hadoop.hive.ql.metadata.HiveException;
import org.apache.hadoop.hive.ql.udf.generic.GenericUDTF;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.ObjectInspectorFactory;
import org.apache.hadoop.hive.serde2.objectinspector.StructObjectInspector;
import org.apache.hadoop.hive.serde2.objectinspector.primitive.PrimitiveObjectInspectorFactory;
import java.util.ArrayList;
/**
 * @author:Tokgo J
 * @date:2019/12/17
 * @aim:一对多
 */
public class SplitMap extends GenericUDTF {
    // 产生语句翻译后的表结构
    @Override
    public StructObjectInspector initialize(ObjectInspector[] argOIs) throws UDFArgumentException {
        ArrayList<String> columns = new ArrayList<String>();
        ArrayList<ObjectInspector> colTypes = new ArrayList<ObjectInspector>();
        // 第一列字段名
        columns.add("col1");
        // 第一列结构类型
        colTypes.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
        columns.add("col2");
        colTypes.add(PrimitiveObjectInspectorFactory.javaStringObjectInspector);
        return ObjectInspectorFactory.getStandardStructObjectInspector(columns,colTypes);
    }
    @Override
    public void process(Object[] objects) throws HiveException {
        String[] datas = objects[0].toString().split(";");  // [“name:zs”,"age:40"]
        String[] res = new String[2];
        res[0] = datas[0].split(":")[1];
        res[1] = datas[1].split(":")[1];
        // 一行一个forward()
        forward(res);  //把写好的数据上传到上一个表结构
    }
    @Override
    public void close() throws HiveException {
    }
}



目录
相关文章
|
6月前
|
SQL 存储 Java
Hive UDF UDTF UDAF 自定义函数详解
Hive UDF UDTF UDAF 自定义函数详解
122 2
Hive UDF UDTF UDAF 自定义函数详解
|
2月前
|
SQL JavaScript 前端开发
Hive根据用户自定义函数、reflect函数和窗口分析函数
Hive根据用户自定义函数、reflect函数和窗口分析函数
35 6
|
6月前
|
SQL 缓存 Java
Hive 之 UDF 运用(包会的)
Hive的UDF允许用户自定义数据处理函数,扩展其功能。`reflect()`函数通过Java反射调用JDK中的方法,如静态或实例方法。例如,调用`MathUtils.addNumbers()`进行加法运算。要创建自定义UDF,可以继承`GenericUDF`,实现`initialize`、`evaluate`和`getDisplayString`方法。在`initialize`中检查参数类型,在`evaluate`中执行业务逻辑。最后,打包项目成JAR,上传到HDFS,并在Hive中注册以供使用。
156 2
|
6月前
|
SQL Java HIVE
Hive高频面试题之UDTF实现多行输出
Hive高频面试题之UDTF实现多行输出
54 0
|
6月前
|
SQL Java 程序员
Hive反射函数的使用-程序员是怎么学UDF函数的
Hive反射函数的使用-程序员是怎么学UDF函数的
42 0
|
6月前
|
SQL 数据采集 数据挖掘
大数据行业应用之Hive数据分析航班线路相关的各项指标
大数据行业应用之Hive数据分析航班线路相关的各项指标
192 1
|
6月前
|
SQL 存储 大数据
【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示(附SQL语句)
【大数据技术Hadoop+Spark】Hive基础SQL语法DDL、DML、DQL讲解及演示(附SQL语句)
255 0
|
6月前
|
SQL 分布式计算 数据库
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
【大数据技术Spark】Spark SQL操作Dataframe、读写MySQL、Hive数据库实战(附源码)
261 0
|
1月前
|
SQL 分布式计算 Java
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
大数据-96 Spark 集群 SparkSQL Scala编写SQL操作SparkSQL的数据源:JSON、CSV、JDBC、Hive
37 0
|
4月前
|
SQL 分布式计算 大数据
大数据处理平台Hive详解
【7月更文挑战第15天】Hive作为基于Hadoop的数据仓库工具,在大数据处理和分析领域发挥着重要作用。通过提供类SQL的查询语言,Hive降低了数据处理的门槛,使得具有SQL背景的开发者可以轻松地处理大规模数据。然而,Hive也存在查询延迟高、表达能力有限等缺点,需要在实际应用中根据具体场景和需求进行选择和优化。