impala可以自定义函数吗，怎么做？_Hadoop

5条回答

那些年很冒险的梦。

2楼 · 2020-11-16 14:01

创建一个Maven工程Hive
2
自定义函数导入依赖
3
自定义函数创建一个类
4
打成jar包上传到服务器/opt/module/jars/udf.jar
5
将jar包上传到hdfs的指定目录
hadoop fs -put hive_udf-0.0.1-SNAPSHOT.jar /
6
创建自定义函数
7
使用自定义函数
8
通过show functions查看自定义的函数

浅浅77

3楼 · 2020-11-16 15:07

创建一个Maven工程Hive
自定义函数导入依赖
自定义函数创建一个类
打成jar包上传到服务器/opt/module/jars/udf.jar
将jar包上传到hdfs的指定目录
hadoop fs -put hive_udf-0.0.1-SNAPSHOT.jar /
创建自定义函数
使用自定义函数
通过show functions查看自定义的函数

小猪仔

4楼 · 2020-11-17 09:47

UDF实现要点：

根据集群中Hive的版本导入对应版本的hive-exec.jar
自定义UDF类要继承接口UDF
实现evaluate()方法

1、需要用到的依赖:


      
          org.apache.hive
          hive-exec
          1.1.0
      
1234567

2、自定义UDF类：

package com.atguigu.hive;
import org.apache.hadoop.hive.ql.exec.UDF;
public class Lower extends UDF {
  public String evaluate (String s) {
       if (s == null) {
          return null;
      }
        return s.toLowerCase();
  }
}12345678910

3、打成jar包上传到服务器/root/jars/ hive_udf-0.0.1-SNAPSHOT.jar
4、将jar包上传到hdfs的指定目录

hadoop fs -put hive_udf-0.0.1-SNAPSHOT.jar /impala_udf/1

5、注册函数

[hadoop103:21000] > create function mylower(string) returns string location 'hdfs://impala_udf/hive_udf-0.0.1-SNAPSHOT.jar' symbol='com.impala.udf.mylower_udf';1

6、使用自定义函数

[hadoop103:21000] > select ename, mylower(ename) from emp;1

7、通过show functions查看自定义的函数

[hadoop103:21000] > show functions;
 
Query: show functions
 
+-------------+-----------------+-------------+---------------+
 
| return type | signature       | binary type | is persistent |
+-------------+-----------------+-------------+---------------+
| STRING      | mylower(STRING) | JAVA        | false         |
 
+-------------+-----------------+-------------+---------------+

我的网名不再改

5楼 · 2020-11-21 21:55

UDF实现要点：

根据集群中Hive的版本导入对应版本的hive-exec.jar
自定义UDF类要继承接口UDF
实现evaluate()方法

1、需要用到的依赖:


      
          org.apache.hive
          hive-exec
          1.1.0
      
1234567

2、自定义UDF类：

package com.atguigu.hive;
import org.apache.hadoop.hive.ql.exec.UDF;
public class Lower extends UDF {
  public String evaluate (String s) {
       if (s == null) {
          return null;
      }
        return s.toLowerCase();
  }
}12345678910

3、打成jar包上传到服务器/root/jars/ hive_udf-0.0.1-SNAPSHOT.jar
4、将jar包上传到hdfs的指定目录

hadoop fs -put hive_udf-0.0.1-SNAPSHOT.jar /impala_udf/1

5、注册函数

[hadoop103:21000] > create function mylower(string) returns string location 'hdfs://impala_udf/hive_udf-0.0.1-SNAPSHOT.jar' symbol='com.impala.udf.mylower_udf';1

6、使用自定义函数

[hadoop103:21000] > select ename, mylower(ename) from emp;1

7、通过show functions查看自定义的函数

[hadoop103:21000] > show functions;
 
Query: show functions
 
+-------------+-----------------+-------------+---------------+
 
| return type | signature       | binary type | is persistent |
+-------------+-----------------+-------------+---------------+
| STRING      | mylower(STRING) | JAVA        | false         |
 
+-------------+-----------------+-------------+---------------+

乔治与佩奇

6楼 · 2021-12-20 17:12

1. 需求：统计impala 中字符串字符个数

前情：与hive 不同，impala 中的length ，char_Length 统计的是字符串中的字节个数，为了实现此需求使用自定义函数

问题关键点：正确计算，速度

关于统计字符数正确：原本以为直接通过入参的length 就行，但是结果获得到的还是字节个数，也是很迷（注明：impala 版本为cdh5.16中的2.12）

故写法如下：

package com.esen.spark;

import java.io.UnsupportedEncodingException;

import org.apache.hadoop.hive.ql.exec.UDF;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

public class Char_length extends UDF {

/**

* 如果返回值为 int时速度会更快

* @param regexstr

* @return

public IntWritable evaluate(Text regexstr) {

if(regexstr!=null) {

String str=null;

try {

str = new String(regexstr.getBytes(),"UTF-8");

} catch (UnsupportedEncodingException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

return new IntWritable(str.length());

}else {

return null;

}

//intWritable.set(str.toCharArray().length);

}

在此代码中的关键点有两个： 1，利用byte 数组创建java 中utf8 字符串 2.使用匿名byte 数组如果不使用匿名的数组，对于1.7亿数据而言，一个简单的select count(1) from a where charleng(b)>3 的时间在13分，使用匿名的函数时间则在10s

2.需求：实现与oracle 过滤方法相同的功能

oracle 过滤方法：

FUNCTION F_CHANGE_CHR(V_NAME VARCHAR2) RETURN VARCHAR2 IS

RESULT VARCHAR2(200);

BEGIN

RESULT := REGEXP_REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(REPLACE(TO_SINGLE_BYTE(V_NAME),

'（',

''),

'）',

''),

'(',

''),

')',

''),

CHR(9),

''),

CHR(13),

''),

'?',

''),

'？',

''),

'《',

''),

'》',

''),

'【',

''),

'】',

''),

'—',

''),

'·',

''),

' ',

''),

'.',

''),

',',

''),

'<<',

''),

'>>',

''),'[[:punct:]]');

RETURN RESULT;

END;

问题难点：

在oracle 中，正则 [[:punct:]] 是过滤所有特殊字符，但是在java 里面 \\p{Punct} 并不能达到相同效果，

impala 自定义函数最终实现：

// 实现全角转半角

// 写法说明：由于impala 版本较低的原因，在evaluate 的参数变为string，返回的结果不采用Text 进行转 //换的话，在impala 的查询结果为乱码，原因位置。但是后来我在impala 2.12 版本中并不会

public static Text evaluate(Text s) throws UnsupportedEncodingException {

if (s == null) {

return s;

} else {

Text result = new Text();

byte[] bs = s.getBytes();

String str = new String(bs, "UTF-8");

if (str.length() <= 0) {

return s;

} else {

char[] charArray = str.toCharArray();

//对全角字符转换的char数组遍历

for (int i = 0; i < charArray>

int charIntValue = (int) charArray[i];

//如果符合转换关系,将对应下标之间减掉偏移量65248;如果是空格的话,直接做转换

if (charIntValue >= 65281 && charIntValue <= 65374) {

charArray[i] = (char) (charIntValue - 65248);

} else if (charIntValue == 12288) {

charArray[i] = (char) 32;

}

result.set(new Text(new String(charArray)));

}

Text newchar=change_char(result);

return newchar;

}

// 字符过滤

public static Text change_char(Text regexstr){

Text returnstr=new Text();

String targetstr=regexstr.toString();

String target1= targetstr.

replaceAll("[[\\pP|\\pS]&&[^―]]","").

replaceAll("\\s*|\r|\t|\n","");

returnstr.set(new Text(target1));

return returnstr;

}

impala可以自定义函数吗，怎么做？

相关问题推荐

等你来答

热门问答

相关文章

impala可以自定义函数吗，怎么做？

相关问题推荐

等你来答

热门问答

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

付费偷看金额在0.1-10元之间