Hive自定義函式（UDF）的編寫及使用

阿新 • • 發佈：2019-01-08

前提條件：

1. 安裝好hadoop2.7.3（LInux環境下）

2. 安裝好Hive2.3.3，參考：Hive的安裝配置

3. 安裝好Maven（Windows環境下）參考：Maven安裝

4. 安裝好eclipse（Windows環境下）

Hive自定義函式（UDF），UDF是user-defined function的簡寫。雖然Hive內建了許多函式供使用，但有時還是滿足不了我們實際專案開發的需求，可通過編寫自定義函式滿足這一需求。

該如何編寫和使用Hive的自定義函式呢？

1.建立Maven工程：myhive

2.編輯pom.xml,在</dependencies>之前新增如下語句：

<dependency>
    <groupId>org.apache.hive</groupId>
    <artifactId>hive-exec</artifactId>
    <version>2.3.3</version>
</dependency>

<dependency>
    <groupId>org.apache.hadoop</groupId>
    <artifactId>hadoop-common</artifactId>
    <version>2.7.3</version>
</dependency>

3.新建自定義函式類

MyConcatString.java

4.編寫程式碼：

package com.myhive;

import org.apache.hadoop.hive.ql.exec.UDF;

public class MyConcatString extends UDF{

	//必須重寫一個方法，方法的名字必須叫：evaluate
	public String evaluate(String a,String b){
		return a+"*******"+b;
	}
}

5.打包工程：

複製工程所在路徑：右鍵工程-->Properties-->Resource-->找到location，複製E:\EclipsePro\Hive\myhive

在cmd下切換到工程所在目錄：

切換到E盤：>e:

e:

切換到工程目錄：> cd E:\EclipsePro\Hive\myhive

cd E:\EclipsePro\Hive\myhive

執行打包命令：

mvn clean package

打包成功出現如下圖：

6.上傳打包生產的jar檔案到Linux目錄下

這裡使用winscp工具上傳：

Linux的ls命令檢視已上傳成功，如下圖：

$ ls

7. 進入hive命令列

$ hive

8. 新增自定義函式的jar檔案到hive的類路徑：

hive> add jar /home/hadoop/jarfile/myhive-0.0.1-SNAPSHOT.jar;

9. 使用使用者自定義的函式建立一個臨時函式：

hive> create temporary function myconcat as 'com.myhive.MyConcatString';

10. 測試資料準備：

建立一張hive託管表t1表：

hive> create table t1(ename string, mgr string) row format delimited fields terminated by ',';

開啟一個新的終端，在Linux系統下新建一個test.txt檔案

$ nano test.txt

$ nano test.txt

填入以下內容：

hello,word
hello,hadoop
hello,hive

儲存，退出。

回到hive命令列，將test.txt的內容載入到輸入t1表：

hive> load data local inpath '/home/hadoop/jarfile/test.txt' into table t1;

注意：/home/hadoop/jarfile/test.txt為test.txt的絕對路徑，需要根據實際情況修改。

檢視t1表內容：

hive> select * from t1;

輸出內容如下：

OK
hello   word
hello   hadoop
hello   hive
Time taken: 4.614 seconds, Fetched: 3 row(s)

11. 使用Hive自定義函式：

hive> select myconcat(ename,mgr) from t1;

輸出內容如下：

OK
hello*******word
hello*******hadoop
hello*******hive
Time taken: 1.661 seconds, Fetched: 3 row(s)
hive>

如上輸出了用******來拼接兩個字串，說明已經成功編輯及使用了Hive自定義函式。

完成！ enjoy it!

Hive自定義函式（UDF）的編寫及使用

前提條件： 1. 安裝好hadoop2.7.3（LInux環境下） 2. 安裝好Hive2.3.3，參考：Hive的安裝配置 3. 安裝好Maven（Windows環境下）參考：Maven安裝 4. 安裝好eclipse（Windows環境下） Hive自定義函

xlwings：使用者自定義函式（UDF），VBA函式，Python函式

VBA定義函式計算 x + y如果用巨集，要把（把返回值寫到哪個單元格里的）程式碼寫到巨集裡面。VBA函式就不用Function MyAddTwoNumber(x As Double, y As Double) Dim z z = x + y

Pig使用者自定義函式（UDF）

我們以氣溫統計和詞頻統計為例，講解以下三種使用者自定義函式。使用者自定義函式什麼時候需要使用者自定義函式呢？和其它語言一樣，當你希望簡化程式結構或者需要重用程式程式碼時，函式就是你不二選擇。 Pig的使用者自定義函式可以用Java編寫，但是也可以用Python或Java

Impala使用者自定義函式（UDF）

因業務需要用到MD5，但Impala沒有該函式，隨藉助UDF實現。以下是實現過程。UDF實現要點：根據叢集中Hive的版本匯入對應版本的hive-exec.jar自定義UDF類要繼承介面UDF實現eva

SparkSQL 使用者自定義函式（UDF、UDAF、開窗）

UDF：操作單個數據行，產生單個數據行； UDAF：操作多個數據行，產生一個數據行。 UDTF：操作一個數據行，產生多個數據行一個表作為輸出。 UDF函式通過spark.udf.register(“funcName”, func) 來進行註冊使用：se

MySql建立自定義函式（Function）

1.建立自定義函式 DELIMITER $$ DROP FUNCTION IF EXISTS genPerson$$ CREATE FUNCTION genPerson(name varchar(20)) RETURNS varchar(50) BEGIN DECLAR

MYSQL自定義函式（五）

建立自定義函式 CREATE FUNCTION function_name(param1, param2) RETURNS 返回值型別{STRING|INTEGER|REAL|DECIMAL} routine_body - 函式體 CREATE FUN

Python列表操作自定義函式（二）

<span style="font-size:14px;"># -*- coding: cp936 -*- #list函式形參傳遞 s = "www.baidu.com" print s li1 = list(s) print 'li1',li1 #定義一個函

mysql 自定義函式（1）建立一個簡單函式

1、先建立一個無參的自定義函式： -- 如果有這個函式，就刪除 drop function if exists hello; -- 建立一個無參的函式 create function hello (

SQL Server 自定義函式（Function）

sql server 自定義函式分為三種類型：標量函式（Scalar Function）、內嵌表值函式（Inline Function）、多宣告表值函式（Multi-Statement Function）標量函式：標量函式是對單一值操作，返回單一值。內嵌表值函式：

SparkSQL建立RDD：UDF（UserDataFrame）使用者建立自定義函式（包含動態建立schema，使用者自定義函式，查詢字元的個數）【Java版純程式碼】

Java版程式碼： package com.bjsxt; import java.util.ArrayList; import java.util.Arrays; import java.util.List; import org.apache.spark.Spark

除錯經驗——如何檢視Oracle自定義函式（How to view definition of user defined functions in Oracle）

問題描述：現有的Query中似乎使用了一個自定義函式String_to_list，為了排查問題，需要檢視這個函式的定義。方法： --新建的function，並未儲存在All_ojbects表中，而是儲存在user_objects表中 SELECT * FRO

hive 自定義函式UDF

1. 在Hive中給我們內建了很多函式進入hive客戶端，檢視hive內建函式： hive > show functions; OK ! != % & * + - / < <= <=> <> = == > &g

Hive：自定義函式之UDF，UDAF和UDTF

hive允許使用者使用自定義函式解決hive 自帶函式無法處理的邏輯。hive自定義函式只在當前執行緒內臨時有效，可以使用shell指令碼呼叫執行hive命令。 UDF 輸入一行資料輸出一行資料。解決問題描述想要比較兩個逗號分隔的字串是否相同。 -使用方法如果

SparkSQL自定義函式（實現幾何平均數）

SparkSQL-自定義聚合函式（實現幾何平均數） ->建立SparkSessionparkSession ->建立自定義函式 -1、繼承UserDefinedAggregateFunction

Keras之自定義損失（loss）函式

在Keras中可以自定義損失函式，在自定義損失函式的過程中需要注意的一點是，損失函式的引數形式，這一點在Keras中是固定的，須如下形式： def my_loss(y_true, y_pred): # y_true: True labels. TensorFlow/The

DB2自定義函式（C語言）

1 總體介紹基於DB2 V9.5 1.1 使用者自定義函式（UDF） DB2 內部提供了大量的函式，但仍然不足以滿足業務千奇百怪的需要。不過DB2提供了使用者自定義函式（User Defined Function，簡稱 UDF）功能。DB29.5版本的自定

儲存過程與使用者自定義函式（SQL SERVER）

聯絡二者本質上沒有什麼區別。當儲存過程和函式被執行的時候，SQL Manager會到procedure cache中去取相應的查詢語句，如果在procedure cache裡沒有相應的查詢語句，SQL Manager就會對儲存過程和函式進行編譯。Pr

sqlserver自定義函式（標量值函式，表值函式）

在sqlserver中，根據函式返回值形式的不同將使用者自定義的函式分為”標量值函式“和”表值函式“兩種型別。如下圖所示，可以在資料庫中的可程式設計->函式中進行檢視。標量函式，返回單個值，表值函式返回表資料 1.標量值函式標量值函式返回一個確定型別的標量值，其

sqlserver,一個自定義函式（提取字串中的數值，包含0-9和‘.’）

GO ALTER FUNCTION [dbo].[clear_num](@s VARCHAR(100)) RETURNs VARCHAR(100) as BEGIN WHILE PATINDEX('%[^0-9.]%', @s)>=1 BEGIN set @s=

Hive自定義函式（UDF）的編寫及使用

前提條件：

Hive自定義函式（UDF），UDF是user-defined function的簡寫。雖然Hive內建了許多函式供使用，但有時還是滿足不了我們實際專案開發的需求，可通過編寫自定義函式滿足這一需求。

該如何編寫和使用Hive的自定義函式呢？

相關推薦