自己寫UDF函式匯入hive對查詢結果進行格式化顯示（Java）

阿新 • • 發佈：2018-12-23

本篇UDF函式使用IntelliJ IDEA進行編寫和打包，使用的是Java語言，資料使用上一篇部落格“HDFS、Hive（Impala）讀取本地檔案到HDFS，再使用Hive（Impala）從HDFS讀取檔案進行建表”中已經放入hive中的資料進行查詢展示。

建立一個maven專案，匯入依賴包

<!-- 根據Linux系統上安裝的的hadoop和hive版本，設定版本引數，不一定和我的一樣 -->
<!-- hadoop版本查詢 $ hadoop version -->
<!-- hive版本查詢需要進入安裝目錄進行檢視，我這裡的安裝目錄是/usr/lib/hive,安裝目錄下的lib資料夾下有一個hive-common-1.1.0-cdh5.4.3.jar, 1.1.0-cdh5.4.3 即為hive版本號 -->
    <properties>
        <hadoop.version>2.6.0-cdh5.4.3</hadoop.version>
        <hive.version>1.1.0-cdh5.4.3</hive.version>
    </properties>
    <repositories>
        <repository>
            <id>cloudera</id>
            <url>http://repository.cloudera.com/artifactory/cloudera-repos</url>
        </repository>
    </repositories>
    <dependencies>
        <!-- 新增依賴元件，根據上方配置的版本引數和repository知識庫下載依賴 -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hive</groupId>
            <artifactId>hive-exec</artifactId>
            <version>${hive.version}</version>
        </dependency>
        <!-- junit是java的單元測試框架 -->
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.10</version>
            <scope>test</scope>
        </dependency>
    </dependencies>

編寫class，UDF_Time.java（儘量和我寫得一樣，不然很可能無法實現）

package com.cheen;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;
public class UDF_Time extends UDF {

    public Text evaluate (Text t) {
        if (t == null) return null;
        if (Double.parseDouble(String.valueOf(t)) > 8){
            return new Text("高");
        } else {
            return new Text("低");
        }

    }
    public static void main(String [] args){
        System.out.println(new UDF_Time().evaluate(new Text("8.5")));
    }
}

完成後進行打包，點選IDEA的選單欄上面的View->Tool Windows->Maven Projects進行開啟工具右側的Maven Projects欄，在右側欄中展開專案名->Lifecycle->package,郵件點選package，選擇第一個選項“Run Maven Build”，工具就會自動進行打包，打包完成後會在地下出現打包完成的jar包存放位置，進入該目錄找到該jar包，上傳到你Linux系統中。

上傳到Linux中（將這個包放到hadoop安裝目錄下的lib裡面，方便管理），我這裡的安裝目錄是/usr/lib/hadoop/lib/，上面的hive-1.0-SNAPSHOT.jar檔案就放到這裡。

啟動hive。

$ hive

將上傳的jar包匯入到classpath變數裡

hive> add jar /usr/lib/hadoop/lib/hive-1.0-SNAPSHOT.jar;

檢視已經匯入的jar包

hive> list jars;

建立一個臨時函式，關聯該jar包

hive> create temporary function time_all as 'com.cheen.UDF_Time';

檢視建立的函式

hive> show functions like 'time*';

使用該函式進行查詢

hive> select name,time_all(sum(hours)),avg(hours),count(hours) from trainingrecord group by name;

查詢結果

至此已經完成了UDF函式的建立和使用。

補充一個hive中建立永久性函式的命令，建立一個cheen庫的永久函式time_all

hive> create function cheen.time_all as 'com.cheen.UDF_Time';

自己寫UDF函式匯入hive對查詢結果進行格式化顯示（Java）

自己寫UDF函式匯入hive對查詢結果進行格式化顯示（Java）

F() 表示式，這裡的F我理解是fast的意思，用它能節省讀寫資料庫的時間，在資料庫sql語言層面對欄位進行自增（+= 1）操作

自己寫個activex控制元件，如何知道他的classid（轉載）

實現模糊查詢時對特殊字元進行處理和對查詢結果進行處理

mongoose對查詢結果進行排序

pytroch如何對線性層進行池化（pooling）？Expected 3-dimensional tensor, but got 2-dimensional tensor for argument

二分查詢的兩種實現（Java）

（超詳細）在使用mybatis時遇到查詢結果返回為空（NULL）的情況，但是查資料庫能查到

如何用 Java 對 PDF 檔案進行電子簽章（一）概述及技術選型

如何用 Java 對 PDF 檔案進行電子簽章（四）如何生成PKCS12證書

在使用mybatis時遇到查詢結果返回為空（NULL）的情況，但是查資料庫能查到

【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（下）

【自然語言處理入門】03：利用線性迴歸對資料集進行分析預測（上）

減治法在查詢演算法中的應用（JAVA）--快速查詢

C++對dll連結庫的顯示（動態）呼叫和隱式（靜態）呼叫

自己寫UDF(Hive)

python中呼叫自己寫的函式

c++ 之自己寫庫函式（靜態庫）

分享一個自己寫的用python比對資料庫表資料的指令碼

針對mysql 用format函式對查詢結果保留小數點後幾位的坑

自己寫UDF函式匯入hive對查詢結果進行格式化顯示（Java）

相關推薦