詳解spark sql使用者自定義函式:UDF與UDAF

阿新 • • 發佈：2019-01-14

場景

UDAF = USER DEFINED AGGREGATION FUNCTION

上一篇文章已經介紹了spark sql的視窗函式，並知道Spark sql提供了豐富的內建函式供猿友們使用，辣為何還要使用者自定義函式呢？實際的業務場景可能很複雜，內建函式hold不住，所以spark sql提供了可擴充套件的內建函式介面：哥們，你的業務太變態了，我滿足不了你，自己按照我的規範去定義一個sql函式，該怎麼折騰就怎麼折騰！
例如，MySQL 資料庫中有一張task表，共兩個欄位taskid （任務ID）與taskParam（JSON格式的任務請求引數）。簡單起見，這裡只列出一條記錄：

taskid 
  1
taskParam
 {"endAge":["50"],"endDate":["2016-06-21"],"startAge":["10"],"startDate":["2016-06-21"]}

假設應用程式已經讀取了mysql中這張表的記錄，並通過 DateFrame註冊成了一張臨時表 task。問題來了：怎麼獲取taskParam中startAge的第一個值呢？

sqlContext.sql("select taskid,getJsonFieldUDF(taskParm,'startAge')")

這個時候，我們就需要自定義一個UDF函數了，取名getJsonFieldUDF。

Java版本的程式碼大致如下：

package cool.pengych.sparker.product;
import org.apache.spark.sql.api.java.UDF2;
import com.alibaba.fastjson.JSONObject;
/**
 * 使用者自定義函式
 * @author pengyucheng
 */
public class GetJsonObjectUDF implements UDF2<String,String,String>
{
    /**
     * 獲取陣列型別json字串中某一欄位的值
     */
    @Override 

    public String call(String json, String field) throws Exception 
    {
        try
        {
            JSONObject jsonObject = JSONObject.parseObject(json);
            return jsonObject.getJSONArray(field).getString(0);
        }
        catch(Exception e)
        {
            e.printStackTrace();
        }
        return null;
    }
}

這樣的需求在實際專案中是很普遍的：請求引數經常以json格式儲存在資料庫中，，，完了，越寫越多。這裡還是先以Scala實現一個簡單的hello world級別的小樣為例，來體驗udf與udaf的使用好了。

問題

將如下陣列：

val bigData = Array("Spark","Hadoop","Flink","Spark","Hadoop","Flink",
"Spark","Hadoop","Flink","Spark","Hadoop","Flink")

中的字元分組聚合並計算出每個字元的長度及字元出現的個數。正常結果
如下：

+------+-----+------+
|  name|count|length|
+------+-----+------+
| Spark|    4|     5|
| Flink|    4|     5|
|Hadoop|    4|     6|
+------+-----+------+

注：‘spark’ 這個字元的長度為5 ，共出現了4次。

分析

自定義個一個求字串長度的函式
自定義的sql函式，與scala中的普通函式一樣，只不過在使用上前者需要先在sqlContext中進行註冊。
自定義一個聚合函式
按照字串名稱分組後，呼叫自定義的聚合函式實現累加。
啊，好抽象，直接看程式碼吧！

程式碼

package main.scala

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction
import org.apache.spark.sql.types.IntegerType
import org.apache.spark.sql.types.DataType
import org.apache.spark.sql.expressions.MutableAggregationBuffer

/**
 * Spark SQL UDAS：user defined aggregation function 
 * UDF: 函式的輸入是一條具體的資料記錄，實現上講就是普通的scala函式-只不過需要註冊
 * UDAF：使用者自定義的聚合函式，函式本身作用於資料集合，能夠在具體操作的基礎上進行自定義操作
 */
object SparkSQLUDF {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("SparkSQLWindowFunctionOps")
    val sc = new SparkContext(conf)

    val hiveContext = new SQLContext(sc)

    val bigData = Array("Spark","Hadoop","Flink","Spark","Hadoop","Flink","Spark","Hadoop","Flink","Spark","Hadoop","Flink")
    val bigDataRDD = sc.parallelize(bigData)

     val bigDataRowRDD = bigDataRDD.map(line => Row(line))
     val structType = StructType(Array(StructField("name",StringType,true)))
     val bigDataDF = hiveContext.createDataFrame(bigDataRowRDD, structType)

     bigDataDF.registerTempTable("bigDataTable")

    /*
     * 通過HiveContext註冊UDF，在scala2.10.x版本UDF函式最多可以接受22個輸入引數
     */
     hiveContext.udf.register("computeLength",(input:String) => input.length)
     hiveContext.sql("select name,computeLength(name)  as length from bigDataTable").show

     //while(true){}

     hiveContext.udf.register("wordCount",new MyUDAF)
     hiveContext.sql("select name,wordCount(name) as count,computeLength(name) as length from bigDataTable group by name ").show
  }
}

/**
 * 使用者自定義函式
 */
 class MyUDAF extends UserDefinedAggregateFunction
 {
  /**
   * 指定具體的輸入資料的型別
   * 自段名稱隨意：Users can choose names to identify the input arguments - 這裡可以是“name”，或者其他任意串
   */
  override def inputSchema:StructType = StructType(Array(StructField("name",StringType,true)))

  /**
   * 在進行聚合操作的時候所要處理的資料的中間結果型別
   */
  override def bufferSchema:StructType = StructType(Array(StructField("count",IntegerType,true)))

  /**
   * 返回型別
   */
  override def dataType:DataType = IntegerType

  /**
   * whether given the same input,
   * always return the same output
   * true: yes 
   */
  override def deterministic:Boolean = true

  /**
   * Initializes the given aggregation buffer
   */
  override def initialize(buffer:MutableAggregationBuffer):Unit = {buffer(0)=0}

  /**
   * 在進行聚合的時候，每當有新的值進來，對分組後的聚合如何進行計算
   * 本地的聚合操作，相當於Hadoop MapReduce模型中的Combiner
   */
  override def update(buffer:MutableAggregationBuffer,input:Row):Unit={
    buffer(0) = buffer.getInt(0)+1
  }

  /**
   * 最後在分散式節點進行local reduce完成後需要進行全域性級別的merge操作
   */
  override def merge(buffer1:MutableAggregationBuffer,buffer2:Row):Unit={
    buffer1(0) = buffer1.getInt(0)+buffer2.getInt(0)
  }

  /**
   * 返回UDAF最後的計算結果
   */
  override def evaluate(buffer:Row):Any = buffer.getInt(0)
}

執行結果

16/06/29 19:30:24 INFO DAGScheduler: ResultStage 5 (show at SparkSQLUDF.scala:48) finished in 1.625 s
+------+-----+------+
|  name|count|length|
+------+-----+------+
| Spark|    4|     5|
| Flink|    4|     5|
|Hadoop|    4|     6|
+------+-----+------+

16/06/29 19:30:24 INFO DAGScheduler: Job 3 finished: show at SparkSQLUDF.scala:48, took 1.717878 s

總結

呼叫spark大神升級udaf實現
為了自己實現一個sql聚合函式，我需要繼承UserDefinedAggregateFunction並實現8個抽象方法！8個方法啊！what’s a disaster ! 然而，要想在sql中完成符合特定業務場景的聚合類（a = aggregation）功能,就得udaf。
怎麼理解MutableAggregationBuffer呢？就是儲存中間結果的，聚合就意味著多條記錄的累加等操作。
udf與udaf註冊語法

 hiveContext.udf.register("computeLength",(input:String) => input.length)

 hiveContext.udf.register("wordCount",new MyUDAF)

詳解spark sql使用者自定義函式:UDF與UDAF

場景

問題

分析

程式碼

執行結果

總結

詳解spark sql使用者自定義函式:UDF與UDAF

SparkSQL之自定義函式UDF和UDAF

Hive自定義函式(UDF、UDAF)

Hive 使用者自定義函式UDF詳解

今晚8點直播 | 詳解基於百度自定義模板的OCR結果結構化處理技術

Juniper SSG5(bgroupx介面詳解及刪除bgroupx自定義）

T-SQL 語句——自定義函式

把IP字串轉化為數值格式的SQL Server自定義函式

spring詳解：通過FactoryBean自定義工廠初始化Bean

詳解RecyclerView+BGARefreshLayout實現自定義下拉重新整理、上拉載入和側滑刪除效果

SQL Server 自定義函式（Function）

Android事件傳遞機制詳解（巢狀自定義View示例）

Spark SQL 之自定義刪除外部表

hive 自定義函式UDF

hive中使用自定義函式(UDF)實現分析函式row_number的功能

spark三種清理資料的方式：UDF，自定義函式，spark.sql；Python中的zip()與zip()函式詳解//及python中的args和**kwargs

MySQL自定義函式用法詳解-複合結構自定義變數/流程控制

Spark機器學習自定義sql函式處理Vector型別

mysql自定義函式詳解

MySQL自定義函式用法詳解

詳解spark sql使用者自定義函式:UDF與UDAF

場景

問題

分析

程式碼

執行結果

總結

相關推薦