SparkSQL 如何自定義函式

1. SparkSql如何自定義函式

2. 示例：Average

3. 型別安全的自定義函式

1. SparkSql如何自定義函式？

　　spark中我們定義一個函式，需要繼承 UserDefinedAggregateFunction這個抽象類，實現這個抽象類中所定義的方法，這是一個模板設計模式？我只要實現抽象類的中方法，具體的所有的計算步驟由內部完成。而我們可以看一下UserDefinedAggregateFunction這個抽象類。

package org.apache.spark.sql.expressions

@org.apache.spark.annotation.InterfaceStability.Stable
 

abstract class UserDefinedAggregateFunction() extends scala.AnyRef with scala.Serializable {
  def inputSchema : org.apache.spark.sql.types.StructType
  def bufferSchema : org.apache.spark.sql.types.StructType
  def dataType : org.apache.spark.sql.types.DataType
  def deterministic : scala.Boolean
  def initialize(buffer : org.apache.spark.sql.expressions.MutableAggregationBuffer) : scala.Unit
  def update(buffer : org.apache.spark.sql.expressions.MutableAggregationBuffer, input : org.apache.spark.sql.Row) : scala.Unit
  def merge(buffer1 : org.apache.spark.sql.expressions.MutableAggregationBuffer, buffer2 : org.apache.spark.sql.Row) : scala.Unit
  def evaluate(buffer : org.apache.spark.sql.Row) : scala.Any
  @scala.annotation.varargs
  def apply(exprs : org.apache.spark.sql.Column*) : org.apache.spark.sql.Column = { /* compiled code */ }
  @scala.annotation.varargs
  def distinct(exprs : org.apache.spark.sql.Column*) : org.apache.spark.sql.Column = { /* compiled code */ }
}

　　也就是說對於這幾個函式，我們只要依次實現他們的功能，其餘的交給spark就可以了。

2. 自定義Average函式

　　首先新建一個Object類MyAvage類，繼承UserDefinedAggregateFunction。下面對每一個函式的實現進行解釋。

  def inputSchema: StructType = StructType(StructField("inputColumn", LongType) :: Nil)

　　這個規定了輸入資料的資料結構

def bufferSchema: StructType = {
    StructType(StructField("sum", LongType) :: StructField("count", LongType) :: Nil)
  }

　　這個規定了快取區的資料結構

  def dataType: DataType = DoubleType

　　這個規定了返回值的資料型別

def deterministic: Boolean = true
def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = 0L
    buffer(1) = 0L
  }

進行初始化，這裡要說明一下，官網中提到：

// Initializes the given aggregation buffer. The buffer itself is a `Row` that in addition to
  // standard methods like retrieving a value at an index (e.g., get(), getBoolean()), provides
  // the opportunity to update its values. Note that arrays and maps inside the buffer are still
  // immutable.

這裡翻譯一下：

我們為我們的緩衝區設定初始值，我們不僅可以設定數字，還可以使用index getBoolen等去改變他的值，但是我們需要知道的是，在這個緩衝區中，陣列和map依然是不可變的。

其實最後一句我也是不太明白，等我以後如果能研究並理解這句話，再回來補充吧。

def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    if (!input.isNullAt(0)) {
      buffer(0) = buffer.getLong(0) + input.getLong(0)
      buffer(1) = buffer.getLong(1) + 1
    }
  }

　　這個是重要的update函式，對於平均值，我們可以不斷迭代輸入的值進行累加。buffer(0)統計總和，buffer(1)統計長度。

def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getLong(0) + buffer2.getLong(0)
    buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)
  }

　　在做完update後spark 需要將結果進行merge到我們的區域，因此有一個merge 進行覆蓋buffer

  def evaluate(buffer: Row): Double = buffer.getLong(0).toDouble / buffer.getLong(1)

　　這是將最終的結果進行計算。

在寫完這個類以後我們在我們的sparksession裡面進行編寫測試案例。

spark.sparkContext.textFile("file:///Users/4pa/Desktop/people.txt")
      .map(_.split(","))
      .map(agg=>Person(agg(0),agg(1).trim.toInt))
      .toDF().createOrReplaceTempView("people")
spark.udf.register("myAverage",Myaverage)
val udfRes = spark.sql("select name,myAverage(age) as avgAge from people group by name")
udfRes.show()

3. 型別安全的自定義函式

從上面我們可以看出來，這種自定義函式不是型別安全的，因此能否實現一個安全的自定義函式呢？

個人覺得最好的例子還是官網給的例子，具體的解釋都已經給了出來，思路其實和上面是一樣的，只不過定義了兩個caseclass，用於型別的驗證。

case class Employee(name: String, salary: Long)
case class Average(var sum: Long, var count: Long)

object MyAverage extends Aggregator[Employee, Average, Double] {
  // 初始化
  def zero: Average = Average(0L, 0L)
  // 這個其實有點map-reduce的意思，只不過是對一個類的reduce，第一個值是和，第二個是總數
  def reduce(buffer: Average, employee: Employee): Average = {
    buffer.sum += employee.salary
    buffer.count += 1
    buffer
  }
  // 實現緩衝區的一個覆蓋
  def merge(b1: Average, b2: Average): Average = {
    b1.sum += b2.sum
    b1.count += b2.count
    b1
  }
  // 計算最終數值
  def finish(reduction: Average): Double = reduction.sum.toDouble / reduction.count
  // Specifies the Encoder for the intermediate value type
  def bufferEncoder: Encoder[Average] = Encoders.product
  // 指定返回型別
  def outputEncoder: Encoder[Double] = Encoders.scalaDouble
}

大資料學習之路89-sparkSQL自定義函式計算ip歸屬地

使用sparkSQL當遇到業務邏輯相關的時候，就有可能會搞不定。因為業務l邏輯需要寫很多程式碼，呼叫很多介面。這個時候sql就搞不定了。那麼這個時候我們就會想能不能將業務邏輯嵌入到sql中？這種就類似於我們在hive中使用過的自定義函式UDF(user define function使用者

SparkSQL自定義函式（實現幾何平均數）

SparkSQL-自定義聚合函式（實現幾何平均數） ->建立SparkSessionparkSession ->建立自定義函式 -1、繼承UserDefinedAggregateFunction

大資料學習之路90-sparkSQL自定義聚合函式UDAF

什麼是UDAF？就是輸入N行得到一個結果，屬於聚合類的。接下來我們就寫一個求幾何平均數的一個自定義聚合函式的例子我們從開頭寫起，先來看看需要進行計算的數如何產生： package com.test.SparkSQL import java.lang import org

SparkSQL之自定義函式UDF和UDAF

SparkSQL中有兩種自定函式，在我們使用自帶的函式時無法滿足自己的需求時，可以使用自定義函式，SparkSQL中有兩種自定義函式，一種是UDF，另一種是UDAF，和Hive 很類似，但是hive中還有UDTF,一進多出，但是sparkSQL中沒有，這是因為spark中用 flatMap這

SparkSQL 使用者自定義函式（UDF、UDAF、開窗）

UDF：操作單個數據行，產生單個數據行； UDAF：操作多個數據行，產生一個數據行。 UDTF：操作一個數據行，產生多個數據行一個表作為輸出。 UDF函式通過spark.udf.register(“funcName”, func) 來進行註冊使用：se

SparkSQL建立RDD：UDF（UserDataFrame）使用者建立自定義函式（包含動態建立schema，使用者自定義函式，查詢字元的個數）【Java版純程式碼】

Java版程式碼： package com.bjsxt; import java.util.ArrayList; import java.util.Arrays; import java.util.List; import org.apache.spark.Spark

SparkSQL 如何自定義函式

1. SparkSql如何自定義函式 2. 示例：Average 3. 型別安全的自定義函式 1. SparkSql如何自定義函式？　　spark中我們定義一個函式，需要繼承 UserDefinedAggregateFunction這個抽象類，實現這個抽象類中所定義的方法，這是一個模板設計模式

Oracle資料庫自定義函式練習

--測試函式3 CREATE OR REPLACE FUNCTION FN_TEST3 (NUM IN VARCHAR2) RETURN VARCHAR2 IS TYPE VARCHAR2_ARR IS TABLE OF VARCHAR2(300); NUMARR VARCHAR2_ARR; TEMPN

除錯經驗——如何檢視Oracle自定義函式（How to view definition of user defined functions in Oracle）

問題描述：現有的Query中似乎使用了一個自定義函式String_to_list，為了排查問題，需要檢視這個函式的定義。方法： --新建的function，並未儲存在All_ojbects表中，而是儲存在user_objects表中 SELECT * FRO

除錯經驗——使用自定義函式在Oracle中實現類似LISTAGG函式的行轉列（字串連線）功能

問題描述： LISTAGG函式是一個很實用的函式，但僅在Oracle 11.2以後的版本中才有。生產環境中有個資料庫是Oracle 11.1，需要行轉列，但並不能使用LISTAGG函式。解決方法：參考以下文章： https://oracle-base.com/artic

MySQL的sql自定義函式

SQL強大的一個原因就是函式豐富，MYSQL為例，函式有以下幾種：數學函式字串函式日期和時間函式條件判斷函式系統資訊函式加密函式格式化函式同時，MYSQL也支援自定義函式，這篇文章分為兩個部分，限於篇幅，第一個部分介紹常用函式，第二部分講解如何自定義函式。原生函式

Mysql中儲存過程與自定義函式的區別

建立儲存過程: CREATE [definer = {user|current_user}] PROCEDURE sp_name ([ proc_parameter [,proc_parameter ...]]) [ characteristi

javaweb之EL自定義函式

1.什麼是EL自定義函式 EL自定義函式是在EL表示式中呼叫的某個java類的靜態方法，這個靜態方法需在web應用程式中進行配置才可以被EL表示式呼叫。EL自定義函式可以擴充套件EL表示式的功能，讓EL表示式完成普通java程式程式碼所能完成的功能。 2.EL自定義函式開發步驟編寫EL自定義函式

【C語言】字串處理自定義函式

1、字串求長度 #include <stdio.h> int Mystrlen1(const char *str) { int i=0; while(*(str++)!='\0') { i++; } return i; } int Mystrlen2(cons

python 自定義函式表示式擬合求係數

https://docs.scipy.org/doc/scipy/reference/generated/scipy.optimize.curve_fit.html import numpy as npimport matplotlib.pyplot as pltfrom scipy.optim

MS SQL自定義函式IsNumeric

判斷字串是否為純數字，負數不算。如'00012','54585','1000' SET ANSI_NULLS ON GO SET QUOTED_IDENTIFIER ON GO CREATE FUNCTION [dbo].[svf_IsNumeric]

MySQL自定義函式遞迴查詢

用於遞迴查詢Id（通過parentId關聯）引數為int 型別的值： CREATE DEFINER=`root`@`%` FUNCTION `getChildList`(rootId INT) RETURNS text CHARSET utf8 BEGIN DECLARE sTemp

c語言自定義函式,10月28日總結

現在時間23點34分,我想看看我幾點能完成今天總結自定義函式的使用,先從最基礎的地方開始 1.形參實參在定義函式的時候，函式大多數都有引數，在被主調函式需要傳遞資料給函式的引數函式定義時用的變數叫形參傳遞給函式的中形參值或變數叫實參 int m

pandas 自定義函式

雖然說pandas裡面確實有很多內建的函數了，但是也不可能滿足所有的需求，所以有些時候我們也需要自己定義一些函式來滿足自己的需求：那麼該如何定義呢：定義之後又該如何用呢：對於函式的定義就很簡單了，python自定義函式一樣，但是在使用他的時候就需要用到apply了：如：算出每一列空值

學會使用MySQL中自定義函式和儲存過程

一、快速瞭解什麼是儲存過程和函式？儲存過程和函式是事先經過編譯並存儲在資料庫中的一段 SQL 語句的集合，呼叫儲存過程和函式可以簡化應用開發人員的很多工作，減少資料在資料庫和應用伺服器之間的傳輸，對於提高資料處理的效率是有好處的。在對儲存過程或函式進行操作時，需要

SparkSQL 如何自定義函式

1. SparkSql如何自定義函式？

2. 自定義Average函式

3. 型別安全的自定義函式

相關推薦