14.Spark SQL：UDAF自定義聚合函式實戰

阿新 • • 發佈：2019-01-06

UDAF自定義函式實戰

UDAF：User Defined Aggregate Function。使用者自定義聚合函式。是Spark 1.5.x引入的最新特性。

UDF，其實更多的是針對單行輸入，返回一個輸出

這裡的UDAF，則可以針對多行輸入，進行聚合計算，返回一個輸出，功能更加強大

package cn.spark.study.sql
 
import org.apache.spark.sql.expressions.UserDefinedAggregateFunction
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.DataType
import org.apache.spark.sql.expressions.MutableAggregationBuffer
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.types.StringType
import org.apache.spark.sql.types.IntegerType
 
/**
 * @author Administrator
 */
class StringCount extends UserDefinedAggregateFunction {  
  
  // inputSchema，指的是，輸入資料的型別
  def inputSchema: StructType = {
    StructType(Array(StructField("str", StringType, true)))   
  }
  
  // bufferSchema，指的是，中間進行聚合時，所處理的資料的型別
  def bufferSchema: StructType = {
    StructType(Array(StructField("count", IntegerType, true)))   
  }
  
  // dataType，指的是，函式返回值的型別
  def dataType: DataType = {
    IntegerType
  }
  
  def deterministic: Boolean = {
    true
  }
 
  // 為每個分組的資料執行初始化操作
  def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = 0
  }
  
  // 指的是，每個分組，有新的值進來的時候，如何進行分組對應的聚合值的計算
  def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    buffer(0) = buffer.getAs[Int](0) + 1
  }
  
  // 由於Spark是分散式的，所以一個分組的資料，可能會在不同的節點上進行區域性聚合，就是update
  // 但是，最後一個分組，在各個節點上的聚合值，要進行merge，也就是合併
  def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getAs[Int](0) + buffer2.getAs[Int](0)  
  }
  
  // 最後，指的是，一個分組的聚合值，如何通過中間的快取聚合值，最後返回一個最終的聚合值
  def evaluate(buffer: Row): Any = {
    buffer.getAs[Int](0)    
  }
  
}

package cn.spark.study.sql
 
import org.apache.spark.SparkConf
import org.apache.spark.SparkContext
import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.Row
import org.apache.spark.sql.types.StructType
import org.apache.spark.sql.types.StructField
import org.apache.spark.sql.types.StringType
 
/**
 * UDAF：User Defined Aggregate Function。使用者自定義聚合函式。是Spark 1.5.x引入的最新特性。
 * UDF，其實更多的是針對單行輸入，返回一個輸出
 * 這裡的UDAF，則可以針對多行輸入，進行聚合計算，返回一個輸出，功能更加強大
 *
 * @author Administrator
 */
 
object UDAF {
  
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
        .setMaster("local")
        .setAppName("UDAF")
    val sc = new SparkContext(conf)
    val sqlContext = new SQLContext(sc)
  
    // 構造模擬資料
    val names = Array("Leo", "Marry", "Jack", "Tom", "Tom", "Tom", "Leo")  
    val namesRDD = sc.parallelize(names, 5)
    val namesRowRDD = namesRDD.map { name => Row(name) }
    val structType = StructType(Array(StructField("name", StringType, true)))  
    val namesDF = sqlContext.createDataFrame(namesRowRDD, structType)
    
    // 註冊一張names表
    namesDF.registerTempTable("names")  
    
    // 定義和註冊自定義函式
    // 定義函式：自己寫匿名函式
    // 註冊函式：SQLContext.udf.register()
    sqlContext.udf.register("strCount", new StringCount)
    
    // 使用自定義函式
    sqlContext.sql("select name,strCount(name) from names group by name")  
        .collect()
        .foreach(println)  
  }
}

本地執行結果：

14.Spark SQL：UDAF自定義聚合函式實戰

UDAF自定義函式實戰 UDAF：User Defined Aggregate Function。使用者自定義聚合函式。是Spark 1.5.x引入的最新特性。 UDF，其實更多的是針對單行輸入，返

SparkSQL建立RDD：UDAF（UserDefinedAggregatedFunction）使用者自定義聚合函式【Java版純程式碼】

要實現8個方法，8個方法中，最為重要的有3個： initialize：初始化，在給，map端每一個分割槽的每一個key進行初始化，給0 update：在map端聚合 merge：在reduce端聚合 Java版程式碼： package com.bjsxt; im

大資料學習之路90-sparkSQL自定義聚合函式UDAF

什麼是UDAF？就是輸入N行得到一個結果，屬於聚合類的。接下來我們就寫一個求幾何平均數的一個自定義聚合函式的例子我們從開頭寫起，先來看看需要進行計算的數如何產生： package com.test.SparkSQL import java.lang import org

pyspark 自定義聚合函式 UDAF

自定義聚合函式 UDAF 目前有點麻煩，PandasUDFType.GROUPED_AGG 在2.3.2的版本中不知怎麼回事，不能使用！這樣的話只能曲線救國了！ PySpark有一組很好的聚合函式（例如，count，countDistinct，min，max，avg，su

spark1.5 自定義聚合函式UDAF

自定義聚合函式需要實現UserDefinedAggregateFunction，以下是該抽象類的定義，加了一點註釋： /* * Licensed to the Apache Software Foundation (ASF) under one or more * co

Hive通用型自定義聚合函式（UDAF）

計算器必須實現的方法： 1、getNewAggregationBuffer()：返回儲存臨時聚合結果的AggregationBuffer物件。 2、reset(AggregationBuffer agg)：重置聚合結果物件，以支援mapper和reducer的重用。 3、iterate(Aggregati

Hive使用者自定義聚合函式(UDAF)

使用者自定義聚合函式，使用者提供的多個入參通過聚合計算(求和、求最大值、求最小值)得到一個聚合計算結果的函式。問題：UDF也可以提供輸入多個引數然後輸出一個結果的運算，比如加法運算add(3，5)，add這個UDF需要實現UDF的evaluate方法,那麼UDF和UD

Problem B: 指標：呼叫自定義交換函式，完成5個浮點數從小到大排列

#include<stdio.h> int swap(float *p1,float *p2) { float flag; if(*p1>*p2) { flag=*p1; *p1=*p2; *p2=flag;

Problem D: 指標：呼叫自定義排序函式sort，對輸入的n個數進行從小到大輸出。

#include<stdio.h> int sort(int *p,int n) { int i,j,temp; for(i=0;i<n-1;i++) for(j=i;j<n;j++) if(p[i]>p[j]) {

Spark SQL：Hive資料來源複雜綜合案例實戰

一、Hive資料來源實戰 Spark SQL支援對Hive中儲存的資料進行讀寫。操作Hive中的資料時，必須建立HiveContext，而不是SQLContext。HiveContext繼承自SQLContext，但是增加了在Hive元資料庫中查詢表，以及用Hi

Spark SQL：JDBC資料來源複雜綜合案例實戰

一、JDBC資料來源實戰 Spark SQL支援使用JDBC從關係型資料庫（比如MySQL）中讀取資料。讀取的資料，依然由DataFrame表示，可以很方便地使用Spark Core提供的各種運算元

Oracle 自定義聚合函式

create or replace type str_concat_type as object ( cat_string varchar2(4000), static function ODCIAggregateInitialize(cs_ctx In Out str_concat_

PostgreSql的聚合函式string_agg和自定義聚合函式group_concat

1.使用自定義聚合函式 group_concat SELECT * FROM ( SELECT "FFID",CAST ("BRDNO" AS INTEGER),"count" (*) AS "NUM", array_to_string(g

postgresql 9.3 自定義聚合函式實現多行資料合併成一列

前言常見的一種需求，如下圖(1)：目前需要按右邊的factor_code進行分組，將左邊的behavior_code這一列通過指定分隔符連線起來，比如通過<br /> 來連線，理想的效果應當是如下圖(2)這樣：下面就來討論一下實現

ORACLE中的自定義聚合函式（User-Defined Aggregate Functions）

聚合函式也叫分組函式，是對多行進行計算的一種函式，比如SUM、COUNT、AVG、MAX、MIN等等。Oracle中為了增強擴充套件性，提供了一個自定義聚合函式的介面，ODCIAggregate()，使用者可以用Oracle支援的各類程式語言（PLSQL、C、C++、JAVA

在 Windows Server Container 中運行 Azure Storage Emulator（二）：使用自定義的 SQL Server Instance

manage span contain target ros 結果 images 兩種方法 ini 　　上一章，我們解決了 Azure Storage Emulator 自定義監聽地址的問題，這遠遠不夠，因為在我們 DEV/QA 環境有各自的 SQL Server Inst

分針網——每日分享：CSS 自定義屬性：API 篇

css JQuery是一個非常優秀的js庫。選擇元素 $( )裏可以填css選擇器 $(’.demo’).

實戰案例：構建docker容器集群（解決方案一：使用自定義網橋連接跨主機容器）

docker一、實驗環境虛擬機a兩塊網卡 eth0 eth1 （IP地址static或者dhcp）虛擬機b兩塊網卡 eth0 eth1 （IP地址static或者dhcp）二、在兩臺虛擬機上配置網橋虛擬機a操作：apt-get install bridge-utilsvim /etc/ne

Kivy 中文教程實例入門簡易畫板 (Simple Paint App)：1. 自定義窗口部件 (widget)

mage 動作顯示 lac one 參數 sublime elf 入門 1. 框架代碼用 PyCharm 新建一個名為 SimplePaintApp 的項目，然後新建一個名為 simple_paint_app.py 的 Python 源文件，在代碼編輯器中，輸入以下框

大數據入門第二十二天——spark（三）自定義分區、排序與查找

get buffer arr clas ron arm scala mut all 一、自定義分區　　1.概述　　　　默認的是Hash的分區策略，這點和Hadoop是類似的，具體的分區介紹，參見：https://blog.csdn.net/high2011/arti

14.Spark SQL：UDAF自定義聚合函式實戰

相關推薦