自定義UDAF(多對一)

阿新 • • 發佈：2018-12-17

package day01

import org.apache.spark.sql.{Row, types}
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types._
/**
  * 自定義一個聚合方法
  * 首先要定義一個類繼承UserDefinedAggregateFunction
  * 重寫8個方法
  *
  */
class GeometricMean extends  UserDefinedAggregateFunction{
  //UDAF與DataFrame列有關的輸入樣式,StructField的名字並沒有特別要求,完全可以認為是兩個內部結構的列名站位符
  //至於UDAF具體要操作DataFrame的那個列,取決於呼叫者,但前提是資料型別必須符合事先的設定,如這裡的Double
  override def inputSchema: StructType = StructType(List(StructField("value",DoubleType)))
  //定義儲存聚合運算時產生的中間資料結果的Schema
  override def bufferSchema: StructType = StructType(List(
   //參與運算的個數
    StructField("count",LongType),
    //參與運算的乘積
    StructField("product",DoubleType)
  ))
  //標明瞭UDAF函式的返回值型別
  override def dataType: DataType = DoubleType
  //用以標記針對給定的一組輸入,UDAF是否總是生成相同的結果
  override def deterministic: Boolean = true
  //對聚合運算中間結果的初始化
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
  //參與運算數字的個數
    buffer(0)=0L
    //參與相乘的值
    buffer(1)=1.0
  }
  //每處理一條資料都要執行update
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
   //區域性計算
    buffer(0) =buffer.getAs[Long](0) +1
    buffer(1) =buffer.getAs[Double](1) * input.getAs[Double](0)
  }
  //負責合併兩個聚合運算的buffer,再將其儲存到MutableAggregationBuffer中
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
   //全域性  累加    累乘
    buffer1(0)=buffer1.getAs[Long](0) + buffer2.getAs[Long](0)
    buffer1(1)=buffer1.getAs[Double](1) * buffer2.getAs[Double](1)
  }
  //完成對聚合Buffer值得運算,得到最後的結果
  override def evaluate(buffer: Row): Any = {
    math.pow(buffer.getDouble(1), 1.toDouble / buffer.getLong(0))
  }
}
object GeometricMean{
  def main(args: Array[String]): Unit = {
   // val r =Math.pow(1*2*3*4*5*6*7*8*9,1.toDouble/9)
   val r =Math.pow(3,1.toDouble/2)
    println(r)
  }
}

package day01

import java.lang

import org.apache.spark.sql.{Dataset, SparkSession}


object UDAFDemo {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder()
      .appName("UDAFDemo")
      .master("local[*]")
      .getOrCreate()
     //df.show()列叫id
    val df: Dataset[lang.Long] = spark.range(1,10)

    val gm = new GeometricMean
      //寫sql需要註冊檢視
    // df.createTempView("v_num")
    spark.udf.register("gm",gm)
 //   spark.sql("SELECT gm(id) as gm from v_num").show()

    //不用檢視來弄,直接使用運算元
   // df.select(expr("gm(id) as GeometricMean")).show()
   // df.groupBy().agg(gm(col("id")).as("GeometricMean")).show
  }
}

SparkSQL的自定義函式
UDF 呼叫函式式輸入一行,返回一個值, 1->1 substring
UDAF 呼叫函式時輸入N行,返回一個值 N-> 1 count(*)

使用UDFs之前要先註冊
spark.udf.register("ip2Long",(ip:String)=>{
//返回Long型別
})

spark.udf.register("gn" new UserDefineAggregateFunction(){
//重新八個方法
})

自定義UDAF(多對一)

package day01 import org.apache.spark.sql.{Row, types} import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunctio

mybatis10--自連接多對一查詢

所有 bsp from 測試 java out void pan tid 查詢老師對應的所有導師的信息在09的基礎上修改dao和mapper文件 public interface TeacherDao { /** * 根據老師的編號查詢所有的

對jsonArray陣列儲存的物件做自定義按多個值排序

public void batchRepayment() throws IOException{ String jsonString = "[{ \"orderId\": \"431\", \"installment\": \"9\" }, { \"orderId\":

（十八）Mybatis自關聯多對一查詢方式

注：程式碼已託管在GitHub上，地址是：https://github.com/Damaer/Mybatis-Learning ，專案是mybatis-14-oneself-many2one，需要自取，需要配置maven環境以及mysql環境(sql語句在resource下的test.s

自定義EditText的使用(一鍵刪除)|ListView item中多edittext問題

在實際開發的時候，應用的登入介面和註冊介面通常會用到這個，我說的就是EditText末尾處的那個叉號，當輸入EditText中的內容不符合自己的意願，想全部刪除的時候，可以點選那個叉號實現一鍵刪除EditText裡面的全部內容。效果圖如下：當然，Edit

flask_sqlalchemy 建立多對一關係，評論與回覆構成自引用

帖子與回覆使用同一張表構成了自引用，建立多對一關係。示例： class Comment(db.Model): __tablename__ = 'comment' id = db.Column(db.Integer, primary_key=True)

sqlalchemy 一對多/多對一/多對多/一對一關係定義設定全方位操作方法

sqlalchemy 作為一款ORM在操作資料庫方面非常的方便,這裡總結了一些對應關係的設定以及查詢方法! 使用外來鍵關聯表：表設計 from sqlalchemy import Column, ForeignKey from sqlalchemy.types import

MyBatis 關聯查詢自關聯（一對多、多對一）

所謂自關聯是指，自己即充當一方，又充當多方。其實就是普通1:n 和 n:1的變形 1、一對多 1）表結構 -- 新聞欄目 CREATE TABLE `news` ( `id` int(5) NOT NULL AUTO_INCREMENT, `name` varcha

Android自定義控制元件（一）下拉重新整理，上拉分頁載入更多(支援ListView, GridView, ScrollView)

首先說明，這幾篇文章是對一些前輩的成果進行學習後的心得總結。也借這種方式對他們表示謝意。最近專案中好幾個模組都用到listview和gridview的下拉重新整理，上拉載入更多等功能，而且涉及到圖片的批量下載。水平有限，首先是想到找一些比較

Android自定義imageview可對圖片進行多點縮放和拖動

package com.msstudent.view; import android.content.Context; import android.graphics.Bitmap; import android.graphics.Canvas; import andro

Hibernate單向“多對一”關聯

額外 generator nat col 方式單向 key null option 1. 基於外鍵關聯的單向“多對一”關聯是最常見的單向關聯其中指定many-to-one的unique="true"，為單向“一對一”，不指定就是單向“多對一” <class name

（十二）Hibernate中的多表操作（1）：單向多對一

art 保存 int gen round t對象情況映射文件拋出異常由“多”方可知“一”方的信息，比如多個員工使用同一棟公寓，員工可以知道公寓的信息，而公寓無法知道員工的信息。案例一： pojo類 public class Department {

hibernate之多對一單向關聯

als exce 方法試用 size code 產生配置文件 sse 一個工作組(Group)裏能夠有多個用戶(User)，一個User僅僅屬於一個Group，這是典型的多對一的關系。在多對一的關系中正確的數據庫設計是在多的這方(在這裏是User這方

hibernate_關聯映射_多對一

配置 close too ssi 學生 onf host dialect test 多對一關聯關系和上一篇講的一對多關聯關系的不同點主要體現在映射文件上。 Student類： 1 package com.imooc.entity; 2 3 import java

mybatis08--關聯查詢多對一

spa namespace 文件 pan encoding iat ide java integer 根據省會的id查詢出省會和對應國家的信息 01.多表的連接查詢修改對應的實體類信息 /** *國家的實體類 */ public class Cou

一口一口吃掉Hibernate（四）——多對一單向關聯映射

mark frame 自動 exce itl format 表之間 cfg.xml pda hibernate對於數據庫的操作，全部利用面向對象的思維來理解和實現的。一般的單獨表的映射，相信大家都沒有問題，但是對於一些表之間的特殊關系，Hibernate提供了一些獨特的方式

hibernate之初學一對多和多對一配置及使用

外鍵 ble dtd nat util gin doc 一對多 dialect 按查詢及存取速率來說的一對多用的相對多對一少一些，這裏只寫主要配置文件的代碼首先是hibernate的配置文件 <!DOCTYPE hibernate-configuration PU

子表，父表；一對多，多對一；主鍵，外鍵梳理。

梳理一段引用 cnblogs .com 課程 alt img 分享這個每次搞明白後，過一段時間又亂了，這次總結下：子表與父表：　　父表：被引用的表。被引用列一定是父表的主鍵。　　　　子表：引用父表的某一列作為外鍵。一對多，多對一：一的一方一定是父表，多的一

Hibernate單向多對一映射關系（1）

關聯 hbm.xml factor ngs actor cnblogs conf ima 一個單向 n-1 單向 n-1 關聯只需從 n 的一端可以訪問 1 的一端域模型: 從 Order 到 Customer 的多對一單向關聯需要在Order 類中定義一個 Custo

mybatis 一對一、一對多、多對一、多對多

bigint into rem http depend path spa records 數據庫表本項目是框架架構是 springboot+mybatis 添加maven依賴 <dependency> <groupId>org.mybat

自定義UDAF(多對一)

相關推薦