Spark MLlib 之 aggregate和treeAggregate從原理到應用

阿新 • • 發佈：2018-07-09

數據量 hash oom 向上 gre require 圖片 iterator reac

在閱讀spark mllib源碼的時候，發現一個出鏡率很高的函數——aggregate和treeAggregate，比如matrix.columnSimilarities()中。為了好好理解這兩個方法的使用，於是整理了本篇內容。

由於treeAggregate是在aggregate基礎上的優化版本，因此先來看看aggregate是什麽.

更多內容參考我的大數據學習之路

aggregate

先直接看一下代碼例子：

import org.apache.spark.sql.SparkSession

object AggregateTest {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().master("local[*]").appName("tf-idf").getOrCreate()
    spark.sparkContext.setLogLevel("WARN")
    // 創建rdd，並分成6個分區
    val rdd = spark.sparkContext.parallelize(1 to 12).repartition(6)
    // 輸出每個分區的內容
    rdd.mapPartitionsWithIndex((index:Int,it:Iterator[Int])=>{
      Array((s" $index : ${it.toList.mkString(",")}")).toIterator
    }).foreach(println)
    // 執行agg
    val res1 = rdd.aggregate(0)(seqOp, combOp)
  }
  // 分區內執行的方法，直接加和
  def seqOp(s1:Int, s2:Int):Int = {
    println("seq: "+s1+":"+s2)
    s1 + s2
  }
  // 在driver端匯總
  def combOp(c1: Int, c2: Int): Int = {
    println("comb: "+c1+":"+c2)
    c1 + c2
  }
}

這段代碼的主要目的就是為了求和。考慮到spark分區並行計算的特性，在每個分區獨立加和，最後再匯總加和。

過程可以參考下面的圖片：
技術分享圖片

首先看一下map階段，即在每個分區內計算加和。初始情況如藍色方塊所示，內容為：

分區號：裏面的內容
如，0分區內的數據為6和8

當執行seqop時，會說先用初始值0開始遍歷累加，原理類似如下：

rdd.mapPartitions((it:Iterator)=>{
    var sum = init_value // 默認為0
    it.foreach(sum + _)
    sum
})

因此屏幕上會出現下面的內容，由於分區之間是並行的，所以最後的結果是亂序的：

seq: 0:6
seq: 0:1
seq: 0:3
seq: 1:9
seq: 3:10
seq: 0:2
seq: 0:5
seq: 5:7
seq: 12:12
seq: 0:4
seq: 4:11
seq: 6:8

計算完成後，依次遍歷每個分區結果，進行累加：

comb: 0:10
comb: 10:13
comb: 23:2
comb: 25:24
comb: 49:15
comb: 64:14

aggregate的源碼也比較簡單：

def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U = withScope {
    var jobResult = Utils.clone(zeroValue, sc.env.serializer.newInstance())
    val cleanSeqOp = sc.clean(seqOp)
    val cleanCombOp = sc.clean(combOp)
    val aggregatePartition = (it: Iterator[T]) => it.aggregate(zeroValue)(cleanSeqOp, cleanCombOp)
    val mergeResult = (index: Int, taskResult: U) => jobResult = combOp(jobResult, taskResult)
    sc.runJob(this, aggregatePartition, mergeResult)
    jobResult
  }

treeAggregate

treeAggregate在aggregate的基礎上做了一些優化，因為aggregate是在每個分區計算完成後，把所有的數據拉倒driver端，進行統一的遍歷合並，這樣如果數據量很大，在driver端可能會OOM。

因此treeAggregate在中間多加了一層合並。

先來看看代碼，沒有任何的變化：

import org.apache.spark.sql.SparkSession

object TreeAggregateTest {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession.builder().master("local[*]").appName("tf-idf").getOrCreate()
    spark.sparkContext.setLogLevel("WARN")

    val rdd = spark.sparkContext.parallelize(1 to 12).repartition(6)
    rdd.mapPartitionsWithIndex((index:Int,it:Iterator[Int])=>{
      Array(s" $index : ${it.toList.mkString(",")}").toIterator
    }).foreach(println)

    val res1 = rdd.treeAggregate(0)(seqOp, combOp)
    println(res1)
  }

  def seqOp(s1:Int, s2:Int):Int = {
    println("seq: "+s1+":"+s2)
    s1 + s2
  }

  def combOp(c1: Int, c2: Int): Int = {
    println("comb: "+c1+":"+c2)
    c1 + c2
  }
}

輸出的結果則發生了變化，首先分區內的操作不變：

 3 : 3,10
 2 : 2
 0 : 6,8
 1 : 1,9
 4 : 4,11
 5 : 5,7,12
seq: 0:3
seq: 0:6
seq: 3:10
seq: 6:8
seq: 0:2
seq: 0:1
seq: 1:9
seq: 0:4
seq: 4:11
seq: 0:5
seq: 5:7
seq: 12:12
...

在合並的時候發生了變化：

comb: 10:13
comb: 23:24
comb: 14:2
comb: 16:15
comb: 47:31

配合下面的流程圖，可以更好的理解：
技術分享圖片
搭配treeAggregate的源碼來看一下：

def treeAggregate[U: ClassTag](zeroValue: U)(
      seqOp: (U, T) => U,
      combOp: (U, U) => U,
      depth: Int = 2): U = withScope {
    require(depth >= 1, s"Depth must be greater than or equal to 1 but got $depth.")
    if (partitions.length == 0) {
      Utils.clone(zeroValue, context.env.closureSerializer.newInstance())
    } else {
      // 這裏都沒什麽變化，在分區中遍歷數據累加
      val cleanSeqOp = context.clean(seqOp)
      val cleanCombOp = context.clean(combOp)
      val aggregatePartition =
        (it: Iterator[T]) => it.aggregate(zeroValue)(cleanSeqOp, cleanCombOp)
      var partiallyAggregated = mapPartitions(it => Iterator(aggregatePartition(it)))

      // 關鍵是這下面的內容 !!!!
      // 首先獲得當前的分區數
      var numPartitions = partiallyAggregated.partitions.length
      // 計算合適的並行度，我這裏相當於6^(1/2)，也就是2.4左右，ceill向上取整後變成3.
      // max(3,2)得到最後的結果為3。即每個樹的分枝有3個葉子節點
      val scale = math.max(math.ceil(math.pow(numPartitions, 1.0 / depth)).toInt, 2)
      
      // 遍歷分區，通過對scale取模進行合並計算
      // 這裏判斷一下，當前的分區數是否還夠分。如果少於條件值 scale+(p/scale)，就停止分區
      while (numPartitions > scale + math.ceil(numPartitions.toDouble / scale)) {
        numPartitions /= scale
        val curNumPartitions = numPartitions
        // 重新定義分區id，並按照分區id重新分區，執行合並計算
        partiallyAggregated = partiallyAggregated.mapPartitionsWithIndex {
          (i, iter) => iter.map((i % curNumPartitions, _))
        }.reduceByKey(new HashPartitioner(curNumPartitions), cleanCombOp).values
      }
      // 最後統計結果
      partiallyAggregated.reduce(cleanCombOp)
    }
  }

spark中的應用

// matrix求相似度
def columnSimilarities(threshold: Double): CoordinateMatrix = {
...              columnSimilaritiesDIMSUM(computeColumnSummaryStatistics().normL2.toArray, gamma)
}
// 統計每一個向量的相關數據，裏面包含了min max 等等很多信息
def computeColumnSummaryStatistics(): MultivariateStatisticalSummary = {
  val summary = rows.treeAggregate(new MultivariateOnlineSummarizer)(
    (aggregator, data) => aggregator.add(data),
    (aggregator1, aggregator2) => aggregator1.merge(aggregator2))
  updateNumRows(summary.count)
  summary
}

了解了treeAggregate之後，後續就可以看matrix的並行求解相似度的源碼了！敬請期待吧...

參考

spark-aggregate與treeAggregate的理解

Spark MLlib 之 aggregate和treeAggregate從原理到應用

數據量 hash oom 向上 gre require 圖片 iterator reac 在閱讀spark mllib源碼的時候，發現一個出鏡率很高的函數——aggregate和treeAggregate，比如matrix.columnSimilarities()中。為了

Spark-MLlib之分類和迴歸演算法

分類邏輯迴歸邏輯迴歸是預測分類響應的常用方法。廣義線性模型的一個特例是預測結果的概率。在spark.ml邏輯迴歸中，可以使用二項Logistic迴歸來預測二元結果，或者可以使用多項Logistic迴歸來預測多類結果。使用該family 引數在這兩種演算法之間進行選擇，

spark mllib之分類和迴歸

Problem Type Supported Methods 二分類: 線性SVM(inear SVMs,), 羅輯迴歸(logistic regression), 決策樹(decision trees),隨機森林(random forests),

Spark MLlib 之大規模數據集的相似度計算原理探索

tis afr 廣播圖片 times 導致 coord 向量校驗無論是ICF基於物品的協同過濾、UCF基於用戶的協同過濾、基於內容的推薦，最基本的環節都是計算相似度。如果樣本特征維度很高或者<user, item, score>的維度很大，都會導致無法直

Spark MLlib之使用Breeze操作矩陣向量

nds 求解 package cep 步長 ani 最小值 create 應該這下面的練習中，需要自己將spark的jar包添加進來。在使用Breeze 庫時，需要導入相關包： import breeze.linalg._ import breeze.numeri

Spark MLlib 之 Vector向量深入淺出

org 格式 types 有監督 sea text posit blog get Spark MLlib裏面提供了幾種基本的數據類型，雖然大部分在調包的時候用不到，但是在自己寫算法的時候，還是很需要了解的。MLlib支持單機版本的local vectors向量和marti

14.spark mllib之快速入門

獨立性 num 索引 ecos ive 組成 compute || eat 簡介 ??MLlib是Spark提供提供機器學習的庫，專為在集群上並行運行的情況而設計。MLlib包含很多機器學習算法，可在Spark支持的所有編程語言中使用。 ??MLlib設計理念是將數據以RD

Spark MLlib之水塘抽樣算法（Reservoir Sampling）

抽樣返回算法蓄水池抽樣 seq pack param long nds 1.理解　　問題定義可以簡化如下：在不知道文件總行數的情況下，如何從文件中隨機的抽取一行？　　首先想到的是我們做過類似的題目嗎?當然，在知道文件行數的情況下，我們可以很容易的用C運行庫的rand

Python Spark MLlib 之決策樹迴歸分析

資料準備場景：預測共享單車租借數量。特徵：季節、月份、時間（0~23）、節假日、星期、工作日、天氣、溫度、體感溫度、溼度、風速預測目標：每一小時的單車租用數量 1、下載資料集並開啟終端輸入命令 cd ~/pythonwork/Pyth

Spark MLlib之決策樹（DecisioinTree）

程式碼： /** * Created by hadoop on 16-7-3. */ import org.apache.spark.{SparkContext, SparkConf} import org.apache.spark.mllib.tree.Decisi

Python Spark MLlib之邏輯迴歸

資料準備和決策樹分類一樣，依然使用StumbleUpon Evergreen資料進行實驗。 Local模式啟動ipython notebook cd ~/pythonwork/ipynotebook PYSPARK_DRIVER_PYTHON=

併發容器之ArrayBlockingQueue和LinkedBlockingQueue實現原理詳解

1. ArrayBlockingQueue簡介在多執行緒程式設計過程中，為了業務解耦和架構設計，經常會使用併發容器用於儲存多執行緒間的共享資料，這樣不僅可以保證執行緒安全，還可以簡化各個執行緒操作。例如在“生產者-消費者”問題中，會使用阻塞佇列（Blocki

Spark MLlib中分類和回歸算法

決策樹隨機函數 fit ges sgd 集中 eba 字段類型 Spark MLlib中分類和回歸算法： -分類算法： pyspark.mllib.classification -樸素貝葉斯 Na

Spark中的aggregate和aggregateByKey的區別及疑惑

aggregate(zeroValue,seq,comb,taskNums) 將初始值和第一個分割槽中的第一個元素傳遞給seq函式進行計算，然後將計算結果和第二個元素傳遞給seq函式，直到計算到最後一個值。第二個分割槽中也是同理操作。最後將初始值、所有分割槽的

spark MLlib 之構建機器學習系統

構建 spark 機器學習系統 spark 機器學習系統架構 spark 和 hadoop 叢集的安裝請參照下面的連結 spark-shell 1.x Spark-Shell 自動建立一個 SparkContext 物

《深入理解Spark》之RDD和DataFrame的相互轉換

package com.lyzx.day18 import org.apache.spark.sql.SQLContext import org.apache.spark.{SparkConf, SparkContext} import org.apache.spark.s

Spark歷險記之編譯和遠端任務提交

Spark簡介 Spark是加州大學伯克利分校AMP實驗室（Algorithms, Machines, and People Lab）開發通用記憶體平行計算框架。Spark在2013年6月進入Apache成為孵化專案，8個月後成為Apache頂級專案，速度之快足見過人之處，Spark以其先進的設計理念，

Spark Mllib之基本統計

1.概要統計(Summary statistics) 我們通過Statistics中提供的函式colStats為RDD [Vector]提供列摘要統計資訊。 colStats（）返回MultivariateStatisticalSummary的一個例項，其中包含列的max

spark基礎之RDD和DataFrame的轉換方式

一通過定義Case Class,使用反射推斷Schema 定義Case Class，在RDD的轉換過程中使用Case Class可以隱式轉換成SchemaRDD,然後再註冊成表，然後就可以利用sql

Spark 系列（八）—— Spark SQL 之 DataFrame 和 Dataset

## 一、Spark SQL簡介 Spark SQL 是 Spark 中的一個子模組，主要用於操作結構化資料。它具有以下特點： + 能夠將 SQL 查詢與 Spark 程式無縫混合，允許您使用 SQL 或 DataFrame API 對結構化資料進行查詢； + 支援多種開發語言； + 支援

Spark MLlib 之 aggregate和treeAggregate從原理到應用

aggregate

treeAggregate

spark中的應用

參考

相關推薦