Spark運算元執行流程詳解之八

阿新 • • 發佈：2019-01-24

針對rdd的每個元素利用f進行處理

/**
 * Applies a function f to all elements of this RDD.
 */
  def foreach(f: T => Unit): Unit = withScope {
  val cleanF = sc.clean(f)
  sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))
}

注意這是個action，會觸發f函式的執行

其次要注意，如果對RDD執行foreach，只會在Executor端有效，而並不是Driver端。

比如：rdd.foreach(println)，只會在Executor的stdout中打印出來，Driver端是看不到的。

通過accumulator共享變數與foreach結合，可以統計rdd裡面的數值

scala> var cnt = sc.accumulator(0)

cnt: org.apache.spark.Accumulator[Int] = 0

scala> var rdd1 = sc.makeRDD(1 to 10,2)

rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[5] at makeRDD at :21

scala> rdd1.foreach(x => cnt += x)

scala> cnt.value

res51: Int = 55

41.foreachPartition

foreachPartition和foreach一樣，針對每個分割槽，它們的區別類似於map和mappartitions操作

/*
* Applies a function f to each partition of this RDD.
*/
def foreachPartition(f: Iterator[T] => Unit): Unit = withScope {
val cleanF = sc.clean(f)
sc.runJob(this, (iter: Iterator[T]) => cleanF(iter))
}

42.subtract

將存在於本RDD中的記錄從other RDD中抹去，返回本RDD中剩餘的記錄

/*
 * Return an RDD with the elements from `this` that are not in `other`.
 *
 * Uses `this` partitioner/partition size, because even if `other` is huge, the resulting
 * RDD will be &lt;= us.
 */
  def subtract(other: RDD[T]): RDD[T] = withScope {

//既然要相減，那麼就必須知道this rdd的分佈情況，即其分割槽函式
  subtract(other, partitioner.getOrElse(new HashPartitioner(partitions.length)))
}

繼續往下看：

/**
 * Return an RDD with the elements from `this` that are not in `other`.
 */
  def subtract(
    other: RDD[T],
    p: Partitioner)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
  if (partitioner == Some(p)) {

//結果RDD的分割槽函式和本rdd相同，則重新生成一個p2，由於這個p2沒有定義equals函式，則意味著任何與其比較其實就是比較類地址，這樣就會導致接下去兩個rdd都會存在shuffle的動作，至於為什麼這樣設計，沒怎麼想明白
    // Our partitioner knows how to handle T (which, since we have a partitioner, is
    // really (K, V)) so make a new Partitioner that will de-tuple our fake tuples
    val p2 = new Partitioner() {
      override def numPartitions: Int = p.numPartitions
      override def getPartition(k: Any): Int = p.getPartition(k.asInstanceOf[(Any, _)]._1)
    }
    // Unfortunately, since we're making a new p2, we'll get ShuffleDependencies
    // anyway, and when calling .keys, will not have a partitioner set, even though
    // the SubtractedRDD will, thanks to p2's de-tupled partitioning, already be
    // partitioned by the right/real keys (e.g. p).
    this.map(x => (x, null)).subtractByKey(other.map((_, null)), p2).keys
  } else {

//如果不相等，則採用預設的hash分割槽
    this.map(x => (x, null)).subtractByKey(other.map((_, null)), p).keys
  }

主要是將本RDD和other rdd轉化為KV對，其中V為null，然後呼叫subtractByKey函式，且看subtractByKey的實現：

/** Return an RDD with the pairs from `this` whose keys are not in `other`. */
  def subtractByKey[W: ClassTag](other: RDD[(K, W)], p: Partitioner): RDD[(K, V)] = self.withScope {
  new SubtractedRDD[K, V, W](self, other, p)

返回一個SubtractedRDD，繼續往下看:

private[spark] class SubtractedRDD[K: ClassTag, V: ClassTag, W: ClassTag](
    @transient var rdd1: RDD[_ <: Product2[K, V]],
    @transient var rdd2: RDD[_ <: Product2[K, W]],
    part: Partitioner)
  extends RDD[(K, V)](rdd1.context, Nil) {
  
  private var serializer: Option[Serializer] = None
  
  /** Set a serializer for this RDD's shuffle, or null to use the default (spark.serializer) */
  def setSerializer(serializer: Serializer): SubtractedRDD[K, V, W] = {
    this.serializer = Option(serializer)
    this
  }
  
  override def getDependencies: Seq[Dependency[_]] = {

//根據分割槽函式獲取結果RDD和rdd1，rdd2的依賴關係
    Seq(rdd1, rdd2).map { rdd =>
      if (rdd.partitioner == Some(part)) {
        logDebug("Adding one-to-one dependency with " + rdd)
        new OneToOneDependency(rdd)
      } else {
        logDebug("Adding shuffle dependency with " + rdd)
        new ShuffleDependency(rdd, part, serializer)
      }
    }
  }
  
  override def getPartitions: Array[Partition] = {
    val array = new Array[Partition](part.numPartitions)
    for (i <- 0 until array.length) {
      // Each CoGroupPartition will depend on rdd1 and rdd2
      array(i) = new CoGroupPartition(i, Seq(rdd1, rdd2).zipWithIndex.map { case (rdd, j) =>
        dependencies(j) match {
          case s: ShuffleDependency[_, _, _] =>
            None
          case _ =>
            Some(new NarrowCoGroupSplitDep(rdd, i, rdd.partitions(i)))
        }
      }.toArray)
    }
    array
  }
  
  override val partitioner = Some(part)
  
  override def compute(p: Partition, context: TaskContext): Iterator[(K, V)] = {
    val partition = p.asInstanceOf[CoGroupPartition]

//保存相同的KEY的VALUE
    val map = new JHashMap[K, ArrayBuffer[V]]
    def getSeq(k: K): ArrayBuffer[V] = {
      val seq = map.get(k)
      if (seq != null) {
        seq
      } else {
        val seq = new ArrayBuffer[V]()
        map.put(k, seq)
        seq
      }
    }
    def integrate(depNum: Int, op: Product2[K, V] => Unit) = {
      dependencies(depNum) match {

//如果是窄依賴，則直接讀取父RDD的資料
        case oneToOneDependency: OneToOneDependency[_] =>
          val dependencyPartition = partition.narrowDeps(depNum).get.split
          oneToOneDependency.rdd.iterator(dependencyPartition, context)
            .asInstanceOf[Iterator[Product2[K, V]]].foreach(op)
        //如果是寬依賴，則直接其對應的shuffle中間資料
        case shuffleDependency: ShuffleDependency[_, _, _] =>
          val iter = SparkEnv.get.shuffleManager
            .getReader(
              shuffleDependency.shuffleHandle, partition.index, partition.index + 1, context)
            .read()
          iter.foreach(op)
      }
    }
  
    // the first dep is rdd1; add all values to the map

//先將本RDD的KV對快取至記憶體integrate(0, t => getSeq(t._1) += t._2)
    // the second dep is rdd2; remove all of its keys

//然後遍歷other Rdd的對應shuffle分割槽資料，去除掉相同的key的值integrate(1, t => map.remove(t._1))
    //將(k,Seq(v))轉化成(k,v)列表map.iterator.map { t => t._2.iterator.map { (t._1, _) } }.flatten
  }

從實現可以看出subtractByKey用於rdd1比rdd2少很多的情況，因為rdd1是存在記憶體，rdd2只要遍歷stream即可。如果rdd1很大，且reduce數較少的情況可能發生OOM。如果rdd1很大可以考慮使用cogroup來實現。

Subtract的具體執行流程如下：

43.keyBy

利用函式f生成KV對

/**
 * Creates tuples of the elements in this RDD by applying `f`.
 */
  def keyBy[K](f: T => K): RDD[(K, T)] = withScope {
  val cleanedF = sc.clean(f)

//利用map操作生成KV對
  map(x => (cleanedF(x), x))
}

例項如下：

List<Integer> data = Arrays.asList(1,4,3,2,5,6);
JavaRDD<Integer> JavaRDD = jsc.parallelize(data, 2);
JavaPairRDD<Integer,Integer> pairRDD = JavaRDD.keyBy(new Function<Integer, Integer>() {
    @Override
    public Integer call(Integer v1) throws Exception {
        return v1;
    }
});
  for(Tuple2<Integer,Integer> tuple2:pairRDD.collect()){
    System.out.println(tuple2._1()+" "+tuple2._2());
}

列印如下：

1 1

4 4

3 3

2 2

5 5

6 6

其執行流程如下：

Spark運算元執行流程詳解之八

針對rdd的每個元素利用f進行處理 /** * Applies a function f to all elements of this RDD. */ def foreach(f: T => Unit): Unit = withScope { val cleanF = sc.clean

Spark運算元執行流程詳解之六

coalesce顧名思義為合併，就是把多個分割槽的RDD合併成少量分割槽的RDD，這樣可以減少任務排程的時間，但是請記住：合併之後不能保證結果RDD中的每個分割槽的記錄數量是均衡的，因為合併的時候並沒有考慮合併前每個分割槽的記錄數，合併只會減少RDD的分割槽個數，因此並不能利用它來解決資料傾斜的問題。 d

Spark運算元執行流程詳解之四

針對RDD的每個分割槽進行處理，返回一個新的RDD /** * Return a new RDD by applying a function to each partition of this RDD. * * `preservesPartitioning` indicates whether t

(八) Java多執行緒詳解之阻塞佇列BlockingQueue及佇列優先順序詳解

阻塞佇列阻塞佇列與普通佇列的區別在於當佇列是空時從佇列中獲取元素的操作將會被阻塞，或者當佇列是滿時往佇列裡新增元素的操作會被阻塞。試圖從空的阻塞佇列中獲取元素的執行緒將會被阻塞，直到其他的執行緒往空的佇列插入新的元素，同樣試圖往已滿的阻塞佇列中新增新元素的執

MapReduce之reducer任務執行流程詳解

第一階段是 Reducer 任務會主動從 Mapper 任務複製其輸出的鍵值對。Mapper 任務可能會有很多，因此 Reducer 會複製多個 Mapper 的輸出。第二階段是把複製到 Reducer 本地資料，全部進行合併，即把分散的資料合併成一個大的資料。再對合並後的資

Struts2框架執行流程詳解

Struts2框架執行流程詳解1． Struts2源碼導入對於struts2框架它的源代碼我們主要使用三部分 struts2核心部分源代碼 org.apache.struts2xxsrc\core\src\main\java struts2的xwork核心部分源代碼src\xwork-core\src\m

機器學習中的概率模型和概率密度估計方法及VAE生成式模型詳解之八（第4章之 AEVB和VAE）

RM mes 9.png size mar evb DC 機器 DG ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?

MapReduce執行流程詳解

文章轉載自：https://www.cnblogs.com/sunfie/p/4651609.html 一、MapReduce執行過程 MapReduce執行時，首先通過Map讀取HDFS中的資料，然後經過拆分，將每個檔案中的每行資料分拆成鍵值對，最後輸出作為Reduce的輸入，大體執行

springmvc的執行流程詳解

1.什麼是MVC MVC是Model View Controller的縮寫，它是一個設計模式 2.springmvc執行流程詳細介紹第一步：發起請求到前端控制器(DispatcherServlet) 第二步：前端控制器請求HandlerMapping查詢 Handler 可以

MR執行流程詳解

一、在我們提交完MR程式之後，MR程式會先後經歷map，reduce階段，下面我們詳細的來解析一下各個階段 1、map階段，在這個階段主要分如下的幾個步驟read，map,collect，溢寫，combine階段 (1)、在read階段，maptask會呼

(三) Java多執行緒詳解之執行緒範圍內共享變數及ThreadLocal類使用

執行緒範圍內共享變數 HashTable方式實現在開發中經常會遇到一種情況:有一個變數會被多個執行緒訪問，但是要確保同個執行緒內訪問的是同一個物件，Hashtable方式實現程式碼如下: public class ThreadExample5 {

.net/c#中棧和堆的區別及程式碼在棧和堆中的執行流程詳解

在.NET framework環境下，當我們的程式碼執行時，記憶體中有兩個地方用來儲存這些程式碼。假如你不曾瞭解，那就讓我來給你介紹棧(Stack)和堆(Heap)。棧和堆都用來幫助我們執行程式碼的，它們駐留在機器記憶體中，且包含所有程式碼執行所需要的資訊。棧負責儲存我們的程式碼執行（或呼叫）路徑,而

iOS 開發多執行緒詳解之Pthread實現多執行緒

pthread基礎實現多執行緒的技術方案之一. pthread是POSIX thread的簡寫.表示跨平臺的執行緒介面. 多執行緒的開發框架,由於是跨平臺的C語言框架,在蘋果的標頭檔案中並沒有詳細

(七) Java多執行緒詳解之常用執行緒同步工具類

執行緒同步工具類訊號燈(Semaphore) 可以維護當前訪問自身的執行緒個數並提供了同步機制，使用Semaphore可以控制同時訪問資源的執行緒個數，示例程式碼如下: public class ThreadExample16 { publi

Spring 框架基礎(06)：Mvc架構模式簡介，執行流程詳解

本文原始碼：GitHub·點這裡 || GitEE·點這裡一、SpringMvc框架簡介 1、Mvc設計理念 MVC是一種軟體設計典範，用一種業務邏輯、資料、介面顯示分離的方法組織程式碼，將業務邏輯聚集到一個元件裡面，在改進和個性化定製介面及使用者互動的同時，不需要重新編寫業務邏輯，MVC分層有助於管理和架

Spark任務提交執行全流程詳解

** Spark任務提交執行流程 ** Spark任務的本質是對我們編寫的RDD的依賴關係切分成一個個Stage，將Stage按照分割槽分批次的生成TaskSet傳送到Executor進行任務的執行 Spark任務分兩種： 1、shuffleMapTask：shuffle

Java單元測試工具：JUnit4（三）——JUnit詳解之執行流程及常用註解

（三）執行流程及常用註解這篇筆記記錄JUnit測試類執行時，類中方法的執行順序；以及JUnit中常用的註解。 1.JUnit的執行流程 1.1 新建測試類

Java單元測試工具：JUnit4——JUnit詳解之執行流程及常用註解

說明： ①testDivide()方法中，將除數設為0，本會丟擲Error，但設定了@Test(expected=ArithmeticException.class)，說明我們預期它會丟擲一個算術異常，所以程式結果也符合我們的預期。 ②testWhile()方法是一個死迴圈，

Mybatis原始碼詳解之介面方法被執行流程原始碼解析

與上一篇Mybatis原始碼解析的部落格已經隔了好長一段時間，最近發生了一些亂七八糟糟心的事情，甚至每天加班，沒來得及寫點什麼，最近一個月的學習是亂的一塌糊塗。接著上一篇的分析，上一篇完成了所有配置檔案的解析，將各個配置檔案都解析到一個叫C

javascript運行機制之執行順序詳解

onload 預編譯 c# step 而且 () 我們術語 aaa JavaScript是一種描述型腳本語言，它不同於java或C#等編譯性語言,它不需要進行編譯成中間語言,而是由瀏覽器進行動態地解析與執行。那麽JavaScript是怎麽來進行解析的嗎？它的執行順序又是如

Spark運算元執行流程詳解之八

41.foreachPartition

42.subtract

43.keyBy

相關推薦