SparkCore運算元（例項）之---- 交集、差集、並集（intersection, subtract, union, distinct, subtractByKey）

阿新 • • 發佈：2019-02-17

1. 交集 intersecion

1.1 原始碼

/**
   * Return the intersection of this RDD and another one. The output will not contain any duplicate
   * elements, even if the input RDDs did.//交集結果將會去重
   * 
   * @note This method performs a shuffle internally.//屬於shuffle類運算元
   */
   //參與計算的兩個RDD的元素泛型必須一致，也是返回的RDD的元素泛型
  def intersection(other: RDD[T]): RDD[T] = withScope {
    this.map(v => (v, null)).cogroup(other.map(v => (v, null)))
        .filter { case (_, (leftGroup, rightGroup)) => leftGroup.nonEmpty && rightGroup.nonEmpty }
        .keys
  }

原始碼分析：

thisRDD.intersection(otherRDD)：計算 thisRDD 和 otherRDD 的交集，交集結果將不會包含重複的元素，即使有的元素在兩個 RDD 中都出現多次；

intersection 屬於 shuffleDependency 類運算元；

其內部呼叫了cogroup運算元；

Note：凡是涉及兩個RDD的計算，並且計算是以相同 key分組的資料為物件進行的，那麼一定會呼叫 cogroup(otherDataSet，[numTasks]) 運算元。

1.2 程式碼例項：

   val list1 = List(1,2,3,4,5,6,7,7,20)
   val list2 = List(4,5,6,7,8,9,10)
   val rdd1: RDD[Int] = sc.parallelize(list1 , 3) //3為分割槽數,預設分割槽數為2
   val rdd2: RDD[Int] = sc.parallelize(list2)
   //交集:rdd1交rdd2
   rdd1.intersection(rdd2).foreach(println)

執行結果如下：

2. 差集 subtract

2.1 原始碼

   /**//預設保持thisRDD的分割槽器 和 分割槽數量
   * Return an RDD with the elements from `this` that are not in `other`.
   * 
   * Uses `this` partitioner/partition size, because even if `other` is huge, the resulting
   * RDD will be &lt;= us.
   */
  def subtract(other: RDD[T]): RDD[T] = withScope {
    subtract(other, partitioner.getOrElse(new HashPartitioner(partitions.length)))
  }

  /**//可以傳入引數，控制新生成RDD的分割槽數量（仍保持thisRDD分割槽規則）
   * Return an RDD with the elements from `this` that are not in `other`.
   */
  def subtract(other: RDD[T], numPartitions: Int): RDD[T] = withScope {
    subtract(other, new HashPartitioner(numPartitions))
  }

  /**//可以傳入引數，控制使用自定義的分割槽器
   * Return an RDD with the elements from `this` that are not in `other`.
   */
  def subtract(
      other: RDD[T],
      p: Partitioner)(implicit ord: Ordering[T] = null): RDD[T] = withScope {
    if (partitioner == Some(p)) {
      // Our partitioner knows how to handle T (which, since we have a partitioner, is
      // really (K, V)) so make a new Partitioner that will de-tuple our fake tuples
      val p2 = new Partitioner() {
        override def numPartitions: Int = p.numPartitions
        override def getPartition(k: Any): Int = p.getPartition(k.asInstanceOf[(Any, _)]._1)
      }
      // Unfortunately, since we're making a new p2, we'll get ShuffleDependencies
      // anyway, and when calling .keys, will not have a partitioner set, even though
      // the SubtractedRDD will, thanks to p2's de-tupled partitioning, already be
      // partitioned by the right/real keys (e.g. p).
      this.map(x => (x, null)).subtractByKey(other.map((_, null)), p2).keys
    } else {
      this.map(x => (x, null)).subtractByKey(other.map((_, null)), p).keys
    }
  }

2.2 程式碼例項
2.2.1 參與運算的RDD的泛型必須完全一致（統一型別）

    //準備資料集
    val list1 = List(1,2,3,4,5,6,7,7,20)
    val list2 = List(4,5,6,7,8,9,10)
    val array = Array("hello huangbo","hello xuzheng","hello huangxiaoming")
    val kv = Array(("a",1), ("b",2),("c",3),("a",1),("b",1),("c",1))
    val rdd1: RDD[Int] = sc.parallelize(list1 , 3) 
    val rdd2: RDD[Int] = sc.parallelize(list2)
    val rdd3: RDD[String] = sc.makeRDD(array)
    //k-v型的PairRDD
    val rdd4:RDD[(String,Int)] = sc.makeRDD(kv)  //會自動將元組的第一個元素作為key
    
    /** 開始計算差集
      * subtract()：差集，參與運算的RDD必須具有相同泛型（元素型別一致）；
      *     1、當為單值元素時，直接求差集
      *     2、當為(K,V)時，仍然按照整個元素進行求差集（而不是按照key）;
      */
    val subtractRes: RDD[Int] = rdd1.subtract(rdd2)
    subtractRes.foreach(x => print(x + "\t"));println() //差集： 3	1	2	20
    //rdd3.subtract(rdd4)  //錯誤，參與運算的RDD必須泛型相同

2.2.2 當RDD的元素為元組時，元組內部的構成元素也必須一致：

    //錯誤：泛型不統一，無法進行差集計算（上雖然都是元組，但是元組的泛型不一致）
    val list01 = Array(("a",1), ("b",2), ("c",3))
    val rdd01: RDD[(String, Int)] = sc.parallelize(list01)
    val list02 = Array(("a","lily"),("b","lucy"),("c","rose"),("c",3))
    val rdd02: RDD[(String, Any)] = sc.makeRDD(list02)
    //rdd01.subtract(rdd02).foreach(print) //錯誤，元組的泛型不一致

但是可以使用多型，向上進行型別抽象，將型別統一：

    //正確：泛型統一了，結果為：(a,1)(b,2)
    //手動指定泛型Any，以統一型別
    val list03: Array[(String, Any)] = Array(("a",1), ("b",2), ("c",3))
    val rdd03 = sc.parallelize(list03)
    val list04: Array[(String, Any)] = Array(("a","lily"),("b","lucy"),("c","rose"),("c",3))
    val rdd04 = sc.makeRDD(list04)
    rdd03.subtract(rdd04).foreach(print)

3. 按照key取差集 subtractByKey

thisPairRDD.subtractByKey(otherPairRDD)：以key值作為元素的唯一性標誌，記性差集運算，與value的型別和值無關。

注意：參與運算的必須是PairRDD。

程式碼例項

    /**
      * subtractByKey(otherRDD)：只針對於key做差集，返回主RDD中存在的KEY，而otherRDD中不存在的KEY的元素;
      *           ----針對於PairRDD
      */
    val rdd10 = sc.makeRDD(Array(("a",1), ("b",2), ("c",3), ("a",5), ("d",5)))
    val rdd11 = sc.makeRDD(Array(("a",1), ("b",2), ("c",3)))
    //結果為 (d,5): 因為只有key="d" 在rdd11中沒有出現
    rdd10.subtractByKey(rdd11).foreach(print)

4. 並集

4.1 拼接運算元 union

/** 交集、並集、差集
   * union(): 直接拼接，並不會去重（並不是數學意義上的並集）
   * count()：統計 RDD的元素個數！
   */
/*
    rdd1 = {1,2,3,4,5,6,7,7,20}
    rdd2 = {4,5,6,7,8,9,10}
 */
    println(rdd1.union(rdd2).count())//16個元素

4.2 求交集（先union，再distinct）

    //並集：先union拼接，再distinct去重
    rdd1.union(rdd2).distinct().foreach(println)

SparkCore運算元（例項）之---- 交集、差集、並集（intersection, subtract, union, distinct, subtractByKey）

1. 交集 intersecion 1.1 原始碼 /** * Return the intersection of this RDD and another one. The output will not contain any duplicate

linux（十三）之磁盤分區、創建文件系統、掛載

動作打開 oot mage 允許關閉自動 def ubun mount 前面學習了linux的用戶管理，感覺是不是linux的多用戶多任務的系統感覺十分了解了，但是其實並不然的。你還需要了解更多。接下來給大家分享的是在vmware中添加硬盤創建分區，然後掛載到指定

Python 多執行緒、多程序（三）之執行緒程序對比、多程序

Python 多執行緒、多程序（一）之原始碼執行流程、GIL Python 多執行緒、多程序（二）之多執行緒、同步、通訊 Python 多執行緒、多程序（三）之執行緒程序對比、多執行緒一、多執行緒與多程序的對比在之前簡單的提過，CPython中的GIL使得同一時刻只能有一個執行緒執行，即併

Servlet學習筆記（二）之Servlet路徑對映配置、Servlet介面、ServletConfig、ServletContext

Servlet路徑對映配置要使Servlet物件正常的執行，需要進行適當的配置，以告訴Web容器哪個請求呼叫哪個Servlet物件處理，對Servlet起到一個註冊的作用。Servlet的配置資訊包含在web.xml檔案中，主要通過兩步進行配置：（1）宣告Servlet物件通過< servlet&

計算機網路實驗（二）之Wireshark抓包分析獲取URL列表（去重、排序、統計）

實驗要求本試驗要求基於第一次實驗中訪問某官網主頁時所抓取到的資料包，用Python 3語言、Jupyter Notebook和Pyshark編寫程式碼進行協議分析所需的開發環境，編寫程式碼，以輸出的方式列出首頁以及其所包含的所有資源（至少包含如下型別

黑馬程式設計師——Java IO流（二）之流操作規律總結、File類、Properties類、序列流等

-----------android培訓、java培訓、java學習型技術部落格、期待與您交流！------------ 六、流操作規律總結　1.明確源和目的：　　源：　　　字元流：FileReader（純文字檔案）。　　　位元組流：FileInputStream（

Qt自定義控制元件的建立與初步使用（二）之圖片上繪製文字、箭頭、曲線

本文目的：編輯自定義控制元件的介面ui，並在圖片上添文字、箭頭、曲線、開啟、儲存等功能。並說明了如何去使用這個編輯好的ui介面控制元件！上次簡單的說明了如何去建立Qt自定義控制元件，當時還是對其瞭解不夠深刻，現在看來，QT自定義控制元件就是你事先把介面寫好（一般基於QWi

MySQL（九）之數據表的查詢詳解（SELECT語法）二

clas reg 3.2 查詢語句我們 lin where 過濾情況上一篇講了比較簡單的單表查詢以及MySQL的組函數，這一篇給大家分享一點比較難得知識了，關於多表查詢，子查詢，左連接，外連接等等。希望大家能都得到幫助！在開始之前因為要多表查詢，所以搭建好環境：

2018 - Python 3.7 爬蟲之利用 Scrapy 框架獲取圖片並下載（二）

一、通過命令構建一個爬蟲專案二、定義 item 三、啟用 pipeline 管道四、編寫爬蟲 Spider 五、執行爬蟲六、結果檢視未安裝 Scrapy 框架，見上一篇文章：框架安裝及配置一、通過命令構建一個爬蟲專

Ocelot簡易教程（六）之重寫配置檔案儲存方式並優化響應資料

本來這篇文章在昨天晚上就能釋出的，悲劇的是寫了兩三千字的文章居然沒儲存，結果我懵逼了。今天重新來寫這篇文章。今天我們就一起來探討下如何重寫Ocelot配置檔案的儲存方式以及獲取方式。很多人都說配置檔案的配置很繁瑣，如果儲存在資料庫就方便很多，可以通過自定義UI介面在後臺進行路由的配置，然後通過呼叫Adm

Java之兩個Set集合的交集、差集和並集

一、求交集注：場景是讀取兩個檔案，把檔案內容放到Set中，求兩個檔案之間的共同元素。在這裡只寫對Set的操作。 public static void main(String[] args) throws Exception { String path1 = "pat

《Python學習手冊》學習筆記（4）之第4章介紹Python物件型別（關鍵詞：程式語言/Python）

第4章介紹Python物件型別寫在開頭的讀者筆記值得一讀的小節 1.“為什麼使用內建型別” - “Python的核心資料型別”，主要學到了： Python是強型別語言，你只能對一個物件進行適合該型別的有效操作。一旦建立了一個物件，它就和

利用模板匯出檔案（二）之jacob利用word模板匯出word檔案（Java2word）

先下載jacob.jar包。解壓後將jacob.dll放到windows/system32下面或\jre\bin下面。將jacob.jar加入專案。這樣專案的環境基本上搭建完成，接下來就是書寫相關的程式碼： /** * 傳入資料為HashMap物件，物件中的Key代表w

python爬蟲【例項】爬取豆瓣電影評分連結並圖示（）-問題如何爬取電影圖片（解決有程式碼）

這裡只有尾巴，來分析一下確定範圍：如何爬取圖片並下載？參考：http://blog.csdn.net/chaoren666/article/details/53488083----------------------------------------------------

Java高級互聯網架構師系統培訓班課程（nginx+redis+zookeeper+activemq+storm+dubbo+netty+jvm+並發編程鎖+項目實戰）

.... queue 多線程通信 ket targe gin per 17. 同步類容器百度網盤下載課程目錄分布式項目實戰所有視頻(分布式項目視頻所有的放在一起)分布式實戰項目1.mp4分布式實戰項目2.mp4分布式實戰項目3.mp4分布式實戰項目4.mp4分布式實戰項

求兩個集合的交集、差集和並集

#include <stdio.h> #include <stdlib.h> typedef struct node{ char data; struct node * next; }Linklist; //尾插入法

oracle中sql語句中多個查詢結果的交集、差集和並集

１.交集 intersect運算：返回查詢結果中相同的部分。 SELECT product_id FROM tab1 INTERSECT SELECT product_

關於java（MyEclipse）時區不對，差8個小時處理（方法一）

最近有遇到java的時間不對的事件，現象：通過java語句獲得系統時間，用 Date d = new Date(); SimpleDateFormat sdf=new SimpleDateFormat("yyyy-MM-dd kk:mm:ss "); System

Oracle 多個查詢結果的交集、差集和並集

union/union all運算：將查詢的返回組合成一個結果， union all不過濾重複。 SELECT product_id FROM order_items UNION SELECT product_id FROM inventories; SELECT

C#對List取交集、差集及並集

1. 交集（1）取交集 (A和B都有) List A : { 1 , 2 , 3 , 5 , 9 } List B : { 4 , 3 , 9 } var intersectedList = list1.Intersect(list2); 結果

SparkCore運算元（例項）之---- 交集、差集、並集（intersection, subtract, union, distinct, subtractByKey）

1. 交集 intersecion

2. 差集 subtract

3. 按照key取差集 subtractByKey

4. 並集

4.1 拼接運算元 union

4.2 求交集（先union，再distinct）

相關推薦