SparkSQL中的三種Join及其實現（broadcast join、shuffle hash join和sort merge join）

阿新 • • 發佈：2018-12-13

1.小表對大表（broadcast join）

將小表的資料分發到每個節點上，供大表使用。executor儲存小表的全部資料，一定程度上犧牲了空間，換取shuffle操作大量的耗時，這在SparkSQL中稱作Broadcast Join

Broadcast Join的條件有以下幾個：

*被廣播的表需要小於 spark.sql.autoBroadcastJoinThreshold 所配置的值，預設是10M （或者加了broadcast join的hint）

*基表不能被廣播，比如 left outer join 時，只能廣播右表在這裡插入圖片描述

2.Shuffle Hash Join

因為被廣播的表首先被collect到driver段，然後被冗餘分發到每個executor上，所以當表比較大時，採用broadcast join會對driver端和executor端造成較大的壓力。

spark可以通過分割槽的形式將大批量的資料劃分成n份較小的資料集進行平行計算.

利用key相同必然分割槽相同的這個原理，SparkSQL將較大表的join分而治之，先將表劃分成n個分割槽，再對兩個表中相對應分割槽的資料分別進行Hash Join，

這樣即在一定程度上減少了driver廣播一側表的壓力，也減少了executor端取整張被廣播表的記憶體消耗。

*Shuffle Hash Join分為兩步：

對兩張表分別按照join keys進行重分割槽，即shuffle，目的是為了讓有相同join keys值的記錄分到對應的分割槽中

對對應分割槽中的資料進行join，此處先將小表分割槽構造為一張hash表，然後根據大表分割槽中記錄的join keys值拿出來進行匹配

*Shuffle Hash Join的條件有以下幾個：

分割槽的平均大小不超過spark.sql.autoBroadcastJoinThreshold所配置的值，預設是10M

基表不能被廣播，比如left outer join時，只能廣播右表

一側的表要明顯小於另外一側，小的一側將被廣播（明顯小於的定義為3倍小，此處為經驗值）　　　　在這裡插入圖片描述

3.大表對大表（Sort Merge Join）

將兩張表按照join keys進行了重新shuffle，保證join keys值相同的記錄會被分在相應的分割槽。分割槽後對每個分割槽內的資料進行排序，排序後再對相應的分割槽內的記錄進行連線

因為兩個序列都是有序的，從頭遍歷，碰到key相同的就輸出；如果不同，左邊小就繼續取左邊，反之取右邊(即用即取即丟) 　　在這裡插入圖片描述

package day05

import org.apache.spark.sql.{DataFrame, SparkSession}

/**
  * @author WangLeiKai
  *         2018/10/3  18:24
  */
object SparkSQLJoinDemo {
  def main(args: Array[String]): Unit = {
    //程式的入口
    val spark = SparkSession.builder().appName("SparkSQLJoinDemo").master("local[*]").getOrCreate()
    //匯入spark物件的隱式轉換
    import spark.implicits._



    //spark.sql.autoBroadcastJoinThreshold = -1
    //不限定小表的大小
    spark.conf.set("spark.sql.autoBroadcastJoinThreshold", -1)
    // 每個分割槽的平均大小不超過spark.sql.autoBroadcastJoinThreshold設定的值
    spark.conf.set("spark.sql.join.preferSortMergeJoin", true)

    println(spark.conf.get("spark.sql.autoBroadcastJoinThreshold"))


    //定義兩個集合，轉換成dataframe
    val df1: DataFrame = Seq(
      ("0", "a"),
      ("1", "b"),
      ("2", "c")
    ).toDF("id", "name")


    val df2: DataFrame = Seq(
      ("0", "d"),
      ("1", "e"),
      ("2", "f")
    ).toDF("aid", "aname")

    //重新分割槽
    df2.repartition()

    //df1.cache().count()

    //進行連線
    val result = df1.join(df2,$"id" === $"aid")

    //檢視執行計劃
    result.explain()

    //展示結果
    result.show()

    //釋放資源
    spark.stop()

  }
}

執行結果都是一樣的

在這裡插入圖片描述

檢視執行計劃：在這裡插入圖片描述

這三種join在傳統的資料庫中也有體現，只是現在是分散式的。

二叉樹的三種遍歷方式（遞迴、非遞迴和Morris遍歷）

二叉樹遍歷是二叉樹的最基本的操作，其實現方式主要有三種：遞迴遍歷非遞迴遍歷 Morris遍歷遞迴遍歷的實現非常容易，非遞迴實現需要用到棧。而Morris演算法可能很多人都不太熟悉，其強大之處在於只需要使用O(1)的空間就能實現對二叉樹O(n)時間的

SparkSQL中的三種Join及其實現（broadcast join、shuffle hash join和sort merge join）

1.小表對大表（broadcast join）將小表的資料分發到每個節點上，供大表使用。executor儲存小表的全部資料，一定程度上犧牲了空間，換取shuffle操作大量的耗時，這在SparkSQL中稱作Broadcast Join Broadcast Jo

PYTHON中三種取整函式（// int round）的區別

>>> 5//3 1 >>> -5//3 -2 >>> int(5.3) 5 >>> int(5.6) 5 >>> round(5.3) 5 >>> round(5.6

SparkML中三種特徵選擇演算法（VectorSlicer/RFormula/ChiSqSelector）

在SparkML中關於特徵的演算法可分為Extractors（特徵提取）、Transformers（特徵轉換）、Selectors（特徵選擇）三部分：上一章理解了基於SparkML的文字特徵提取（Feature Extractors）

程序排程三種演算法的實現（FCFS,SJF,RR）

作業系統的又一次作業，模擬程序排程。這次用JAVA 實現了三種排程演算法，包括FCFS（先到先服務）,SJF（短作業優先）,RR（輪轉排程演算法）。 eclipse匯入了阿里的一個jar包，用於實現josn資料的轉換。廢話就不多說了，直接上程式碼吧。

三種方式格式化時間（JS函式、HTML中EL表示式、Java程式碼中）

1：單純是從HTML中格式化時間，使用 <fmt:formatDatevalue="${templateUnit.creTime}" pattern="yyyy-MM-dd"/> 如果需

C++三種引數傳遞方法（值傳遞、指標傳遞、引用傳遞）的一些知識

C++的函式引數傳遞有三種方法：值傳遞、引用傳遞、指標傳遞。其中引用傳遞和指標傳遞幾乎一樣，只不過引用傳遞在使用時比指標更安全。（1）關於函式返回一個物件當你的函式返回型別是【非引用】的型別時，return時先呼叫該類的拷

Hibernate物件三種狀態詳細分析（轉自http://blog.csdn.net/redarmy_chen/article/details/7069482）

在hibernate中有三種狀態：瞬時態(Transient)、持久態(Persistent)、脫管態(Detached)。處於持久態的物件也稱為PO(Persistence Object)，瞬時物件和脫管物件也稱為VO（Value Object）。通過自己在網上的搜尋，

C++函數的三種傳遞方式為：值傳遞、指針傳遞和引用傳遞

否則方式指針指向 out 數據結構 logs 形參使用 C++函數的三種傳遞方式為：值傳遞、指針傳遞和引用傳遞值傳遞： void fun(int x){ x += 5; //修改的只是y在棧中copy x，x只是y的一個副本，在內存中重新開辟的一塊臨時空間把y

PoiExcel匯入實現（解決跨行問題以及03和07版本問題）

Excel資料匯入需求：需要將多個跨行的資料儲存在資料庫中，而且資料庫中的資料是樹形結構，多行多列存在父級關係，資料需要儲存父ID。解決方案：因為是樹形結構，那麼表單的資料分割槽讀取，先讀取父級的資料存到資料庫，再存入子類資料。第一步：解決Excel版本問題 String ori

broadcast hash join和sort merge join

Join操作是資料庫和大資料計算中的高階特性，大多數場景都需要進行復雜的Join操作，本文從原理層面介紹了SparkSQL支援的常見Join演算法及其適用場景。 Join背景介紹 Join是資料庫查詢永遠繞不開的話題，傳統查詢SQL技術總體可以分為簡單操作（過濾操作-wh

排序演算法1——圖解氣泡排序及其實現（三種方法，基於模板及函式指標）

排序演算法1——圖解氣泡排序及其實現（三種方法，基於模板及函式指標）排序演算法2——圖解簡單選擇排序及其實現排序演算法3——圖解直接插入排序以及折半（二分）插入排序及其實現排序演算法4——圖解希爾排序及其實現排序演算法5——圖解堆排序及其實現排序演算法6——圖解歸併排序及其遞迴與非

SparkSql中join的實現（ inner join，left outer join，right outer join，full outer join）

Join是SQL語句中的常用操作，良好的表結構能夠將資料分散在不同的表中，使其符合某種正規化，減少表冗餘、更新容錯等。而建立表和表之間關係的最佳方式就是Join操作。 SparkSQL作為大資料領域的SQL實現，自然也對Join操作做了不少優化，今天主要看一下在SparkS

在.NET Core中三種實現“可插拔”AOP編程方式（附源碼）

必須 n) 即使 extension cti 開閉 void 定義面向切面編程原文:在.NET Core中三種實現“可插拔”AOP編程方式（附源碼）一看標題肯定會聯想到使用動態編織的方式實現AOP編程，不過這不是作者本文討論的重點。本文討論另外三種在netcore中

Android中三種常用解析XML的方式（DOM、SAX、PULL）簡介及區別

字符串 lan win name屬性 Coding 空間 toc log fin XML在各種開發中都廣泛應用，Android也不例外。作為承載數據的一個重要角色，如何讀寫XML成為Android開發中一項重要的技能。今天就由我向大家介紹一下在Android平臺下幾種常見的

Git中三種文件狀態及其轉換

com att AD .com check 方案方便因此 ddl Git作為一種版本控制解決方案，由於其具有的分布式特性，正被越來越多的用戶熟知，一些有名的開源項目，如：Linux kernel，CakePHP，Ruby on Rails等，都在使用Git進行版本管理。

C++中類的三種繼承方式public（公有繼承）、protected（保護繼承）、private（私有繼承）之間的差別（附思維導圖）【轉】

（轉自：https://blog.csdn.net/coco56/article/details/80467975）注：若不指明繼承方式，則預設是私有繼承。一：對於公有繼承（public)方式：基類的public和protected成員的訪問屬性在派生類中保持不變，但基類的p

樹的三種遍歷方式（C語言實現）

//************************************************************************* // 【前序】遍歷演算法 //二叉樹不空，先訪問根結點，然後前序遍歷左子樹，再前序遍歷右子樹 //***********************

以下是JAVA中三種方式實現檔案字元統計

以下是JAVA中三種方式實現檔案字元統計 package com.lyc.gui; import java.io.FileReader; import java.io.IOException; import java.util.HashMap; import java.util.Ha

python核心高階學習總結3-------python實現程序的三種方式及其區別

python實現程序的三種方式及其區別在python中有三種方式用於實現程序多程序中，每個程序中所有資料（包括全域性變數）都各有擁有⼀份，互不影響 1.fork()方法 ret = os.fork() if ret == 0: #子程序 else:

SparkSQL中的三種Join及其實現（broadcast join、shuffle hash join和sort merge join）

1.小表對大表（broadcast join）

2.Shuffle Hash Join

3.大表對大表（Sort Merge Join）

這三種join在傳統的資料庫中也有體現，只是現在是分散式的。

相關推薦