Spark中Task，Partition，RDD、節點數、Executor數、core數目的關係和Application，Driver，Job，Task，Stage理解

阿新 • • 發佈：2019-01-28

梳理一下Spark中關於併發度涉及的幾個概念File，Block，Split，Task，Partition，RDD以及節點數、Executor數、core數目的關係。

輸入可能以多個檔案的形式儲存在HDFS上，每個File都包含了很多塊，稱為Block。
當Spark讀取這些檔案作為輸入時，會根據具體資料格式對應的InputFormat進行解析，一般是將若干個Block合併成一個輸入分片，稱為InputSplit，注意InputSplit不能跨越檔案。
隨後將為這些輸入分片生成具體的Task。InputSplit與Task是一一對應的關係。
隨後這些具體的Task每個都會被分配到叢集上的某個節點的某個Executor

去執行。

每個節點可以起一個或多個Executor。
每個Executor由若干core組成，每個Executor的每個core一次只能執行一個Task。
每個Task執行的結果就是生成了目標RDD的一個partiton。

注意: 這裡的core是虛擬的core而不是機器的物理CPU核，可以理解為就是Executor的一個工作執行緒。

而 Task被執行的併發度 = Executor數目 * 每個Executor核數。

至於partition的數目：

對於資料讀入階段，例如sc.textFile，輸入檔案被劃分為多少InputSplit就會需要多少初始Task。
在Map階段partition數目保持不變。

在Reduce階段，RDD的聚合會觸發shuffle操作，聚合後的RDD的partition數目跟具體操作有關，例如repartition操作會聚合成指定分割槽數，還有一些運算元是可配置的。

1，Application

application（應用）其實就是用spark-submit提交的程式。比方說spark examples中的計算pi的SparkPi。一個application通常包含三部分：從資料來源（比方說HDFS）取資料形成RDD，通過RDD的transformation和action進行計算，將結果輸出到console或者外部儲存（比方說collect收集輸出到console）。

2，Driver

Spark中的driver感覺其實和yarn中Application Master的功能相類似。主要完成任務的排程以及和executor和cluster manager進行協調。有client和cluster聯眾模式。client模式driver在任務提交的機器上執行，而cluster模式會隨機選擇機器中的一臺機器啟動driver。從spark官網截圖的一張圖可以大致瞭解driver的功能。

3，Job

Spark中的Job和MR中Job不一樣不一樣。MR中Job主要是Map或者Reduce Job。而Spark的Job其實很好區別，一個action運算元就算一個Job，比方說count，first等。

4, Task

Task是Spark中最新的執行單元。RDD一般是帶有partitions的，每個partition的在一個executor上的執行可以任務是一個Task。

5, Stage

Stage概念是spark中獨有的。一般而言一個Job會切換成一定數量的stage。各個stage之間按照順序執行。至於stage是怎麼切分的，首選得知道spark論文中提到的narrow dependency(窄依賴)和wide dependency（寬依賴）的概念。其實很好區分，看一下父RDD中的資料是否進入不同的子RDD，如果只進入到一個子RDD則是窄依賴，否則就是寬依賴。寬依賴和窄依賴的邊界就是stage的劃分點

Spark中Task，Partition，RDD、節點數、Executor數、core數目的關係和Application，Driver，Job，Task，Stage理解

1，Application

2，Driver

3，Job

4, Task

5, Stage

Spark中Task，Partition，RDD、節點數、Executor數、core數目的關係和Application，Driver，Job，Task，Stage理解

spark 中如何查看單個RDD分區的內容（創建分區，查看分區數）

Nginx並發數、每秒連接數、下載速度限制，防攻擊殺手鐧

Spark中的三種分散式部署方式對比（粗粒度模式、細粒度模式）

機器學習中的範數規則化之（一）L0、L1與L2範數、核範數與規則項引數選擇

IT小鮮肉 Widgets Tree 單選、多選、相關回調函數、獲取選中的節點功能

三、vue如何配置路由、獲取路由的參數、部分刷新頁面、緩存頁面

JS高級. 02 面向對象、創建對象、構造函數、自定義構造函數、原型

hive數據類型轉換、字符串函數、條件判斷

常用函數、文本處理函數、日期函數

Struts標籤、Ognl表示式、el表示式、jstl標籤庫這四者之間的關係和各自作用

織夢DEDECMS首頁、列表頁、文章頁呼叫評論數、收藏數標籤

spark中RDD，DataSet，DataFrame的區別

Spark：在Spark叢集中，叢集的節點個數、RDD分割槽個數、cpu核心個數三者與並行度的關係？？

spark中executor執行Driver傳送的task，放入執行緒池中執行原理

spark中webUI的啟動、除錯、配置歷史伺服器，spark-Master-HA等

spark——spark中常說RDD，究竟RDD是什麼？

spark中的pair rdd，看這一篇就夠了

sql 異常<除非另外還指定了 TOP、OFFSET 或 FOR XML，否則，ORDER BY 子句在視圖、內聯函數、派生表、子查詢和公用表表達式中無效。>

sql 中，如何獲取兩個日期之前月數、周數、天數

Spark中Task，Partition，RDD、節點數、Executor數、core數目的關係和Application，Driver，Job，Task，Stage理解

1，Application

2，Driver

3，Job

4, Task

5, Stage

相關推薦