1. 程式人生 > >Spark核心原始碼深度剖析(1) - Spark整體流程 和寬依賴和窄依賴

Spark核心原始碼深度剖析(1) - Spark整體流程 和寬依賴和窄依賴

1 Spark 整體流程

在這裡插入圖片描述
在這裡插入圖片描述

2 寬依賴和窄依賴

在這裡插入圖片描述

2.1 窄依賴

  • Narrow Dependency,一個RDD對它的父RDD,只有簡單的一對一的依賴關係。即RDD的每個 partition僅僅依賴於父RDD中的一個 partition。父RDD和子RDD的 partition之間的對應關係是一對一的。

2.2 寬依賴

  • Shuffle Dependency,本質就是 shuffle ,每一個父 RDD 的partition中的資料都可能傳輸一部分到下一個RDD 的每個 partition。此時就會出現 父RDD和子RDD的partition之間,具有互動錯綜複雜的關係。兩個RDD之間是寬依賴,他們之間的操作就是 Shuffle