Spark 入門之二：Spark RDD詳解

阿新 • • 發佈：2019-02-02

RDD的容錯機制實現分散式資料集容錯方法有兩種：資料檢查點和記錄更新RDD採用記錄更新的方式：記錄所有更新點的成本很高。所以，RDD只支援粗顆粒變換，即只記錄單個塊上執行的單個操作，然後建立某個RDD的變換序列（血統）儲存下來；變換序列指，每個RDD都包含了他是如何由其他RDD變換過來的以及如何重建某一塊資料的資訊。因此RDD的容錯機制又稱“血統”容錯。要實現這種“血統”容錯機制，最大的難題就是如何表達父RDD和子RDD之間的依賴關係。實際上依賴關係可以分兩種，窄依賴和寬依賴：窄依賴：子RDD中的每個資料塊只依賴於父RDD中對應的有限個固定的資料塊；寬依賴：子RDD中的一個數據塊可以依賴於父RDD中的所有資料塊。例如：map變換，子RDD中的資料塊只依賴於父RDD中對應的一個數據塊；groupByKey變換，子RDD中的資料塊會依賴於多有父RDD中的資料塊，因為一個key可能錯在於父RDD的任何一個數據塊中將依賴關係分類的兩個特性：第一，窄依賴可以在某個計算節點上直接通過計算父RDD的某塊資料計算得到子RDD對應的某塊資料；寬依賴則要等到父RDD所有資料都計算完成之後，並且父RDD的計算結果進行hash並傳到對應節點上之後才能計運算元RDD。第二，資料丟失時，對於窄依賴只需要重新計算丟失的那一塊資料來恢復；對於寬依賴則要將祖先RDD中的所有資料塊全部重新計算來恢復。所以在長“血統”鏈特別是有寬依賴的時候，需要在適當的時機設定資料檢查點。也是這兩個特性要求對於不同依賴關係要採取不同的任務排程機制和容錯恢復機制。

Spark 入門之二：Spark RDD詳解

Spark 入門之二：Spark RDD詳解

Spark入門之八：Spark Streaming 的原理以及應用場景介紹

Spark入門之六：SparkSQL實戰

spark入門之二 spark作業提交流程

Labview入門之二：認識基本控件

TensorFlow入門之二：tensorflow手寫數字識別

SpringBoot 入門之二：獲取Properties中的值，通過類配置來替代原SpringXML的配值和注入方式

Godot3遊戲引擎入門之二：第一個簡單的遊戲場景

SpringMVC入門之二：配置及啟用SpringMVC（基於JAVA配置）

數獨高階技巧入門之二：簡單的單數鏈結構——雙強鏈

JSON入門之二：org.json的基本用法

Spark學習之15：Spark Streaming執行流程(1)

Quarkus框架入門之二：依賴注入

OSPF詳解之三：OSPF LSA詳解

python爬蟲學習筆記二：Requests庫詳解及HTTP協議

Python零基礎入門之函式的修飾器詳解！

STL之三：deque用法詳解

Android系列教程之七：EditText使用詳解-包含很多教程上看不到的功能演示

hihoCoder題二：A + B詳解

.Neter玩轉Linux系列之五：crontab使用詳解和Linux的程序管理以及網路狀態監控

Spark 入門之二：Spark RDD詳解

相關推薦