Spark之RDD的屬性

阿新 • • 發佈：2019-01-02

1.一組分片（Partition），即資料集的基本組成單位。對於RDD來說，每個分片都會被一個計算任務處理，並決定平行計算的粒度。使用者可以在建立RDD時指定RDD的分片個數，如果沒有指定，那麼就會採用預設值。預設值就是程式所分配到的CPU Core的數目。
2.一個計算每個分割槽的函式。Spark中RDD的計算是以分片為單位的，每個RDD都會實現compute函式以達到這個目的。compute函式會對迭代器進行復合，不需要儲存每次計算的結果。
3.RDD之間的依賴關係。RDD的每次轉換都會生成一個新的RDD，所以RDD之間就會形成類似於流水線一樣的前後依賴關係。在部分分割槽資料丟失時，Spark可以通過這個依賴關係重新計算丟失的分割槽資料，而不是對RDD的所有分割槽進行重新計算。
4.一個Partitioner，即RDD的分片函式。

當前Spark中實現了兩種型別的分片函式，一個是基於雜湊的HashPartitioner，另外一個是基於範圍的RangePartitioner。只有對於於key-value的RDD，才會有Partitioner，非key-value的RDD的Parititioner的值是None。Partitioner函式不但決定了RDD本身的分片數量，也決定了parent RDD Shuffle輸出時的分片數量。
5.一個列表，儲存存取每個Partition的優先位置（preferred location）。對於一個HDFS檔案來說，這個列表儲存的就是每個Partition所在的塊的位置。按照“移動資料不如移動計算”的理念，Spark在進行任務排程的時候，會盡可能地將計算任務分配到其所要處理資料塊的儲存位置。

Spark之RDD的屬性

Spark之RDD的屬性

跟我一起學Spark之——RDD Join中寬依賴與窄依賴的判斷

Spark之RDD運算元-轉換運算元

Spark之RDD程式設計

Spark快速大數據分析之RDD基礎

Spark核心RDD、什麽是RDD、RDD的屬性、創建RDD、RDD的依賴以及緩存、

spark筆記之RDD的緩存

spark core之RDD編程

spark筆記之RDD容錯機制之checkpoint

11.spark sql之RDD轉換DataSet

Spark函數詳解系列之RDD基本轉換

零基礎入門大資料之spark中rdd部分運算元詳解

零基礎入門大資料探勘之spark的rdd

Spark函式詳解系列之RDD基本轉換

Spark函式詳解系列之RDD基本轉換+例項

Spark學習之RDD

Java Spark之建立RDD的兩種方式和操作RDD

spark原始碼解讀3之RDD中top原始碼解讀

spark RDD運算元（十一）之RDD Action 儲存操作saveAsTextFile,saveAsSequenceFile,saveAsObjectFile,saveAsHadoopFile 等

Spark的RDD操作之Join大全！

Spark之RDD的屬性

相關推薦