1. 程式人生 > >Spark學習之RDD

Spark學習之RDD

1、由圖可知每一個RDD由一系列partition組成。 2、例如將flatMap作用在每一個分割槽上,即父RDD作為flatMap的輸入,子RDD作為flatMap的輸出。 3、當一個partition內丟失,由於子RDD知道父RDD是誰,所以子RDD可以將函式再次作用在父RDD的partition上,重新生成新的partition,正是由於RDD的依賴性(單向依賴),計算的容錯性才高。 4、什麼是KV格式RDD?如果RDD中的資料是二元組型別的,那麼我們就稱RDD是KV格式的RDD。即非KV格式RDD不能使用partitionBy方法。 5、RDD提供了一個方法介面,只要呼叫這個方法介面,就可以找到每一個partition所在的位置。然後將task分發到partition所在節點上執行,這樣有利於資料本地化(計算向資料移動)