Spark核心程式設計：RDD持久化詳解

阿新 • • 發佈：2019-01-15

1.RDD持久化原理

1.Spark非常重要的一個功能特性就是可以將RDD持久化在記憶體中。當對RDD執行持久化操作時，每個節點都會將自己操作的RDD的partition持久化到記憶體中，並且在之後對該RDD的反覆使用中，直接使用記憶體快取的partition。這樣的話，對於針對一個RDD反覆執行多個操作的場景，就只要對RDD計算一次即可，後面直接使用該RDD，而不需要反覆計算多次該RDD。
2.巧妙使用RDD持久化，甚至在某些場景下，可以將spark應用程式的效能提升10倍。對於迭代式演算法和快速互動式應用來說，RDD持久化，是非常重要的。
3.要持久化一個RDD，只要呼叫其cache()或者persist()方法即可。在該RDD第一次被計算出來時，就會直接快取在每個節點中。而且Spark的持久化機制還是自動容錯的

，如果持久化的RDD的任何partition丟失了，那麼Spark會自動通過其源RDD，使用transformation操作重新計算該partition。
4.cache()和persist()的區別在於，cache()是persist()的一種簡化方式，cache()的底層就是呼叫的persist()的無參版本，同時就是呼叫persist(MEMORY_ONLY)，將資料持久化到記憶體中。如果需要從記憶體中清楚快取，那麼可以使用unpersist()方法。
5.Spark自己也會在shuffle操作時，進行資料的持久化，比如寫入磁碟，主要是為了在節點失敗時，避免需要重新計算整個過程。

2.持久化和不持久化的對比

1.不使用RDD持久化的問題的原理：
這裡寫圖片描述
2.RDD持久化的工作原理：

3.案例：檢查第二次統計文件行數所要時間。
Java版：

// cache()或者persist()的使用，是有規則的
        // 必須在transformation或者textFile等建立了一個RDD之後，直接連續呼叫cache()或persist()才可以
        // 如果你先建立一個RDD，然後單獨另起一行執行cache()或persist()方法，是沒有用的
        // 而且，會報錯，大量的檔案會丟失
        JavaRDD<String> lines = sc.textFile 
("C://Users//Administrator//Desktop//spark.txt").cache();

        long beginTime = System.currentTimeMillis();
        long count = lines.count();
        System.out.println(count);  
        long endTime = System.currentTimeMillis();
        System.out.println("cost " + (endTime - beginTime) + " milliseconds.");   


        beginTime = System.currentTimeMillis();
        count = lines.count();
        System.out.println(count);  
        endTime = System.currentTimeMillis();
        System.out.println("cost " + (endTime - beginTime) + " milliseconds.");

結果：
不持久化（沒加catch（））：
第一次count：
這裡寫圖片描述
第二次count：

持久化（加catch（））：
第一次count：

第二次count：

對比可以看出，持久化後第二次count花費51毫秒，遠遠小於沒持久所花費的時間，持久化後spark的效能大幅度提高。

3.RDD持久化策略

1.RDD持久化是可以手動選擇不同的策略的。比如可以將RDD持久化在記憶體中、持久化到磁碟上、使用序列化的方式持久化，多持久化的資料進行多路複用。只要在呼叫persist()時傳入對應的StorageLevel即可。
1>MEMORY_ONLY:以非序列化的Java物件的方式持久化在JVM記憶體中。如果記憶體無法完全儲存RDD所有的partition，那麼那些沒有持久化的partition就會在下一次需要使用它的時候，重新被計算。
2>MEMORY_AND_DISK:同上，但是當某些partition無法儲存在記憶體中時，會持久化到磁碟中。下次需要使用這些partition時，需要從磁碟上讀取。
3>MEMORY_ONLY_SER:同MEMORY_ONLY，但是會使用Java序列化方式，將Java物件序列化後進行持久化。可以減少記憶體開銷，但是需要進行反序列化，因此會加大CPU開銷。
4>MEMORY_AND_DSK_SER:同MEMORY_AND_DSK。但是使用序列化方式持久化Java物件。
5>DISK_ONLY:使用非序列化Java物件的方式持久化，完全儲存到磁碟上。
6>MEMORY_ONLY_2或者MEMORY_AND_DISK_2等：如果是尾部加了2的持久化級別，表示會將持久化資料複用一份，儲存到其他節點，從而在資料丟失時，不需要再次計算，只需要使用備份資料即可。

4.選擇RDD持久化策略

1.Spark提供的多種持久化級別，主要是為了在CPU和記憶體消耗之間進行取捨。下面是一些通用的持久化級別的選擇建議：
1>優先使用MEMORY_ONLY，如果可以快取所有資料的話，那麼就使用這種策略。因為純記憶體速度最快，而且沒有序列化，不需要消耗CPU進行反序列化操作。
2>如果MEMORY_ONLY策略，無法儲存的下所有資料的話，那麼使用MEMORY_ONLY_SER，將資料進行序列化進行儲存，純記憶體操作還是非常快，只是要消耗CPU進行反序列化。
3>如果需要進行快速的失敗恢復，那麼就選擇帶字尾為_2的策略，進行資料的備份，這樣在失敗時，就不需要重新計算了。
4>能不使用DISK相關的策略，就不用使用，有的時候，從磁碟讀取資料，還不如重新計算一次。

Spark核心程式設計：RDD持久化詳解

1.RDD持久化原理

2.持久化和不持久化的對比

3.RDD持久化策略

4.選擇RDD持久化策略

Spark核心程式設計：RDD持久化詳解

Spark核心程式設計之RDD持久化詳解

Spark核心程式設計建立RDD及transformation和action詳解和案例

Spark核心程式設計：建立RDD（集合、本地檔案、HDFS檔案）

Spark核心RDD：Sort排序詳解

Spark核心RDD：foldByKey函式詳解

Spark RDD操作：combineByKey函式詳解

Spark筆記整理（十三）：RDD持久化性能測試（圖文並茂）

spark核心程式設計，spark基本工作原理與RDD

【搞定Java併發程式設計】第8篇：volatile關鍵字詳解

Linux 多工程式設計——多程序：vfork() 函式詳解

Spark RDD入門詳解

【搞定Java併發程式設計】第29篇：Executor 框架詳解

Spark核心類：彈性分散式資料集RDD及其轉換和操作pyspark.RDD

Spark RDD使用詳解2--RDD建立方式

Spark入門——1：RDD及程式設計介面

windows程式設計（14）：滑鼠訊息詳解

Spark RDD使用詳解1--RDD原理

Spark RDD API詳解(一) Map和Reduce

Spark RDD使用詳解5--Action運算元

Spark核心程式設計：RDD持久化詳解

1.RDD持久化原理

2.持久化和不持久化的對比

3.RDD持久化策略

4.選擇RDD持久化策略

相關推薦