Spark自學之路（七）——資料分割槽

阿新 • • 發佈：2018-11-20

資料分割槽

對資料集在節點間的分割槽控制。在分散式程式中，網路的通訊代價是很大的，因此控制資料分佈以獲得最少的網路傳輸可以極大地提升整體效能，Spark可以控制RDD分割槽來減少網路通訊開銷。分割槽並不是對所有的應用都有好處，如果RDD只被掃描一次，沒有分割槽的必要。只有資料集多次在注入連線這種基於鍵的操作中使用時，分割槽才會有幫助。

Spark中所有的鍵值對RDD都可以進行分割槽。系統會根據一個針對鍵的函式對元素進行分組。儘管Spark沒有給出顯示控制每個鍵具體落在哪一個工作節點上的方法，但Spark可以確保同一組的鍵出現在同一個節點上。

例如：我們分析這樣一個應用，他在記憶體中儲存著一張很大的使用者表——也就是由一個（UserID，UserInfo）對組成的RDD，其中UserInfo包含一個該使用者所訂閱的主題的列表。該應用會週期性地將這張表與一個小檔案組合，這個小檔案存著過去五分鐘內發生的事件——（UserID,LinkInfo），過去五分鐘內個網站使用者訪問的情況。我們可能需要對使用者訪問其未訂閱主題的頁面的情況進行統計。我們可以使用Spark的join操作來實現這個組合操作。

預設情況下，join操作會將兩個資料集中的所有鍵的雜湊值都找出來，將該雜湊值相同的記錄通過網路傳到同一臺機器上，然後在那臺機器上對所有的鍵相同的記錄進行連線操作。

每次執行join時都對userData表進行雜湊值計算和跨節點資料混洗，雖然這些資料從來不會發生變化。為了解決這一問題，可以對userData表使用partitionBy() (不會改變原來的RDD)轉換操作，將這張錶轉化為雜湊分割槽。可以通過向partitionBy()傳遞一個spark.HashPartitioner物件來實現該操作。

sc = SparkContext(...)
userData = sc.sequenceFile[UserID,UserInfo]("hdfs://...")
            .partitionBy(new HashPartitioner(100))  //構造100個分割槽
            .persist()

如果沒有將partitionBy()轉換操作的結果持久化，那麼後面每次用到這個RDD時都會重複地對資料進行分割槽操作。不進行持久化操作會導致整個RDD譜系圖重新求值，導致重複對資料進行分割槽以及跨節點的混洗。

Spark自學之路（七）——資料分割槽

資料分割槽

Spark自學之路（七）——資料分割槽

Hibernate學習之路（七）

OpenGL之路（七）為立方體加入豐富色彩

Hive學習之路（七）Hive中文亂碼

Spark學習之路（二）Spark2.3 HA集群的分布式安裝

Spark學習之路（四）Spark的廣播變量和累加器

JAVA基礎學習之路（七）對象數組的定義及使用

spark成長之路（1）spark究竟是什麽？

webpack學習之路（七）

Vue學習之路（七）---transition過渡動畫

Netty學習之路（七）-編解碼技術

C#進階之路（七）反射的應用

人工智慧修煉之路（七）--思索之筆

人工智慧tensorflow的自學之路（1）！

爬蟲自學之路（二） requests小技巧

Python小白學習之路（七）—【字典】【字典的功能】【布林值】

我的軟考之路（六）——資料結構與演算法（4）之八大排序

Nginx學習之路（七）NginX中的記憶體管理之---Nginx中的記憶體池

Java專家之路（二）---資料訪問和資料持久化框架的總結

Django學習之路（七）生產環境中的使用

Spark自學之路（七）——資料分割槽

資料分割槽

相關推薦