1. 程式人生 > >spark的rdd詳解1

spark的rdd詳解1

操作 spa img cal 選擇 分享圖片 分區 並行 方式

1,rdd的轉換和行動操作

技術分享圖片

2,創建rdd的2種方式

1,通過hdfs支持的文件系統,沒有真正把數據放rdd,只記錄了一下元數據

2,通過scala的集合或者數組並行化的創建rdd

技術分享圖片

3,rdd的5大特點

1,rdd是分區的,可以指定分區數

2,算子的方法都會作用在每個分區

3,rdd之前有一系列的依賴,所有依賴形成DAG圖,DAG計算單位是階段

4,k-v的rdd可以選擇分區器,默認的是hash-partitioned

5,會選擇最優的位置計算每個分區,避免跨網絡傳輸數據

技術分享圖片

spark的rdd詳解1