SparkCore（11）：RDD概念和建立兩種方法

阿新 • • 發佈：2018-12-17

一、RDD概念

1.概念

Resilient Distributed Datasets彈性分散式資料集，預設情況下：每一個block對應一個分割槽，一個分割槽會開啟一個task來處理。

（a）Resilient：可以存在給定不同數目的分割槽、資料快取的時候可以快取一部分資料也可以快取全部資料（b）Distributed：分割槽可以分佈到不同的executor執行(也就是不同的worker/NM上執行) （c）Datasets：內部儲存是資料

2.特性

（1）是一系列的分片，分割槽（2）每個分片有一個方法來做計算（3）rdd會有依賴其他rdd的操作，可以通過wordCountRDD.toDebugString來檢視（4）（可選項）如果rdd是二元組，就會存在分割槽器（預設是hashpartition）（5）（可選項）最佳位置。資料在哪臺機器上，任務就啟在哪個機器上，資料在本地上，不用走網路。不過資料進行最後彙總的時候就要走網路。（hdfs file的block塊）

二、RDD建立方法

1.外部資料

val path = "hdfs://192.168.31.3:8020/page_views.data"
val originalRdd: RDD[String] = sc.textFile(path)

2.記憶體中資料：基於序列化進行建立

scala> val seq = List(1,2,3,4,5,6,7)
seq: List[Int] = List(1, 2, 3, 4, 5, 6, 7)

scala> val rdd2 = sc.parallelize(seq)
rdd2: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[4] at parallelize at <console>:29

SparkCore（11）：RDD概念和建立兩種方法

一、RDD概念

1.概念

2.特性

二、RDD建立方法

1.外部資料

2.記憶體中資料：基於序列化進行建立

SparkCore（11）：RDD概念和建立兩種方法

繼承和派生（1）：繼承概念和繼承方式

SparkCore（12）：RDD三種API

MongoDB入門系列（一）：基礎概念和安裝

Python基礎（11）：匿名函式和偏函式

java基礎學習總結（七）：Cloneable介面和Object的clone()方法

python網路爬蟲（web spider）系統化整理總結（二）：爬蟲python程式碼示例(兩種響應格式：json和html)

Linux套接字與虛擬檔案系統（1）：初始化和建立

多執行緒學習（一）：多執行緒的兩種實現方式

SpringBoot整合MyBatis（iBatis），基於註解和XML兩種方式

Android設定Activity（介面）為全屏顯示的兩種方法 xml和java程式

Spark筆記整理（二）：RDD與spark核心概念名詞

ROS（11）：莓派Raspberry Pi 小車組裝，安裝電機和超聲波

MFC介面程式設計基礎（11）：靜態文字框、命令按鈕和編輯框

淺談演算法和資料結構（11）：雜湊表

c++11多執行緒程式設計（四）：資料共享和競爭條件

iptables實用教程（二）：管理鏈和策略

javascript學習筆記（五）：異常捕獲和事件處理

每天一個linux命令（11）：cat命令

Linux同步與相互排斥應用（零）：基礎概念

SparkCore（11）：RDD概念和建立兩種方法

一、RDD概念

1.概念

2.特性

二、RDD建立方法

1.外部資料

2.記憶體中資料：基於序列化進行建立

相關推薦