Spark核心程式設計-RDD建立操作

阿新 • • 發佈：2019-01-16

目前有兩種型別的基礎RDD：一種是並行集合（Parallelized Collections），接收一個已經存在的scala集合，然後進行各種平行計算；另外一種是從外部儲存建立的RDD，外部儲存可以是文字檔案或者HDFS，也可以是Hadoop的介面API。

一、並行化集合建立操作

通過SparkContext的parallelize方法，在一個已經存在的scala集合上建立的Seq物件，集合的物件將會被複制，創建出一個可以被並行操作的分散式資料集（RDD）。在SparkContext類中實現了parallelize和makeRDD兩個並行化集合建立操作。

parallelize(seq:Seq[T], numSlices:Int = defaultParallelisem):RDD[T]

// 建立SparkConf物件
SparkConf conf = new SparkConf().setAppName(appName).setMaster(master);
// 建立JavaSparkContext物件
JavaSparkContext sc = new JavaSparkContext(conf);
// 建立一個List集合
List<Integer> data = Arrays.asList(1, 2, 3, 4, 5);
// 並行化結合建立RDD，第一個引數為集合物件，第二個引數為分割槽數
JavaRDD<Integer> distData = sc.parallelize(data, 10);

makeRDD(seq:Seq[(T, Seq[String])]):RDD[T]
makeRDD(seq:Seq[T], numSlices:Int = defaultParallelisem):RDD[T]

// 用法和parallelize類似，不過該方法可以指定每一個分割槽的首選位置。（只有Scala Api提供了該方法）

// 指定1到10的首選位置為master節點，11到15的首選位置為slave1和slave2節點
var collect = Seq((1 to 10, Seq("master")), (11 to 15, Seq("slave1","slave2")))
var rdd = sc.makeRDD(collect)

// 檢視分割槽1的首選位置
rdd.preferredLocations(rdd.partitions(0))

二、外部儲存建立操作

Spark可以將Hadoop所支援的儲存資源轉化成RDD，如本地檔案，HDFS，Cassandra, HBase等，Spark支援文字檔案，Sequence Files以及Hadoop InputFormat格式。

textFile(path:String, minPartitions:Int = defaultMinPartitions):RDD[String]

使用textFile操作可以將本地檔案或HDFS檔案轉換成RDD，該操作支援整個檔案目錄讀取（如textFile("/my/directory")）。檔案可以是文字或者壓縮檔案。需要注意的地方有兩點：一所有的節點必須能夠訪問到該檔案，否則執行中會報“FileNotFoundException”；二預設情況下為每一個數據塊分配一個分割槽，使用者也可以顯示的指定更多的分割槽，但是不能少於HDFS檔案的資料塊數量。

// 從本地檔案data.txt建立RDD
JavaRDD<String> distFile = sc.textFile("data.txt");

注: textFile支援分割槽，支援模式匹配，例如把D:\wordcount\目錄下temp開頭的給轉換成RDD。

JavaRDD<String> distFile = sc.textFile("D:\\wordcount\\temp*");

多個路徑可以使用逗號分隔，例如：

JavaRDD<String> distFile = sc.textFile("D:\\wordcount\\temp1,D:\\wordcount\\temp2",4);

Spark核心程式設計-RDD建立操作

一、並行化集合建立操作

二、外部儲存建立操作

Spark核心程式設計-RDD建立操作

Spark核心程式設計：建立RDD（集合、本地檔案、HDFS檔案）

Spark核心程式設計建立RDD及transformation和action詳解和案例

spark核心程式設計，spark基本工作原理與RDD

Spark RDD建立操作

Spark核心程式設計：RDD持久化詳解

Spark核心程式設計之RDD持久化詳解

Spark2.x學習筆記：3、 Spark核心概念RDD

Spark運算元：RDD建立的方式

Spark 核心程式設計（10）-Top N

Spark七 Pair RDD轉化操作

Spark 核心概念RDD

Windows核心程式設計--程序建立與程序退出

Spark核心概念RDD

Spark核心：RDD的運算元

Spark程式設計指南之一：transformation和action等RDD基本操作

Spark核心類：彈性分散式資料集RDD及其轉換和操作pyspark.RDD

Spark核心資料模型RDD及操作

[1.2]Spark core程式設計（一）之RDD總論與建立RDD的三種方式

spark 教程一 RDD和核心概念

Spark核心程式設計-RDD建立操作

一、並行化集合建立操作

二、外部儲存建立操作

相關推薦