Spark RDD 程式設計例項

阿新 • • 發佈：2018-12-25

Spark 最核心的概念就是RDD：彈性分散式資料集。RDD 是Spark 操作資料的一種抽象，本質是分散式資料集合。這種集合被分為多個分割槽，這些分割槽執行在叢集的不同節點上。我們在Spark的shell 上執行的命令，會在每個分割槽上執行，最後將執行結果彙總起來就得到我們需要的結果。
根據是否需要立即計算，我們把RDD操作分為兩種：轉換操作和行動操作。
轉換操作的RDD命令，並不會立即進行計算，而是在我們的操作鏈中遇到行動操作才一起進行計算。因此這種實現叫做惰性求值。所有的轉換操作都是惰性求值的。
行動操作是立即計算結果。並且也會將操作鏈上之前所有的轉換操作一起計算。

另外需要說明的是，RDD是不可以改表的，每一次操作，系統都會新建立一個RDD出來。

一般使用一個數據源來進行建立初始的RDD，資料來源有兩種，第一個是外部磁碟的檔案。第二種是程式中的物件。

磁碟檔案作為源頭：
val source = sc.textFile(“README.md”)

以程式中的物件作為源頭：
val source = sc.parallelize(List(“Hello”,”World”))

以下列舉幾個例項：

計算RDD 中每個元素的平方

其中map()就是典型的轉換操作，map()主要是接收一個函式，把這個函式用於RDD中每一個元素。並將函式的計算結果作為結果RDD中對應的元素。

典型的轉換操作還有一個filter() ，filter()也是接收一個函式，並將RDD中滿足該函式的元素放入到新的RDD中。

返回RDD中不等於1的元素

Spark RDD 程式設計例項

Spark RDD 程式設計例項

# Apache Spark系列技術直播# 第五講【 Spark RDD程式設計入門】

Spark（三）Spark RDD程式設計

spark RDD程式設計

Spark RDD程式設計（Python和Scala版本）

學習大資料課程 spark 基於記憶體的分散式計算框架（二）RDD 程式設計基礎使用

spark核心程式設計，spark基本工作原理與RDD

spark RDD官網RDD程式設計指南

Spark常用函式之鍵值RDD轉換+例項

Spark核心程式設計建立RDD及transformation和action詳解和案例

Spark核心程式設計：建立RDD（集合、本地檔案、HDFS檔案）

【spark你媽喊你回家吃飯-05】RDD程式設計之旅基礎篇-01

Spark核心程式設計：RDD持久化詳解

Spark核心程式設計-RDD建立操作

scala實戰之spark讀取mysql資料表並存放到mysql庫中程式設計例項

Spark之RDD程式設計

Spark核心程式設計之RDD持久化詳解

[1.2]Spark core程式設計（一）之RDD總論與建立RDD的三種方式

【spark 深入學習 03】Spark RDD的蠻荒世界

Spark RDD

Spark RDD 程式設計例項

相關推薦