RDD程式設計-行動運算元

阿新 • • 發佈：2018-11-30

2.4 Action

2.4.1 reduce(func)案例

作用：通過func函式聚集RDD中的所有元素，先聚合分割槽內資料，再聚合分割槽間資料。
需求：建立一個RDD，將所有元素聚合得到結果

（1）建立一個RDD[Int]

scala> val rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[85] at makeRDD at <console>:24

（2）聚合RDD[Int]所有元素

scala> rdd1.reduce(_+_)
res50: Int = 55

（3）建立一個RDD[String]

scala> val rdd2 = sc.makeRDD(Array(("a",1),("a",3),("c",3),("d",5)))
rdd2: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[86] at makeRDD at <console>:24

（4）聚合RDD[String]所有資料

scala> rdd2.reduce((x,y)=>(x._1 + y._1,x._2 + y._2))
res51: (String, Int) = (adca,12)

2.4.2 collect()案例

作用：在驅動程式中，以陣列的形式返回資料集的所有元素。
需求：建立一個RDD，並將RDD內容收集到Driver端列印

（1）建立一個RDD

scala> val rdd = sc.parallelize(1 to 10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

（2）將結果收集到Driver端

scala> rdd.collect
res0: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)

2.4.3 count()案例

作用：返回RDD中元素的個數
需求：建立一個RDD，統計該RDD的條數

（1）建立一個RDD

scala> val rdd = sc.parallelize(1 to 10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

（2）統計該RDD的條數

scala> rdd.count
res1: Long = 10

2.4.4 first()案例

作用：返回RDD中的第一個元素
需求：建立一個RDD，返回該RDD中的第一個元素

（1）建立一個RDD

scala> val rdd = sc.parallelize(1 to 10)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:24

（2）統計該RDD的條數

scala> rdd.first
res2: Int = 1

2.4.5 take(n)案例

作用：返回一個由RDD的前n個元素組成的陣列
需求：建立一個RDD，統計該RDD的條數

（1）建立一個RDD

scala> val rdd = sc.parallelize(Array(2,5,4,6,8,3))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24

（2）統計該RDD的條數

scala> rdd.take(3)
res10: Array[Int] = Array(2, 5, 4)

2.4.6 takeOrdered(n)案例

作用：返回該RDD排序後的前n個元素組成的陣列
需求：建立一個RDD，統計該RDD的條數

（1）建立一個RDD

scala> val rdd = sc.parallelize(Array(2,5,4,6,8,3))
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24

（2）統計該RDD的條數

scala> rdd.takeOrdered(3)
res18: Array[Int] = Array(2, 3, 4)

2.4.7 aggregate案例

引數：(zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)
作用：aggregate函式將每個分割槽裡面的元素通過seqOp和初始值進行聚合，然後用combine函式將每個分割槽的結果和初始值(zeroValue)進行combine操作。這個函式最終返回的型別不需要和RDD中元素型別一致。
需求：建立一個RDD，將所有元素相加得到結果

（1）建立一個RDD

scala> var rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[88] at makeRDD at <console>:24

（2）將該RDD所有元素相加得到結果

scala> rdd.aggregate(0)(_+_,_+_)
res22: Int = 55

2.4.8 fold(num)(func)案例

作用：摺疊操作，aggregate的簡化操作，seqop和combop一樣。
需求：建立一個RDD，將所有元素相加得到結果

（1）建立一個RDD

scala> var rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[88] at makeRDD at <console>:24

（2）將該RDD所有元素相加得到結果

scala> rdd.fold(0)(_+_)
res24: Int = 55

2.4.9 saveAsTextFile(path)

作用：將資料集的元素以textfile的形式儲存到HDFS檔案系統或者其他支援的檔案系統，對於每個元素，Spark將會呼叫toString方法，將它轉換為檔案中的文字

2.4.10 saveAsSequenceFile(path)

作用：將資料集中的元素以Hadoop sequencefile的格式儲存到指定的目錄下，可以使HDFS或者其他Hadoop支援的檔案系統。

2.4.11 saveAsObjectFile(path)

作用：用於將RDD中的元素序列化成物件，儲存到檔案中。

2.4.12 countByKey()案例

作用：針對(K,V)型別的RDD，返回一個(K,Int)的map，表示每一個key對應的元素個數。
需求：建立一個PairRDD，統計每種key的個數

（1）建立一個PairRDD

scala> val rdd = sc.parallelize(List((1,3),(1,2),(1,4),(2,3),(3,6),(3,8)),3)
rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[95] at parallelize at <console>:24

（2）統計每種key的個數

scala> rdd.countByKey
res63: scala.collection.Map[Int,Long] = Map(3 -> 2, 1 -> 3, 2 -> 1)

2.4.13 foreach(func)案例

作用：在資料集的每一個元素上，執行函式func進行更新。
需求：建立一個RDD，對每個元素進行列印

（1）建立一個RDD

scala> var rdd = sc.makeRDD(1 to 5,2)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[107] at makeRDD at <console>:24

（2）對該RDD每個元素進行列印

scala> rdd.foreach(println(_))
3
4
5
1
2

RDD程式設計-行動運算元

2.4 Action 2.4.1 reduce(func)案例作用：通過func函式聚集RDD中的所有元素，先聚合分割槽內資料，再聚合分割槽間資料。需求：建立一個RDD，將所有元素聚合得到結果（1）建立一個RDD[Int] scala> val rdd1 = sc.makeR

學習大資料課程 spark 基於記憶體的分散式計算框架（二）RDD 程式設計基礎使用

學習大資料課程 spark 基於記憶體的分散式計算框架（二）RDD 程式設計基礎使用 1.常用的轉換假設rdd的元素是： {1,2,2,3} 很多初學者，對大資料的概念都是模糊不清的，大資料是什麼，能做什麼，學的時候，該按照什麼線路去學習，學完

spark RDD官網RDD程式設計指南

http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell Overview（概述）在較高的層次上，每個Spark應用程式都包含一個驅動程式，該程式執行使用者的主要功能並在叢集上執行各

Spark RDD-1-常用運算元

目錄 1、RDD簡介 2、RDD建立 3、常用RDD運算元（1）Action RDD （2）單個RDD的 Transformation （惰性）（3）多個RDD的Transformation 1、RDD簡介 Spark對資料的一種核心抽象，R

# Apache Spark系列技術直播# 第五講【 Spark RDD程式設計入門】

內容提要：本次講座主要涵蓋Spark RDD程式設計入門基礎，包括： Spark、RDD簡介 RDD API簡介打包與spark-submit 效能分析與調優基礎主講人：王道遠(健身) 阿里巴巴計算平臺EMR技術專家直播時間：2018.12.13（本週四）19:00 - 20

SparkStreaming（15）：DStream轉換為RDD的Transform運算元

1.實現功能 DStream中還是缺少某些API的，比如sortByKey之類的。所以使用Transform直接操作DStream中的當前job/批次對應的RDD，來替換DStream的操作（可以直接使用RDD的api），比較方便。 2.程式碼 package

Spark RDD 程式設計例項

Spark 最核心的概念就是RDD：彈性分散式資料集。RDD 是Spark 操作資料的一種抽象，本質是分散式資料集合。這種集合被分為多個分割槽，這些分割槽執行在叢集的不同節點上。我們在Spark的shell 上執行的命令，會在每個分割槽上執行，最後將執行結果彙總

【spark你媽喊你回家吃飯-05】RDD程式設計之旅基礎篇-01

1.RDD工作流程 1.1 RDD理解 RDD是spark特有的資料模型，談到RDD就會提到什麼彈性分散式資料集，什麼有向無環圖，本文暫時不去展開這些高深概念，在閱讀本文時候，大家可以就把RDD當作一個數組，這樣的理解對我們學習RDD的API是非常有幫助的。本文所有示例程式

[Spark04]RDD中的運算元

1、RDD可以分為兩類，transformations和actions。2、Transformations 變換/轉換運算元：將一個RDD轉換成另一個RDD，所有的Transformation都是lazy的，只有發生action是才會觸發計算。3、Action 行動運算元：這

Spark（三）Spark RDD程式設計

目錄： 3、RDD程式設計 3.1、RDD基礎 3.2、建立RDD 3.3、RDD操作 3.3.1、轉化操作 3.3.2、行動操作 3.3.3、惰性求值 3.4、向Spark傳遞函式 3.5、常見的轉化操作和行動操作 3.5.1、基本RDD 3.5.2、在

spark RDD概念及其運算元舉例講解

作為之前對spark RDD可以說是完全不懂的小白，在閱讀部分網友的部落格的基礎上，我從自己理解的角度和方式來記錄一下自己學習spark RDD的過程。目錄一、RDD介紹 1.1 RDD是什麼 1.2 Spark與RDD的關係 1.3&n

spark RDD程式設計

RDD,也就是彈性分散式資料集的簡稱，它是spark處理的分散式元素集合。對於RDD的操作包括：建立RDD（從外部資料或者記憶體中的資料），轉化RDD（利用篩選條件等），呼叫RDD操作求值。 **注意：RDD的操作分為兩種：一種是 “轉

Spark之RDD程式設計

RDD，全稱Resilient Distributed Datasets（彈性分散式資料集），是Spark最為核心的概念，是Spark對資料的抽象。RDD是分散式的元素集合，每個RDD只支援讀操作，且每個RDD都被分為多個分割槽儲存到叢集的不同節點上

關於spark RDD trans action運算元、lineage、寬窄依賴詳解

這篇文章想從spark當初設計時為何提出RDD概念，相對於hadoop，RDD真的能給spark帶來何等優勢。之前本想開篇是想總體介紹spark，以及環境搭建過程，但個人感覺RDD更為重要鋪墊在hadoop中一個獨立的計算，例如在一個迭代過程中，除可複製的檔案系統（HDFS）

JavaSpark-RDD程式設計-常見操作、持久化、函式傳遞、reduce求平均

RDD是Spark的核心抽象，全稱彈性分散式資料集（就是分散式的元素集合）。Spark中對資料的所有操作無外乎建立RDD、轉化已有RDD和呼叫RDD的操作進行求值。Spark 會自動將 RDD 中的資料分發到叢集上，並將操作並行化執行 RDD在抽象上來說是一

Spark RDD程式設計（Python和Scala版本）

Spark中的RDD就是一個不可變的分散式物件集合，是一種具有相容性的基於記憶體的叢集計算抽象方法，Spark則是這個方法的抽象。Spark的RDD操作分為轉化操作（transformation）和行動操作（action），兩者的區別在於： a.轉化操作返回一個新

Spark運算元：RDD行動Action操作(4)–countByKey、foreach、foreachPartition、sortBy

關鍵字：Spark運算元、Spark函式、Spark RDD行動Action、countByKey、foreach、foreachPartition、sortBy countByKey def countByKey(): Map[K, Long] countByKey用於統

RDD常用運算元介紹只mappatitionwithIndex和mappatition

mappatition和mappatitionWithIndex mappatition 該函式和map函式類似，只不過對映函式的引數由RDD中的每一個元素變成了RDD中每一個分割槽的迭代器。如果在對映的過程中需要頻繁建立額外的物件，使用mapPartitions要比map高效的過。比如，

spark RDD常用運算元（一）

- filter 演算法解釋 filter 函式功能是對元素進行過濾，對每個元素應用 f 函數，返回值為 true 的元素在RDD 中保留，返回值為 false 的元素將被過濾掉。內部實現相當於生成 FilteredRDD

spark RDD運算元 parallelize，makeRDD，textFile

- parallelize 將一個存在的集合，變成一個RDD。這種方式試用於學習spark和做一些spark的測試第一個引數一是一個 Seq集合第二個引數分割槽數 var array = List(1, 2, 3, 4, 5, 6, 7

RDD程式設計-行動運算元

2.4 Action

2.4.1 reduce(func)案例

2.4.2 collect()案例

2.4.3 count()案例

2.4.4 first()案例

2.4.5 take(n)案例

2.4.6 takeOrdered(n)案例

2.4.7 aggregate案例

2.4.8 fold(num)(func)案例

2.4.9 saveAsTextFile(path)

2.4.10 saveAsSequenceFile(path)

2.4.11 saveAsObjectFile(path)

2.4.12 countByKey()案例

2.4.13 foreach(func)案例

相關推薦