Spark運算元：RDD行動Action操作(4)–countByKey、foreach、foreachPartition、sortBy

阿新 • • 發佈：2019-01-01

關鍵字：Spark運算元、Spark函式、Spark RDD行動Action、countByKey、foreach、foreachPartition、sortBy

countByKey

def countByKey(): Map[K, Long]

countByKey用於統計RDD[K,V]中每個K的數量。

scala>var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1),("B",2),("B",3)))
rdd1: org.apache.spark.rdd.RDD[(String,Int)]=ParallelCollectionRDD[7

] at makeRDD at :21
scala> rdd1.countByKey
res5: scala.collection.Map[String,Long]=Map(A ->2, B ->3)

foreach

def foreach(f: (T) ⇒ Unit): Unit

foreach用於遍歷RDD,將函式f應用於每一個元素。

但要注意，如果對RDD執行foreach，只會在Executor端有效，而並不是Driver端。

比如：rdd.foreach(println)，只會在Executor的stdout中打印出來，Driver端是看不到的。

我在Spark1.4中是這樣，不知道是否真如此。

這時候，使用accumulator共享變數與foreach結合，倒是個不錯的選擇。

scala>var cnt = sc.accumulator(0)
cnt: org.apache.spark.Accumulator[Int]=0
scala>var rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[5] at makeRDD at :21
scala> rdd1.foreach(x => cnt += x)
scala> cnt.value
res51

:Int=55
scala> rdd1.collect.foreach(println)
1
2
3
4
5
6
7
8
9
10

foreachPartition

def foreachPartition(f: (Iterator[T]) ⇒ Unit): Unit

foreachPartition和foreach類似，只不過是對每一個分割槽使用f。

scala>var rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[5] at makeRDD at :21
scala>var allsize = sc.accumulator(0)
size: org.apache.spark.Accumulator[Int]=0
scala>var rdd1 = sc.makeRDD(1 to 10,2)
rdd1: org.apache.spark.rdd.RDD[Int]=ParallelCollectionRDD[6] at makeRDD at :21
scala> rdd1.foreachPartition { x =>{
| allsize += x.size
|}}
scala> println(allsize.value)
10

sortBy

def sortBy[K](f: (T) ⇒ K, ascending: Boolean = true, numPartitions: Int = this.partitions.length)(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]

sortBy根據給定的排序k函式將RDD中的元素進行排序。

scala>var rdd1 = sc.makeRDD(Seq(3,6,7,1,2,0),2)
scala> rdd1.sortBy(x => x).collect
res1:Array[Int]=Array(0,1,2,3,6,7)//預設升序
scala> rdd1.sortBy(x => x,false).collect
res2:Array[Int]=Array(7,6,3,2,1,0)//降序
//RDD[K,V]型別
scala>var rdd1 = sc.makeRDD(Array(("A",2),("A",1),("B",6),("B",3),("B",7)))
scala> rdd1.sortBy(x => x).collect
res3:Array[(String,Int)]=Array((A,1),(A,2),(B,3),(B,6),(B,7))
//按照V進行降序排序
scala> rdd1.sortBy(x => x._2,false).collect
res4:Array[(String,Int)]=Array((B,7),(B,6),(B,3),(A,2),(A,1))

更多關於Spark運算元的介紹，可參考spark運算元系列文章：

http://blog.csdn.net/ljp812184246/article/details/53895299

Spark運算元：RDD行動Action操作(4)–countByKey、foreach、foreachPartition、sortBy

關鍵字：Spark運算元、Spark函式、Spark RDD行動Action、countByKey、foreach、foreachPartition、sortBy countByKey def countByKey(): Map[K, Long] countByKey用於統

【spark】Spark運算元：RDD基本轉換操作–map、flagMap、distinct

map將一個RDD中的每個資料項，通過map中的函式對映變為一個新的元素。輸入分割槽與輸出分割槽一對一，即：有多少個輸入分割槽，就有多少個輸出分割槽。 hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello

Spark運算元：RDD鍵值轉換操作(5)–leftOuterJoin、rightOuterJoin、subtractByKey

關鍵字：Spark運算元、Spark RDD鍵值轉換、leftOuterJoin、rightOuterJoin、subtractByKey leftOuterJoin def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V,

3.4 Spark RDD Action操作4-countByKey、foreach、foreachPartition、sortBy

1 countByKey def countByKey(): Map[K, Long] countByKey用於統計RDD[K,V]中每個K的數量。例子： scala> var rdd1 = sc.makeRDD(Array((“A”,0),(“

Spark運算元：RDD分割槽中的元素和數量統計

1、分割槽邏輯 Spark RDD是被分割槽的，在生成RDD時候，一般可以指定分割槽的數量，如果不指定分割槽數量，當RDD從集合建立時候，則預設為該程式所分配到的資源的CPU核數，如果是從HDFS檔案建立，預設為檔案的Block數。 2、分割槽元素統計可以利用RDD的mapPartit

Spark運算元：RDD建立的方式

建立RDD大體分為兩類方式：（1）通過集合建立；（2）通過外部儲存建立。 1、通過集合方式（1）parallelize：def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: C

Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct

ive 註意 pre spl cti result log bsp blog Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct 關鍵字：Spark算子、Spark RDD基本轉換、map、flatMap、distinct map 將

Spark運算元：Action之first、count、reduce、collect

1、first：def first(): T 該函式返回RDD的第一個元素，不排序。 scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2) rdd1: org.apache.spar

Spark運算元：Action之countByKey、foreach、foreachPartition、sortBy

1、countByKey：def countByKey(): Map[K, Long] countByKey用於統計RDD[K,V]中每個K的數量。 scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1)

Spark運算元：Action之saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

1、saveAsTextFile 1）def saveAsTextFile(path: String): Unit 2）def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Uni

Spark運算元：Action之saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

1、saveAsNewAPIHadoopFile 1）def saveAsNewAPIHadoopFile[F <: OutputFormat[K, V]](path: String)(implicit fm: ClassTag[F]): Unit 2）def saveAsNewAPIHa

Spark總結（三）——RDD的Action操作

1、foreach操作：對RDD中的每個元素執行f函式操作，返回Unit。 def funOps1(): Unit = { var rdd1 = sc.parallelize(List(1, 2, 3, 5, 6)) rdd1.foreach(pr

Spark核心：RDD的運算元

RDD的運算元一般來說，RDD的整個計算過程都是發生在Worker節點中的Executor中的。RDD可以支援三種操作型別：Transformation、Action以及Persist和CheckPoint為代表的控制型別操作。 RDD一般是從外部資料來源

spark運算元：distinct去重的原理

1、Distinct是transformation運算元，不是action運算元。 2、Distinct的去重，是當key與value都一樣的時候，會被當做重複的資料。也就是說，有多條key和value都相同的資料在執行完distincc

spark 運算元（Transformation and Action）

文章目錄 Transformation運算元 Actions運算元說明：spark 運算元分為兩類：一類是Transformation運算元，一類是Action運算元，其中Transformation運算元不會觸發作業提交，Action運算元會

Spark運算元：transformation之map、flatMap和distinct

1、map 將RDD中的每個元素通過map中的函式對映為一個新的元素，並返回一個新型別的RDD。輸入時的分割槽數與輸出時的分割槽數保持一致。 //HDFS上的txt檔案 hadoop fs -cat /tmp/1.txt hello world hello spark h

Spark運算元：transformation之union、intersection、subtract

1、union：def union(other: RDD[T]): RDD[T] 該函式是不去重的合併兩個RDD。 scala> var rdd1 = sc.makeRDD(1 to 2,1) rdd1: org.apache.spark.rdd.RDD[Int]

Spark運算元：transformation之鍵值轉換groupByKey、reduceByKey、reduceByKeyLocally

1、groupByKey 1）def groupByKey(): RDD[(K, Iterable[V])] 2）def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])] 3）def groupByKey(parti

Spark運算元：transformation之鍵值轉換combineByKey、foldByKey

1、combineByKey 1）def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)

Spark運算元：transformation之鍵值轉換join、cogroup

1、join 1）def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] 2）def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] 3）def

Spark運算元：RDD行動Action操作(4)–countByKey、foreach、foreachPartition、sortBy

countByKey

foreach

foreachPartition

sortBy

相關推薦