spark 中map 和flatmap 的區別

阿新 • • 發佈：2019-01-21

需求背景：

統計相鄰兩個單詞出現的次數。

val s="A;B;C;D;B;D;C;B;D;A;E;D;C;A;B"

s: String = A;B;C;D;B;D;C;B;D;A;E;D;C;A;B

val data=sc.parallelize(Seq(s))

data.collect()

res0: Array[String] = Array(A;B;C;D;B;D;C;B;D;A;E;D;C;A;B)

截止目前位置是一個String型別的陣列。

val mapTemp=data.map(_.split(";"))

scala> mapTemp.collect

res4: Array[Array[String]] = Array(Array(A, B, C, D, B, D, C, B, D, A, E, D, C, A, B))

map操作在於處理之前和處理之後的資料型別是一致的。

val mapRs=data.map(_.split(";")).map(x=>{for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1)})

mapRs.collect

res1: Array[scala.collection.immutable.IndexedSeq

[(String, Int)]] = Array(Vector((A,B,1), (B,C,1), (C,D,1), (D,B,1), (B,D,1), (D,C,1), (C,B,1), (B,D,1), (D,A,1), (A,E,1), (E,D,1), (D,C,1), (C,A,1), (A,B,1)))

val flatMapRs=data.map(_.split(";")).flatMap(x=>{for(i<-0 until x.length-1) yield　(x(i)+","+x(i+1),1)})

flatMapRs.collect

res3: Array[(String, Int)] = Array((A,B,1), (B,C,1), (C,D,1), (D,B,1), (B,D,1), (D,C,1), (C,B,1), (B,D,1), (D,A,1), (A,E,1), (E,D,1), (D,C,1), (C,A,1), (A,B,1))

而flatMap會把一類集合類的資料抹平從而展示的效果是元素的方式，比如從Vector中遍歷然後羅列出來。

val flatMap= data.map(_.split(";")).flatMap(x=>{for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1)}).reduceByKey(_+_).foreach(println)

(A,E,1)

(C,D,1)

(B,D,2)

(D,B,1)

(C,A,1)

(C,B,1)

(E,D,1)

(D,A,1)

(B,C,1)

(D,C,2)

(A,B,2)

reduceByKey算數因子解釋：

Basically reduceByKey function works only for RDDs which contains key and value pairs kind of elements(i.e RDDs having tuple or Map as a data element). It is a transformation operation which means it is lazily evaluated.We need to pass one associative function as a parameter, which will be applied to the source RDD and will create anew RDD as with resulting values(i.e. key value pair). This operation is a wide operation as data shuffling may happen across the partitions.【本質上來講，reduceByKey函式（說運算元也可以）只作用於包含key-value的RDDS上，它是 transformation型別的運算元，這也就意味著它是懶載入的（就是說不呼叫Action的方法，是不會去計算的）,在使用時，我們需要傳遞一個相關的函式（_+_）作為引數，這個函式將會被應用到源RDD上並且建立一個新的 RDD作為返回結果，這個運算元作為data Shuffling 在分割槽的時候被廣泛使用】

spark 中map 和flatmap 的區別

Spark中map和flatMap的區別

spark中map和flatmap之間的區別

Spark學習筆記 --- Spark中Map和FlatMap轉換的區別

spark 中map 和flatmap 的區別

java8中 map和flatmap的共同點和區別，以及兩者的例項解析

Spark中map與flatMap

spark中map與mapPartitions區別

Spark 中 map 與 flatMap 的比較

Rxjava map和flatMap區別

JDK8lambda表示式之map和FlatMap區別

JavaScript中Map和ForEach的區別

java8中stream的map和flatmap的理解

Spark中repartition和partitionBy的區別

spark map和mapPartitions區別

C++ STL中map和unordered_map的區別

Spark之中map與flatMap的區別

javascript中map和filter的區別

C++中map和set的使用與區別

spark中makerdd和parallelize的區別

【Big Data 每日一題20180821】Spark中ml和mllib的區別

spark 中map 和flatmap 的區別

相關推薦