1. 程式人生 > >spark中flatMap函數用法--spark學習(基礎)

spark中flatMap函數用法--spark學習(基礎)

比較 一次 ica 例子 tail details word fix spark

spark中flatMap函數用法--spark學習(基礎)

在spark中map函數和flatMap函數是兩個比較常用的函數。其中
map:對集合中每個元素進行操作。
flatMap:對集合中每個元素進行操作然後再扁平化。
理解扁平化可以舉個簡單例子

val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
arr.flatmap(x=>(x._1+x._2)).foreach(println)

輸出結果為

A
1
B
2
C
3

如果用map

val arr=sc.parallelize(Array(("A",1),("B",2),("C",3)))
arr.map(x=>(x._1+x._2)).foreach(println)

輸出結果

A1
B2
C3

所以flatMap扁平話意思大概就是先用了一次map之後對全部數據再一次map。

實際使用場景

這個場景是我曾經在寫代碼過程中遇到的難題,在字符串中如何統計相鄰字符對出現的次數。意思就是如果有A;B;C;D;B;C字符串,則(A,B),(C,D),(D,B)相鄰字符對出現一次,(B,C)出現兩次。
如有數據

A;B;C;D;B;D;C
B;D;A;E;D;C
A;B

統計相鄰字符對出現次數代碼如下

data.map(_.split(";")).flatMap(x=>{
      for(i<-0 until x.length-1) yield (x(i)+","+x(i+1),1)
    }).reduceByKey(_+_).foreach(println)

輸出結果為

(A,E,1)
(E,D,1)
(D,A,1)
(C,D,1)
(B,C,1)
(B,D,2)
(D,C,2)
(D,B,1)
(A,B,2)

此例子就是充分運用了flatMap的扁平化功能。

spark中flatMap函數用法--spark學習(基礎)