Spark RDD操作記錄(總結)

阿新 • • 發佈：2017-11-19

操作記錄 collect () 求和 bsp 數據排序 red cas

創建List
intRDD = sc.parallelize(List(1,2,3,4,5))

過濾包含
stringRDD.filter(_.contains("a")).collect()

去重
stringRDD.distinct.collect()

RDD拆分
val sRDD = intRDD.randomSplit(Array(0.4,0.6))

顯示拆分後的RDD
sRDD(0).collect()

奇偶區分
intRDD.groupBy(x => {if (x % 2 == 0) "even" else "old"}).collect()

並集運算
intRDD1.union(intRDD2).union(intRDD3).collect()

++ 運算
(intRDD1 ++ intRDD2 ++ intRDD3).collect()

交集運算
intRDD1.intersection(intRDD2).collect()

差集運算
intRDD1.subtract(intRDD2).collect()

笛卡爾乘積
intRDD1.cartesian(intRDD2).collect()

取第一條數據
intRDD.first

取前兩條數據
intRDD.take(2)

從小到大讀前三條
intRDD.takeOrdered(3)

從大到小讀前三條
intRDD.takeOrdered(3)(Ordering[Int].reverse)

統計 intRDD.stats
最小 min
最大 max
stdev 標準偏差
count 計數
sum 求和
mean 平均

創建範例
val kvRDD1 = sc.parallelize(List((3,4),(3,6),(5,6),(1,2)))

列出所有key值
kvRDD1.keys.collect()

列出所有的value
kvRDD1.values.collect()

列出所有key小於5
kvRDD1.filter{case (key,value) => key < 5}.collect()

value值平方運算
kvRDD1.mapValues(x => x * x ).collect()

按照key小到大排序
kvRDD1.sortByKey(true).collect() //可以不傳參數

reduceByKey
kvRDD1.reduceByKey((x,y) => x+y).collect() kvRDD1.reduceByKey(_+_).collect()

join運算
kvRDD1.join(kvRDD2).collect()

讀取第一條數據的第一個元素
kvRDD1.first._1

計算每一個key值的條數
kvRDD1.countByKey()

輸入key來查找value值
kvRDD1.lookup(3)

Spark RDD操作記錄(總結)

操作記錄 collect () 求和 bsp 數據排序 red cas 創建ListintRDD = sc.parallelize(List(1,2,3,4,5))過濾包含stringRDD.filter(_.contains("a")).collect()去重strin

Spark RDD操作記錄(總結)

Spark RDD操作記錄(總結)

Spark RDD 操作實戰之檔案讀取

spark RDD操作map與flatmap的區別

Spark:RDD操作和持久化

Spark RDD操作：combineByKey函式詳解

Spark——RDD操作詳解

Spark RDD操作之ReduceByKey

Spark RDD操作之Map系運算元

【Spark】RDD操作具體解釋4——Action算子

小白學習Spark系列四：rdd踩坑總結

Spark RDD基礎操作

Spark-RDD轉Dataset及簡單的SparkSql操作（java和scala版本）

Spark -- RDD簡單操作【統計文字中單行最大單詞數】

Spark-RDD-02基本操作詳解

Spark RDD建立操作

spark RDD運算元（十一）之RDD Action 儲存操作saveAsTextFile,saveAsSequenceFile,saveAsObjectFile,saveAsHadoopFile 等

Spark的RDD操作之Join大全！

Learning Spark——RDD常用操作

[2.2]Spark DataFrame操作（二）之通過反射實現RDD與DataFrame的轉換

Spark RDD基本操作

Spark RDD操作記錄(總結)

相關推薦