Spark運算元：Action之saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

阿新 • • 發佈：2018-12-11

1、saveAsTextFile

1）def saveAsTextFile(path: String): Unit 2）def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Unit saveAsTextFile用於將RDD以文字檔案的格式儲存到檔案系統中。

var rdd1 = sc.makeRDD(1 to 10,2)
scala> rdd1.saveAsTextFile("hdfs://cdh5/tmp/lxw1234.com/") //儲存到HDFS
hadoop fs -ls /tmp/lxw1234.com
Found 2 items
-rw-r--r--   2 lxw1234 supergroup        0 2015-07-10 09:15 /tmp/lxw1234.com/_SUCCESS
-rw-r--r--   2 lxw1234 supergroup        21 2015-07-10 09:15 /tmp/lxw1234.com/part-00000
 
hadoop fs -cat /tmp/lxw1234.com/part-00000
1
2
3
4
5

//指定壓縮格式儲存

rdd1.saveAsTextFile("hdfs://cdh5/tmp/lxw1234.com/",classOf[com.hadoop.compression.lzo.LzopCodec])
 
hadoop fs -ls /tmp/lxw1234.com
-rw-r--r--   2 lxw1234 supergroup    0 2015-07-10 09:20 /tmp/lxw1234.com/_SUCCESS
-rw-r--r--   2 lxw1234 supergroup    71 2015-07-10 09:20 /tmp/lxw1234.com/part-00000.lzo
 
hadoop fs -text /tmp/lxw1234.com/part-00000.lzo
1
2
3
4
5

2、saveAsSequenceFile

saveAsSequenceFile用於將RDD以SequenceFile的檔案格式儲存到HDFS上，用法同saveAsTextFile

3、saveAsObjectFile : def saveAsObjectFile(path: String): Unit

saveAsObjectFile用於將RDD中的元素序列化成物件，儲存到檔案中。對於HDFS，預設採用SequenceFile儲存。

var rdd1 = sc.makeRDD(1 to 10,2)
rdd1.saveAsObjectFile("hdfs://cdh5/tmp/lxw1234.com/")
 
hadoop fs -cat /tmp/lxw1234.com/part-00000
SEQ !org.apache.hadoop.io.NullWritable"org.apache.hadoop.io.BytesWritableT

Spark運算元：Action之saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

1、saveAsTextFile 1）def saveAsTextFile(path: String): Unit 2）def saveAsTextFile(path: String, codec: Class[_ <: CompressionCodec]): Uni

Spark運算元：Action之first、count、reduce、collect

1、first：def first(): T 該函式返回RDD的第一個元素，不排序。 scala> var rdd1 = sc.makeRDD(Array(("A","1"),("B","2"),("C","3")),2) rdd1: org.apache.spar

Spark運算元：Action之countByKey、foreach、foreachPartition、sortBy

1、countByKey：def countByKey(): Map[K, Long] countByKey用於統計RDD[K,V]中每個K的數量。 scala> var rdd1 = sc.makeRDD(Array(("A",0),("A",2),("B",1)

Spark運算元：Action之saveAsNewAPIHadoopFile、saveAsNewAPIHadoopDataset

1、saveAsNewAPIHadoopFile 1）def saveAsNewAPIHadoopFile[F <: OutputFormat[K, V]](path: String)(implicit fm: ClassTag[F]): Unit 2）def saveAsNewAPIHa

Spark運算元：transformation之map、flatMap和distinct

1、map 將RDD中的每個元素通過map中的函式對映為一個新的元素，並返回一個新型別的RDD。輸入時的分割槽數與輸出時的分割槽數保持一致。 //HDFS上的txt檔案 hadoop fs -cat /tmp/1.txt hello world hello spark h

Spark運算元：transformation之union、intersection、subtract

1、union：def union(other: RDD[T]): RDD[T] 該函式是不去重的合併兩個RDD。 scala> var rdd1 = sc.makeRDD(1 to 2,1) rdd1: org.apache.spark.rdd.RDD[Int]

Spark運算元：transformation之鍵值轉換groupByKey、reduceByKey、reduceByKeyLocally

1、groupByKey 1）def groupByKey(): RDD[(K, Iterable[V])] 2）def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])] 3）def groupByKey(parti

Spark運算元：transformation之鍵值轉換combineByKey、foldByKey

1、combineByKey 1）def combineByKey[C](createCombiner: (V) => C, mergeValue: (C, V) => C, mergeCombiners: (C, C) => C): RDD[(K, C)

Spark運算元：transformation之鍵值轉換join、cogroup

1、join 1）def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))] 2）def join[W](other: RDD[(K, W)], numPartitions: Int): RDD[(K, (V, W))] 3）def

Spark運算元：transformation之鍵值轉換partitionBy、mapValues、flatMapValues

1、partitionBy：def partitionBy(partitioner: Partitioner): RDD[(K, V)] 該函式根據partitioner函式生成新的ShuffleRDD，將原RDD重新分割槽。 scala> var rdd1 = sc.makeRDD(

Spark運算元：transformation之鍵值轉換leftOuterJoin、rightOuterJoin、subtractByKey

1、leftOuterJoin 1）def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V, Option[W]))] 2）def leftOuterJoin[W](other: RDD[(K, W)], numPartitions: Int):

【spark】Spark運算元：RDD基本轉換操作–map、flagMap、distinct

map將一個RDD中的每個資料項，通過map中的函式對映變為一個新的元素。輸入分割槽與輸出分割槽一對一，即：有多少個輸入分割槽，就有多少個輸出分割槽。 hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello

Spark運算元：RDD行動Action操作(4)–countByKey、foreach、foreachPartition、sortBy

關鍵字：Spark運算元、Spark函式、Spark RDD行動Action、countByKey、foreach、foreachPartition、sortBy countByKey def countByKey(): Map[K, Long] countByKey用於統

Spark運算元：RDD鍵值轉換操作(5)–leftOuterJoin、rightOuterJoin、subtractByKey

關鍵字：Spark運算元、Spark RDD鍵值轉換、leftOuterJoin、rightOuterJoin、subtractByKey leftOuterJoin def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V,

spark運算元：distinct去重的原理

1、Distinct是transformation運算元，不是action運算元。 2、Distinct的去重，是當key與value都一樣的時候，會被當做重複的資料。也就是說，有多條key和value都相同的資料在執行完distincc

spark運算元：滑動視窗函式reduceByKeyAndWindow的使用

1.reduceByKeyAndWindow這個運算元也是lazy的,它用來計算一個區間裡面的資料,如下圖: 截圖自官網,例如每個方塊代表5秒鐘,上面的虛線框住的是3個視窗就是15秒鐘,這裡的15秒鐘就是視窗的長度,其中虛線到實線移動了2個方塊表示10秒鐘,這裡的10秒鐘就表示每隔10秒計算一

Spark運算元：RDD分割槽中的元素和數量統計

1、分割槽邏輯 Spark RDD是被分割槽的，在生成RDD時候，一般可以指定分割槽的數量，如果不指定分割槽數量，當RDD從集合建立時候，則預設為該程式所分配到的資源的CPU核數，如果是從HDFS檔案建立，預設為檔案的Block數。 2、分割槽元素統計可以利用RDD的mapPartit

Spark運算元：RDD建立的方式

建立RDD大體分為兩類方式：（1）通過集合建立；（2）通過外部儲存建立。 1、通過集合方式（1）parallelize：def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: C

Spark程式設計指南之二：向Spark運算元傳遞函式

文章目錄向Spark運算元傳遞函式 Java的兩種方法匿名內部類建立類實現Function介面 Scala的兩種方法傳遞匿名函式定義全域性單例物件中的靜態方法

Spark運算元[10]：foldByKey、fold 原始碼例項詳解

foldByKey與aggregateByKey，fold與aggregate用法相近，作用相似！ foldByKey是aggregateByKey的簡化，fold是aggregate的簡化。

Spark運算元：Action之saveAsTextFile、saveAsSequenceFile、saveAsObjectFile

相關推薦