【spark】Spark運算元：RDD基本轉換操作–map、flagMap、distinct

阿新 • • 發佈：2019-01-25

將一個RDD中的每個資料項，通過map中的函式對映變為一個新的元素。

輸入分割槽與輸出分割槽一對一，即：有多少個輸入分割槽，就有多少個輸出分割槽。

hadoop fs -cat /tmp/lxw1234/1.txt
hello world
hello spark
hello hive
//讀取HDFS檔案到RDD
scala>var data = sc.textFile("/tmp/lxw1234/1.txt")
data: org.apache.spark.rdd.RDD[String]=MapPartitionsRDD[1] at textFile at :21
//使用map運算元
scala>var mapresult

= data.map(line => line.split("\\s+"))
mapresult: org.apache.spark.rdd.RDD[Array[String]]=MapPartitionsRDD[2] at map at :23
//運算map運算元結果
scala> mapresult.collect
res0:Array[Array[String]]=Array(Array(hello, world),Array(hello, spark),Array(hello, hive))

flatMap

屬於Transformation運算元，第一步和map一樣，最後將所有的輸出分割槽合併成一個。

/使用flatMap運算元
scala> var flatmapresult = data.flatMap(line => line.split("\\s+"))
flatmapresult: org.apache.spark.rdd.RDD[String] = MapPartitionsRDD[3] at flatMap at :23
//運算flagMap運算元結果
scala> flatmapresult.collect
res1:Array[String]=Array(hello, world, hello, spark, hello, hive)

使用flatMap時候需要注意：
flatMap會將字串看成是一個字元陣列。
看下面的例子：

scala> data.map(_.toUpperCase).collect
res32:Array[String]=Array(HELLO WORLD, HELLO SPARK, HELLO HIVE, HI SPARK)
scala> data.flatMap(_.toUpperCase).collect
res33:Array[Char]=Array(H, E, L, L, O,, W, O, R, L, D, H, E, L, L, O,, S, P, A, R, K, H, E, L, L, O,, H, I, V, E, H, I,, S, P, A, R, K)

再看：

scala> data.map(x => x.split("\\s+")).collect
res34:Array[Array[String]]=Array(Array(hello, world),Array(hello, spark),Array(hello, hive),Array(hi, spark))
scala> data.flatMap(x => x.split("\\s+")).collect
res35:Array[String]=Array(hello, world, hello, spark, hello, hive, hi, spark)

這次的結果好像是預期的，最終結果裡面並沒有把字串當成字元陣列。
這是因為這次map函式中返回的型別為Array[String]，並不是String。
flatMap只會將String扁平化成字元陣列，並不會把Array[String]也扁平化成字元陣列。

distinct

對RDD中的元素進行去重操作。

scala> data.flatMap(line => line.split("\\s+")).collect
res61:Array[String]=Array(hello, world, hello, spark, hello, hive, hi, spark)
scala> data.flatMap(line => line.split("\\s+")).distinct.collect
res62:Array[String]=Array(hive, hello, world, spark, hi)

如果覺得本部落格對您有幫助，請贊助作者。

【spark】Spark運算元：RDD基本轉換操作–map、flagMap、distinct

map將一個RDD中的每個資料項，通過map中的函式對映變為一個新的元素。輸入分割槽與輸出分割槽一對一，即：有多少個輸入分割槽，就有多少個輸出分割槽。 hadoop fs -cat /tmp/lxw1234/1.txthello worldhello sparkhello

Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct

ive 註意 pre spl cti result log bsp blog Spark算子：RDD基本轉換操作(1)–map、flatMap、distinct 關鍵字：Spark算子、Spark RDD基本轉換、map、flatMap、distinct map 將

Spark運算元：RDD行動Action操作(4)–countByKey、foreach、foreachPartition、sortBy

關鍵字：Spark運算元、Spark函式、Spark RDD行動Action、countByKey、foreach、foreachPartition、sortBy countByKey def countByKey(): Map[K, Long] countByKey用於統

Spark運算元:RDD基本轉換操作(5)–mapPartitions/mapPartitionsWithIndex

mapPartitions def mapPartitions[U](f: (Iterator[T]) => Iterator[U], preservesPartitioning: Boolean = false)(implicit arg0: ClassTag[U]

【21】digits工具：caffe圖形化操作工具digits的安裝

經過前面一系列的學習，我們基本上學會了如何在linux下執行caffe程式，也學會了如何用python介面進行資料及引數的視覺化。也許有人會覺得比較複雜。確實，對於一個使用慣了windows視窗操作的使用者來說，各種命令就要了人命，甚至會非常抵觸命令操作。沒有學過python，要自己去用pyt

【Spark】--Spark中RDD的理解

1.什麼是RDD？RDD：RDD是Spark的計算模型 RDD（Resilient Distributed Dataset）叫做彈性的分散式資料集合，是Spark中最基本的資料抽象，它代表一個不可變、只讀的，被分割槽的資料集。操作RDD就像操作本地集合一樣，資料會被分散到多臺

Spark程式設計指南之三：RDD基本概念

RDD是什麼？ RDD(Resilient Distributed Dataset)，彈性分散式資料集，是Spark的核心資料結構抽象。它是彈性的，具有容錯能力，能夠重新計算失敗結點。它是分散式的，資料分佈在多個結點上。它是一個數據集，可以從外部載入資料，可以是文字檔案，JSON，

Spark運算元：RDD分割槽中的元素和數量統計

1、分割槽邏輯 Spark RDD是被分割槽的，在生成RDD時候，一般可以指定分割槽的數量，如果不指定分割槽數量，當RDD從集合建立時候，則預設為該程式所分配到的資源的CPU核數，如果是從HDFS檔案建立，預設為檔案的Block數。 2、分割槽元素統計可以利用RDD的mapPartit

Spark運算元：RDD建立的方式

建立RDD大體分為兩類方式：（1）通過集合建立；（2）通過外部儲存建立。 1、通過集合方式（1）parallelize：def parallelize[T](seq: Seq[T], numSlices: Int = defaultParallelism)(implicit arg0: C

Spark入門（四）：RDD基本操作

1.RDD轉換 RDD的所有轉換操作都不會進行真正的計算 1.1單個RDD轉換操作 # 建立測試RDD val rdd = sc.parallelize(Array("hello world","java","scala easy")) # 1.

Spark運算元：RDD鍵值轉換操作(5)–leftOuterJoin、rightOuterJoin、subtractByKey

關鍵字：Spark運算元、Spark RDD鍵值轉換、leftOuterJoin、rightOuterJoin、subtractByKey leftOuterJoin def leftOuterJoin[W](other: RDD[(K, W)]): RDD[(K, (V,

【實踐】Spark RDD API實戰

map Applies a transformation function on each item of the RDD and returns the result as a new RDD. //3表示指定為3個Partitions v

【轉載】 Spark性能優化指南——基礎篇

否則內存占用是否進行優先邏輯我們流式字節數組前言開發調優調優概述原則一：避免創建重復的RDD 原則二：盡可能復用同一個RDD 原則三：對多次使用的RDD進行持久化原則四：盡量避免使用shuffle類算子原則五：使用map-side預聚

【總結】spark按文本格式和Lzo格式處理Lzo壓縮文件的比較

spark lzotextinputformat1、描述spark中怎麽加載lzo壓縮格式的文件2、比較lzo格式文件以textFile方式和LzoTextInputFormat方式計算數據，Running Tasks個數的影響 a.確保lzo文件所在文件夾中生成lzo.index索引文件 b.以

【轉載】Spark學習——spark中的幾個概念的理解及參數配置

program submit man 聯眾 tail 進行 orb 數據源 work 首先是一張Spark的部署圖：節點類型有： 1. master 節點：常駐master進程，負責管理全部worker節點。2. worker 節點：常駐worker進程，負責管理

【轉】Spark Streaming和Kafka整合開發指南

thread ada 關系方法拷貝理解 1.2 reduce arr 基於Receivers的方法這個方法使用了Receivers來接收數據。Receivers的實現使用到Kafka高層次的消費者API。對於所有的Receivers，接收到的數據將會保存在Spark

【python】spark+kafka使用

設置消費 /usr tegra 情況下分布式文件系統默認 usr mina 網上用python寫spark+kafka的資料好少啊自己記錄一點踩到的坑~ spark+kafka介紹的官方網址：http://spark.apache.org/docs/latest

Spark函數詳解系列之RDD基本轉換

9.png cal shuff reac 數組a water all conn data 摘要： RDD：彈性分布式數據集，是一種特殊集合 ? 支持多種來源 ? 有容錯機制 ? 可以被緩存 ? 支持並行操作，一個RDD代表一個分區裏的數據集 RDD有兩種操作算子： Tra

【Spark】Spark執行報錯Task not serializable

文章目錄異常資訊出現場景解決方案分析異常資訊 org.apache.spark.SparkException: Task not serializable Caused by: java.io.NotSerial

【Spark】Spark是什麼

簡短介紹下Spark 幾個關鍵詞：快速，通用，叢集計算平臺 Spark擴充套件了MapReduce計算模型，且支援更多計算模式，包含：互動式查詢流處理這裡的互動式，不是簡單的我們生活中理解的與裝置的互動。它的深意是：對於大規模資料集的處理，速度夠

【spark】Spark運算元：RDD基本轉換操作–map、flagMap、distinct

相關推薦