spark入門四（RDD高階運算元一）

阿新 • • 發佈：2018-12-25

1. mapPartitionsWithIndex

建立RDD,指定分割槽數為2

scala> val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7),2)

檢視分割槽

scala> rdd1.partitions

– 內容如下：

res0: Array[org.apache.spark.Partition] = Array([email protected], org.apa[email protected])

檢視分割槽數量

scala> rdd1.partitions.length   //結果： res1: Int = 2

建立一個迭代函式

def func(index : Int, iter : Iterator[Int]) : Iterator[String] = {
	iter.toList.map(x => "[partID:" + index + ",val: " + x +"]").iterator
}

檢視分割槽內容

scala> rdd1.mapPartitionsWithIndex(func).collect()

內容如下：

res2: Array[String] = Array([partID:0,val: 1], [partID:0,val: 2], [partID:0,val: 3], [partID:1,val: 4], [partID:1,val: 5], [partID:1,val: 6], [partID:1,val: 7])

2. aggregate 聚合更靈活

建立RDD

scala>  val rdd = sc.parallelize(List(1,2,3,4,5,6,7,8,9),2)

RDD求和

scala>   rdd.aggregate(0)(_+_,_+_)

求每個分割槽最大值的工作，再對最大值求和

引導：如何求陣列最大值：val arr = Array(1,2,3)
arr.reduce(math.max(,)) //獲取到最大值為3

scala> rdd.aggregate(0)(math.max(_,_),_+_)

結果為：res6: Int = 13
說明：第一個分割槽最大值為4，第二個為9，加起來為13

求最大值：

scala> rdd.aggregate(0)(math.max(_,_),math.max(_,_))
res0: Int = 9

這裡面有個問題：初始值為0，必須小於數組裡面所有的元素才可以，否則結果報錯。為了避免這個問題，可以將初始值定義為rdd的第一個元素，程式碼如下：

scala> rdd.aggregate(rdd.first)(math.max(_,_),math.max(_,_))
res6: Int = 9

練習：

scala> rdd.aggregate(10)(math.max(_,_),_+_)
res7: Int = 30

說明：
初始值為10
10 和第一個分割槽最大值4比較，結果為10
10 和第一個分割槽最大值9比較，結果為10
結果為：10+10+10 = 3

scala> rdd.aggregate(6)(math.max(_,_),_+_)
res8: Int = 21

說明：
初始值為6
6 和第一個分割槽最大值4比較，結果為6
6 和第一個分割槽最大值9比較，結果為9
結果為：6+6+9 = 21

scala> rdd.aggregate(3)(math.max(_,_),_+_)
res9: Int = 16

說明：
初始值為3
3 和第一個分割槽最大值4比較，結果為4
3 和第一個分割槽最大值9比較，結果為9
結果為：3+4+9 = 16

scala> val rdd1 = sc.parallelize(List("a","b","c","d","e"),2)
rdd1: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[3] at parallelize at <console>:24

scala> rdd1.aggregate("")(_+_,_+_)
res10: String = abcde

def func2(index : Int, iter : Iterator[String]) : Iterator[String] = {
	iter.toList.map(x => "[partID:" + index + ",val: " + x +"]").iterator
}
```java

```java
scala> rdd1.mapPartitionsWithIndex(func2).collect()
res13: Array[String] = Array([partID:0,val: a], [partID:0,val: b], [partID:1,val: c],[partID:1,val: d], [partID:1,val: e])

scala> rdd1.aggregate("|")(_+_,_+_)
res15: String = ||ab|cde

scala> val rdd2 = sc.parallelize(List("12","23","345","4567"),2)
rdd2: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[6] at parallelize at <console>:24

scala> rdd2.aggregate("")((x,y)=>math.max(x.length,y.length).toString,(x,y)=>x+y);
res16: String = 24

scala> rdd2.aggregate("")((x,y)=>math.max(x.length,y.length).toString,(x,y)=>x+y);
res17: String = 42

scala> rdd2.aggregate("")((x,y)=>math.max(x.length,y.length).toString,(x,y)=>x+y);
res18: String = 24

scala> rdd2.aggregate("")((x,y)=>math.max(x.length,y.length).toString,(x,y)=>x+y);
res19: String = 42

說明：
相同的程式碼，得到的結果有兩個，
第一個分割槽最大長度是2，第二個分割槽最大長度是4，
因為有兩個分割槽計算，並不知道哪個先返回，所以會有兩個結果。

scala> val rdd3 = sc.parallelize(List("12","23","345",""),2)	

scala> rdd3.aggregate("")((x,y)=>math.min(x.length,y.length).toString,(x,y)=>x+y);
res25: String = 01

scala> rdd3.aggregate("")((x,y)=>math.min(x.length,y.length).toString,(x,y)=>x+y);
res26: String = 10

scala> rdd3.aggregate("")((x,y)=>math.min(x.length,y.length).toString,(x,y)=>x+y);
res27: String = 10

scala> rdd3.aggregate("")((x,y)=>math.min(x.length,y.length).toString,(x,y)=>x+y);
res28: String = 01

說明：
第一個分割槽：
初始值""長度0和"12"的長度2比較，結果為0,呼叫toString，結果為 “0”
再將 "0"長度為1和 “23"的長度2比較，結果為1,呼叫toString，結果為 “1”
第二個分割槽：
初始值”"長度0和"345"的長度3比較，結果為0,呼叫toString，結果為 “0”
再將 "0"長度為1和 ""的長度0比較，結果為0,呼叫toString，結果為 “1”
因為有兩個分割槽計算，並不知道哪個先返回，所以會有兩個結果。

3. aggregateByKey 把相同的Key進行操作

//1. 建立k-v對RDD
scala> val pairRDD = sc.parallelize(List(("cat",2),("cat",5),("mouse",4),("cat",12),("cat",13),("mouse",2)))
pairRDD: org.apache.spark.rdd.RDD[(String, Int)] = ParallelCollectionRDD[9] at parallelize at <console>:24

//2. 檢視內容
def func3(index : Int, it : Iterator[Any]) : Iterator[Any] = {
    it.toList.map(x => "[partID:" + index + ",val: " + x +"]").iterator
}

scala> pairRDD.mapPartitionsWithIndex(func3).collect()
res30: Array[Any] = Array([partID:0,val: (cat,2)], [partID:0,val: (cat,5)], [partID:0,val: (mouse,4)], [partID:1,val: (cat,12)], [partID:1,val: (cat,13)], [partID:1,val: (mouse,2)])

//統計每種動物的總數量，分割槽求和，再求和
scala> pairRDD.aggregateByKey(0)(_+_,_+_).collect()
res31: Array[(String, Int)] = Array((cat,32), (mouse,6))

//將每種動物的每個分割槽最大數量的那個元素求出來,再對每個分割槽求和
scala> pairRDD.aggregateByKey(0)(math.max(_,_),_+_).collect()
res32: Array[(String, Int)] = Array((cat,18), (mouse,6))

//將每種動物的最大數量的那個元素求出來
scala> pairRDD.aggregateByKey(0)(math.max(_,_),math.max(_,_)).collect()
res33: Array[(String, Int)] = Array((cat,13), (mouse,4))

完…

spark入門四（RDD高階運算元一）

1. mapPartitionsWithIndex 建立RDD,指定分割槽數為2 scala> val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7),2) 檢視分割槽 scala> rdd1.partitio

spark入門五（RDD高階運算元二）

1. 複習List的操作 list操作： val ls1 = List(1) val ls2 = List(2) // 追加一個元素 ls1 :+ 2 這個結果為：res15: List[Any] = List(1, 2) // 追加一個集合 ls1 ++ ls

spark入門三（RDD基本運算）

1. RDD基本操作 val rdd1 = sc.parallelize(List(1,2,3,4,4)) 輸出結果：rdd1: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at paral

一步一步教你寫股票走勢圖——K線圖四（高亮聯動一）

k線圖的第二節末尾，已經初步講解了高亮聯動，但是效果沒有達到我們的預期，因為k線圖本身就支援左右滾動，所以在滾動高亮的時候就出現了衝突，我們那會只實現了點選圖表，實現高亮的展示，但是效果還是太差，所以才有了我們今天這節的內容，將會優化體驗效果

spark高階運算元(一)

import org.apache.spark.{SparkConf, SparkContext} /** * @author zoujc * @date 2018/11/1 */ object SparkRDDTest1 { def main(args: Array[S

深度學習 --- 優化入門四（Batch Normalization（批量歸一化）一）

前幾節我們詳細的探討了，梯度下降存在的問題和優化方法，本節將介紹在資料處理方面很重要的優化手段即批量歸一化（批量歸一化）。批量歸一化（Batch Normalization）並不能算作是一種最優化演算法，但其卻是近年來優化深度神經網路最有用的技巧之一，並且這種方法非常的簡潔方便，可以和其他

spark入門二（運算元介紹核wordcount入門）

[[email protected] ~]# cd /usr/local/apps/spark-2.3.2-bin-hadoop2.7/ [[email protected] spark-2.3.2-bin-hadoop2.7]# ./sb

spark的RDD高階運算元

map是對每個元素操作, mapPartitions是對其中的每個partition操作 mapPartitionsWithIndex : 把每個partition中的分割槽號和對應的值拿出來, 看原始碼 val func = (index: Int, i

Spark入門1（WordCount實現）

article sco ack 系列 .text col lines count sta 1 package com.test 2 3 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 7

Spark入門3（累加器和廣播變量）

不同默認 drive 定義函數 kryo 序列化任務啟動一、概要　　通常情況下，當向Spark操作傳遞一個函數時，它會在一個遠程集群節點上執行，它會使用函數中所有變量的副本。這些變量被復制到所有的機器上，遠程機器上並沒有被更新的變量會向驅動程序回傳。在任務之間使

小白學習Spark系列四：rdd踩坑總結

build .text 大數據分析遇到 ESS bstr 分隔符讀取配置關註　　初次嘗試用 Spark+scala 完成項目的重構，由於兩者之前都沒接觸過，所以邊學邊用的過程大多艱難。首先面臨的是如何快速上手，然後是代碼調優、性能調優。本章主要記錄自己在項目中遇到的

Python3入門上（適合新手，一篇足夠）

python3入門篇上 Python 是一門有條理的和強大的面向物件的程式設計語言、一種高層次的結合瞭解釋性、編譯性、互動性和麵向物件的指令碼語言。優勢易於學習：Python 有相對較少的關鍵字，結構簡單，和一個明確定義的語法，學習起來更加簡單。易於閱讀：

Spark入門——1：RDD及程式設計介面

RDD是Spark的核心，也是整個Spark的架構基礎。spark與mapreduce相比，前者提供了更加豐富的程式設計介面給程式猿們。所以下面主要說明RDD的基本概念，以及其重要介面。 RDD包含4大操作： 1，建立操作：

Spring入門學習（通過FactoryBean配置Bean）第十一節

Spring入門學習（通過FactoryBean配置Bean） Spring中有兩種型別的Bean Spring中有兩種型別的Bean 普通的Bean和工廠Bean，工廠Bean返回的物件不是指類的一個例項，它返回的是該工廠bean的g

Spring入門學習（事務的其它屬性）第二十一節

Spring入門學習（事務的其它屬性）事務的隔離級別事務的回滾事務的只讀屬性和過期時間事務的隔離級別使用 isolation指定事務的隔離級別，最常用的取值為 READ_COMMITTED 事務的回滾

Spark學習筆記03：高階運算元

1.在slave的機器上啟動start-master.sh會出現錯誤的問題如果在mini2上啟動start-master.sh，會出現問題。spark會在mini2本地上啟動master，而不會通過ssh遠端啟動mini1的master。詳細資訊可以之後檢視spark的啟動指

使用webgl(three.js)搭建一個3D智慧園區、3D建築，3D消防模擬，web版3D,bim管理系統——第四課（炫酷版一）

這節課我們主要講解園區三維視覺化炫酷感官技術方案前言：　　當基礎技術達到普及狀態，應用就趨向於極致，在三維視覺化領域也是這個道理。各大視覺化公司都追求美觀最大化，這時候美工的作用就不容忽視了。　　背景說明：　　　　A、經濟背景：經濟下行的大環境下，各大有社會責任的企業與部門開始拉動內需，擴大預

Linux基礎入門--find（文件查找）

linux基礎find文件查找：在文件系統上查找符合條件的文件，條件是自己給出Linux系統上實現工具：locate，findlocate：依賴於實現構建好的索引庫，系統自動實現，一旦文件發生變化需要一定的周期時間更新。也可以手動更新數據。在索引構建過程中需要遍歷整個文件系統，極消耗資源。工作特點：

python-基礎入門-3（對文件操作）

col 文件打開 hello cnblogs you write line div 打印打開文件用open()函數 open（filename）默認為讀取模式等價於open（filename，‘r‘） 1 txt=open(filename) 2 print txt.r

課堂測試四（文件讀寫）

upd select tag art main cor color -s ioe 學生信息管理系統（本程序以文本方式存儲數據，不通過數組，直接對文件進行操作）學生類 Student.java 1 public class Student { 2 priva

spark入門四（RDD高階運算元一）

1. mapPartitionsWithIndex

2. aggregate 聚合 更靈活

3. aggregateByKey 把相同的Key進行操作

相關推薦

2. aggregate 聚合更靈活