spark高階運算元(一)

阿新 • • 發佈：2018-11-05

import org.apache.spark.{SparkConf, SparkContext}

/**
  * @author zoujc
  * @date 2018/11/1
  */
object SparkRDDTest1 {
   def main(args: Array[String]): Unit = {
      val conf = new SparkConf().setAppName("SparkRDDTest1").setMaster("local[2]")
      val sc = new SparkContext(conf)

      //指定為兩個分割槽 

      val rdd1 = sc.parallelize(List(1, 2, 3, 4, 5, 6, 7), 2)
      //設定一個函式，設定分割槽的ID索引，數值
      val func1 = (index: Int, iter: Iterator[Int]) => {
         iter.toList.map(x => s"[partID: $index,val: $x]").iterator
      }

      //檢視每個分割槽的資訊
      val res1 = rdd1.mapPartitionsWithIndex(func1)
      //    println(res1.collect().toBuffer) 


      //用aggregate,指定初始值，對rdd1進行聚合操作，先區域性求和，在進行全域性求和
      val res2 = rdd1.aggregate(0)(_ + _, _ + _)
      //    println(res2)

      //將每個分割槽中最大的找出來求和
      val res3 = rdd1.aggregate(0)(math.max(_, _),(_ + _))
      //每個分割槽都以10為初始值，10用了3次
      val res4 = rdd1.aggregate(10)(_ + _, _ + _)
      //在List中有多少元素比e大和有多少元素比e小 

      val rdd2 = sc.parallelize(List("a", "b", "c", "d", "e", "f", "g", "h", "i", "j"))
      val (biggerthane, lessthane) = rdd2.aggregate((0, 0))(
         (ee, str) => {
            var biggere = ee._1
            var lesse = ee._2
            if (str.compareTo("e") >= 0) biggere = ee._1 + 1
            else if (str.compareTo("e") < 0) lesse = ee._2 + 1
            (biggere, lesse)
         },
         (x, y) => (x._1 + y._1, x._2 + y._2)
      )
      //    println((biggerthane,lessthane))

      //aggregate與aggregateByKey區別：前者針對序列操作，後者針對k,v對操作
      //原型
      //    def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V)) =>
      //    combOp: (U,U): RDD[(K,U)] = self.withScope{
      //       aggregateByKey(zeroValue, defaultPartitioner(self))(seqOp, combOp)
      //    }

      //combineByKey
//    def combineByKey[C](
//       createCombiner: V => C,
//       mergeValue: (C, V) => C,
//       mergeCombiners: (C, C) => C): RDD[(K, C)] = self.withScope {
//       combineByKeyWithClassTag(createCombiner, mergeValue, mergeCombiners)(null)
//    }
      //從上面這段原始碼可以清晰看出，aggregateByKey呼叫的就是combineByKey方法。
      // seqOp方法就是mergeValue，combOp方法則是mergeCombiners，cleanedSeqOp(createZero(), v)是createCombiner,
      // 也就是傳入的seqOp函式, 只不過其中一個值是傳入的zeroValue而已！
      //因此, 當createCombiner和mergeValue函式的操作相同, aggregateByKey更為合適！

      val rdd3 = sc.parallelize(List("a","b","c","d","e","f"),2)
      val res5 = rdd3.aggregate("|")(_ + _, _ + _)
//    println(res5)

      val rdd4 = sc.parallelize(List("12","23","345","4567"),2)
      //兩個分割槽，計算出字串最大長度，然後合成字串
      val res6 = rdd4.aggregate("")((x,y) => math.max(x.length,y.length).toString, (x,y) => x + y)
//    println(res6)   24

      val rdd5 = sc.parallelize(List("12", "23", "345", ""), 2)
      val res7 = rdd4.aggregate("")((x, y) => math.min(x.length, y.length).toString, (x, y) => x + y)
//    println(res7)   11

      val rdd6 = sc.parallelize(List("12", "23", "", "345"), 2)
      val res8 = rdd6.aggregate("")((x, y) => math.min(x.length, y.length).toString, (x, y) => x + y)
//    println(res8)   11

      //aggregateByKey可以先進行區域性操作，再進行全域性操作。
      val pariRDD = sc.parallelize(List(("cat",2), ("cat",5), ("mouse", 4), ("cat", 12), ("dog", 12), ("mouse", 2)),2)

      def func2(index: Int, iter: Iterator[(String,Int)]): Iterator[String] ={
         iter.toList.map(x => s"[PartID: $index, val: $x]").iterator
      }

      println(pariRDD.mapPartitionsWithIndex(func2).collect().toBuffer)
      //把每種型別最大的次數取出來
      val res9 = pariRDD.aggregateByKey(0)(math.max(_, _),_ + _)
//    println(res9.collect().toBuffer)
//    ArrayBuffer((dog,12), (cat,17), (mouse,6))

      //不為10的變成10
      val res10 = pariRDD.aggregateByKey(10)(math.max(_, _),_ + _)
//    println(res10.collect().toBuffer)
//    ArrayBuffer((dog,12), (cat,22), (mouse,20))

      /**
        * pairRDD.aggregateByKey(0)(_ + _ , _ + _).collect與pairRDD.reduceByKey( _ + _).collect，
        * 這兩個方法執行結果是一樣的，實際上底層都是呼叫的同一個方法：combineByKey
        */
   }
}

spark高階運算元(一)

import org.apache.spark.{SparkConf, SparkContext} /** * @author zoujc * @date 2018/11/1 */ object SparkRDDTest1 { def main(args: Array[S

spark入門四（RDD高階運算元一）

1. mapPartitionsWithIndex 建立RDD,指定分割槽數為2 scala> val rdd1 = sc.parallelize(List(1,2,3,4,5,6,7),2) 檢視分割槽 scala> rdd1.partitio

Spark學習筆記(一)----spark運算元操作

1.前言　　最近在幫公司瞭解大資料方面的技術，涉及到spark的相關內容，所以想寫個筆記記錄一下。目前用到的時spark2.1.0的版本，僅供學習參考。 2.正文　　2.1spark官網運算元的分類　　spark官網上面有對於運算元的描述，但是spark對於運算元的分類粒度較粗，大致為transform

spark入門五（RDD高階運算元二）

1. 複習List的操作 list操作： val ls1 = List(1) val ls2 = List(2) // 追加一個元素 ls1 :+ 2 這個結果為：res15: List[Any] = List(1, 2) // 追加一個集合 ls1 ++ ls

spark RDD運算元（十一）之RDD Action 儲存操作saveAsTextFile,saveAsSequenceFile,saveAsObjectFile,saveAsHadoopFile 等

關鍵字:Spark運算元、Spark函式、Spark RDD行動Action、Spark RDD儲存操作、saveAsTextFile、saveAsSequenceFile、saveAsObjectFile,saveAsHadoopFile、saveAsHa

spark的RDD高階運算元

map是對每個元素操作, mapPartitions是對其中的每個partition操作 mapPartitionsWithIndex : 把每個partition中的分割槽號和對應的值拿出來, 看原始碼 val func = (index: Int, i

Spark學習筆記03：高階運算元

1.在slave的機器上啟動start-master.sh會出現錯誤的問題如果在mini2上啟動start-master.sh，會出現問題。spark會在mini2本地上啟動master，而不會通過ssh遠端啟動mini1的master。詳細資訊可以之後檢視spark的啟動指

spark RDD運算元（一） parallelize，makeRDD，textFile

作者: 翟開順首發：CSDN parallelize 呼叫SparkContext 的 parallelize()，將一個存在的集合，變成一個RDD，這種方式試用於學習spark和做一些spark的測試 scala版本 def paral

sparklyr-R語言訪問Spark的另外一種方法

sig col red oss rank branch executor json pro Connect to Spark from R. The sparklyr package provides a complete dplyr backend. F

Spark學習筆記(一)

-s 環境從數據多個成了 lib one python ted 概念： Spark是加州大學伯克利分校AMP實驗室，開發的通用內存並行計算框架。支持用scala、java和Python等語言編寫應用程序。相較於Hdoop，往往有更好的運行效率。 Spark包括了Sp

Spark實戰（一）SparkStreaming集成Kafka

round 形式寫入 some base cal 接下來會話支持 Spark Streaming + Kafka集成指南 Kafka項目在版本0.8和0.10之間引入了一個新的消費者API，因此有兩個獨立的相應Spark Streaming包可用。請選擇正確的包，

Spark入門（一）

mesos 實現 spl tracker cell 文件系統 bcf 不同的 pad Spark是什麽？ Spark是一個用來實現快速而通用的集群計算的平臺。擴展了廣泛使用的MapReduce計算模型，而且高效地支持更多的計算模式，包括交互式查詢和流處理。在處理大規模數據

spark RDD運算元 parallelize，makeRDD，textFile

- parallelize 將一個存在的集合，變成一個RDD。這種方式試用於學習spark和做一些spark的測試第一個引數一是一個 Seq集合第二個引數分割槽數 var array = List(1, 2, 3, 4, 5, 6, 7

Spring高階裝配(一) profile Spring高階裝配(一) profile

Spring高階裝配(一) profile Spring高階裝配要學習的內容包括： Spring profile 條件化的bean宣告自動裝配與歧義性 bean的作用域 Spring表

MySQL從刪庫到跑路_高階（一）——資料完整性

作者：天山老妖S 連結：http://blog.51cto.com/9291927 一、資料完整性簡介 1、資料完整性簡介資料冗餘是指資料庫中存在一些重複的資料，資料完整性是指資料庫中的資料能夠正確反應實際情況。資料完整性是指資料的可靠性和準確性，資料

2.Spark常用運算元講解 (z轉）

2.Spark常用運算元講解 2017年03月15日 16:50:45 dream0352 閱讀數：16141 標籤： SparkSpark常用運算元spark運算元Spark運算元講解更多個人分類： spark 　 S

7.高階裝配(一)

文章目錄 7.高階裝配(一) 1. 環境與Profile 1.解決不同環境不同配置 2.配置方式 2. 條件化bean 1. 概念 2. 舉例

Spark學習筆記(一) Ubuntu安裝JDK和ssh

1. Hadoop的必要軟體環境 Java開發環境JDK ssh(安全外殼協議) 1.1 Ubuntu下安裝JDK 系統環境:ubuntu-18.04.1 JDK版本:1.8 1.1.1 從oracle官方下載jdk的包到本機

[Spark進階]--再識spark高階架構

Spark EcoSystem幾乎都是以 Spark Core為核心而構建起來的，那麼，先看看 Spark Core的高階架構：分別介紹下幾個概念 1、Driver Programs A driver program is

轉載：Spark中文指南(入門篇)-Spark程式設計模型(一)

原文：https://www.cnblogs.com/miqi1992/p/5621268.html 前言本章將對Spark做一個簡單的介紹，更多教程請參考： Spark教程本章知識點概括 Apache Spark簡介 Spark的四種執行模式 Spark基於

spark高階運算元(一)

相關推薦