spark中的scalaAPI之RDDAPI常用操作

阿新 • • 發佈：2017-11-22

appname 轉換成了 size pre esc atm rgs new

package com.XXX
import org.apache.spark.storage.StorageLevel
import org.apache.spark.{SparkConf, SparkContext}
//spark中的RDD測試
object RddTest {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setMaster("local[*]").setAppName("rdd api test")
    val sc = SparkContext.getOrCreate(conf)
 
//    mapTest(sc)
//    distinctTest(sc)
//    filterTest(sc)
//    keyByTest(sc)
//    sortByTest(sc)
//    topNTest(sc)
//    repartitionTest(sc)
//    groupByTest(sc)
    aggSumTest(sc)
    sc.stop()
  }

  def mapTest(sc:SparkContext) = {
    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt",3)
    val mapResult  
= file.map(x =>{//map的特點是一個輸入對應一條輸出，沒有返回值，對應的返回值會是() NIL
      val info = x.split("\\t")
      (info(0),info(1))//轉換成了元組
    })
    //take是一個action，作用是取出前n條數據發送到driver，一般用於開發測試
    mapResult.take(10).foreach(println)

    //map和mapPartition的區別：map是一條記錄一條記錄的轉換，mapPartition是
    //一個partition（分區）轉換一次
    val mapPartitionResult = file.mapPartitions(x => {// 
一個分區對應一個分區
    var info = new Array[String](3)
     for(line <- x) yield{//yield：作用：有返回值，所有的記錄返回之後是一個集合
        info = line.split("\\t")
        (info(0),info(1))
      }
    })
    mapPartitionResult.take(10).foreach(println)
    // 把一行轉為多行記錄，使用flatMap展平,把一條new_tweet記錄轉成兩條login記錄
    val flatMapTest = file.flatMap(x=>{
      val info = x.split("\\t")
      info(1) match {
        case "new_tweet"=> for (i <- 1 to 2) yield s"${info(0)} login ${info(2)}"
        case _ => Array(x)
      }
    })
    flatMapTest.take(10).foreach(println)
    println(file.count())
    println(flatMapTest.count())
  }
  //distinct：排重,把重復的數據去掉，不是數據的轉換，屬於數據的聚合
  def distinctTest(sc:SparkContext) = {
    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt",3)
    val userRdd = file.map(x=>x.split("\\t")(0)).distinct()
    userRdd.foreach(println)
  }
  //filter:過濾
  def filterTest(sc:SparkContext) = {
    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt",3)
    val loginFilter = file.filter(x=>x.split("\\t")(1)=="login")
    loginFilter.take(10).foreach(println)
    println(loginFilter.count())
  }

  //keyBy,輸入作為value，key由算計計算而來
  def keyByTest(sc:SparkContext) = {
    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt",3)
    val userActionType = file.keyBy(x=>{
      val info = x.split("\\t")
      s"${info(0)}--${info(1)}"
    })
    userActionType.take(10).foreach(println)
  }
  //sortBy排序
  def sortByTest(sc:SparkContext) = {
    val file = sc.textFile("file:///C:\\Users\\zuizui\\Desktop\\README.txt")
    //數據量小的話，想進行群排序，吧numPartitions設置成1
    //默認為聖墟，姜旭吧第二個參數設置為false
//    val sortBy = file.sortBy(x=>x.split("\\s+")(1).toInt,numPartitions = 1)//後面有不同數量的空格時，使用\\s+來split
    val sortBy = file.sortBy(x=>x.split("\\s+")(1).toInt,false,numPartitions = 1)//後面有不同數量的空格時，使用\\s+來split
    sortBy.foreach(println)
  }

  def topNTest(sc:SparkContext) = {
    val list = List(1,23,34,54,56,100)//把集合轉化為RDD使用parallelize，或者mkRDD
    val rdd = sc.parallelize(list,2)
//添加飲食準換，使takeOrdered，和top的排序順序變反
    implicit  val tonordered = new Ordering[Int]{
      override def compare(x: Int, y: Int): Int = y.compareTo(x)
    }
    val takeOrdered = rdd.takeOrdered(3)//從小到大取出前三條
    takeOrdered.foreach(println)
    val topN = rdd.top(3)//從大到小取出前三條
    topN.foreach(println)
  }
  //重新分區
  def repartitionTest(sc:SparkContext) = {
    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt")
    val result  = file.repartition(5)//repartition是寬依賴，所謂寬依賴就是
    //原來RDD的每一個分區中的數據都會分別吧部分數據寫入到新的RDD的每個分區中
    //窄依賴：就是原來RDD的分區中的一個分區數據完全寫入到新的RDD中的一個分區中
    //窄依賴減少網絡間的傳輸
    file.foreachPartition(x=>{
      var sum = 0
      x.foreach(x=>sum+=1)
      println(s"該分區的數據有${sum}")
    })

    result.foreachPartition(x=>{
      var sum = 0
      x.foreach(x=>sum+=1)
      println(s"該分區的數據有${sum}")
    })

    val coalesce = result.coalesce(3)//使用窄依賴，原來有五個分區，現在變成三個的話，
    //其中的一個不變，另外四個分區中的兩兩分別通過窄依賴添加到另外兩個新的分區中
    coalesce.foreachPartition(x=>{
      var sum = 0
      x.foreach(x=>sum+=1)
      println(s"coalesce該分區的數據有${sum}")
    })
  }

  def groupByTest(sc:SparkContext)= {
    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt")
    val groupedBy = file.groupBy(x=>x.split("\\t")(0))
    //group by 容易發生數傾斜
    groupedBy.foreachPartition(x=>{
      println(s"groupByRDD分區，該分區共有：${x.size}條記錄")
    })
    groupedBy.foreach(x=>{
      println(s"groupByRDD的一條記錄，key為${x._1},value上集合記錄條數是：${x._2.size}")
    })
    groupedBy.foreach(x => {
      var sum = 0
      x._2.foreach(line => {
        line.split("\\t")(1) match {
          case "login" => sum += 1
          case _ =>
        }
      })
      println(s"用戶：${x._1}的登錄次數是：$sum")
    })
  }

  def aggSumTest(sc:SparkContext) = {
    val list = List(1,2,4,5)
    val rdd = sc.parallelize(list,3)
      //reduce 計算sum
    val reduceResult = rdd.reduce((v1,v2)=>v1+v2)
    //fold計算sum
    val flodResult = rdd.fold(0)((v1,v2)=>v1+v2)
    //aggregate把元素連接成一個字符串
    val aggResult = rdd.aggregate("")((c,v)=>{
      c match {
        case "" => v.toString
        case _ => s"$c,$v"
      }
    },(c1,c2)=>{
      c1 match {
        case ""=> c2
        case _=>s"$c1,$c2"
      }
    })

    println(s"reduceResult:$reduceResult")
    println(s"flodResult:$flodResult")
    println(s"aggResult:$aggResult")
  }

  def persistTest(sc:SparkContext) = {
    val file = sc.textFile("file:///G:\\bd14\\user-logs-large.txt")
//    file.cache()
    file.persist(StorageLevel.MEMORY_ONLY)//相當於cache()，智加載在內存中
    //計算用戶數量
    //計算ip數量
    //計算每個用戶在每一個ip上的數量
  }
}

appname 轉換成了 size pre esc atm rgs new package com.XXX import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf,

python中列表類型常用操作

python列表操作列表刪除元素列表輸入元素列表相加列表相乘列表是個在寫測試用例時經常被用到的類型，我們來看下列表常用的一些操作吧。 1、分片作用：提取列表中的一部分元素出來(分片在測試的時候也經常會用到) 這裏的a[1:4]指取從a這個列表的下標為1的索引開始(即第二

三劍客之sed常用操作

linux sed 行操作 SedSed是一個強大的文本處理工具可以采用正則匹配，對文本進行插入刪除修改等操作Sed處理的時候，一次處理一行，每一次把當前處理的存放在臨時緩沖區，處理完後輸出緩沖區內容到屏幕，然後把下一行讀入緩沖區，如此重復，直到結尾。1、命令格式和參數sed [-nefr] [動

python3開發進階-Django框架中的ORM的常用操作的補充（F查詢和Q查詢，事務）

這樣的 env atomic 實例 In git 必須 TE setup 閱讀目錄 F查詢和Q查詢事務一、F查詢和Q查詢 1、F查詢查詢前的準備 class Product(models.Model): name = mod

js中對陣列的常用操作方法（push，pop）

參考地址：https://wenda.so.com/q/1461319712727140 1.push，pop var oldArr=[1,2,3]; alert(oldArr.push(4,[5,6]))–&g

微電子新手入門之Cadence常用操作——波形圖的匯出

模擬結束後，進入模擬波形介面，【File】-【Print...】，彈出對話方塊一種是輸出.pdf格式的，一種是輸出.ps格式的。點選右邊的【Properties】，進行相應的設定，預設即可，也可以稍微調整修改一下，點選【OK】。點選【Options>>】

微電子新手入門之Cadence常用操作——原理圖/版圖的匯出

原理圖和版圖的匯出步驟是一致的，這裡以匯出黑白原理圖為例介紹。 1）開啟相應的schematic。 2）在Virtusuo Schematic Editor中，【File

微電子新手入門之Cadence常用操作——安裝印表機

Cadence Plotter即為Cadence提供的虛擬印表機，可以把設計列印成*.ps (or *.eps)檔案，這種檔案格式為向量圖形，可以後續轉換成*.wmf 或者其他合適的格式在 Microsoft Visio 裡打散編輯。全新安裝的 Cadence 預設是沒有配置虛擬印表機的，需要配置虛

Python 之字串常用操作

字串表示：str與repr的區別str()函式把值轉換為合理形式的字串，便於理解repr()函式是建立一個字串，以合法的Python表示式形式來表示值。如下： #-*-encoding:utf-8-*- print repr("hello repr") print str("hello str")

Hadoop之HDFS常用操作練習（基礎）

內容整理於筆記叢集規劃： ☛Hadoop的高可用完全分佈模式中有HDFS的主節點和資料節點、MapReduce的主節點和任務節點、資料同步通訊節點、主節點切換控制節點總共6類服務節點，其中 HDFS的主節點、MapReduce的主節點、主節點切換控制節

Python：pandas之DataFrame常用操作

定義一個df： dates = pd.date_range('20180101', periods=6) df = pd.DataFrame(np.arange(24).reshape(6, 4), index=dates, columns=['A', 'B', 'C', 'D']) p

2017-12-18python全棧9期第三天第二節之str常用操作方法及for迴圈格式化輸出三種玩法format

#!/user/bin/python# -*- coding:utf-8 -*-s = '我叫{},今年{},愛好{},再說一下我叫{}'.format('zd',24,'xq','zd')print(s)s = '我叫{0},今年{1},愛好{2},再說一下我叫{0}'.format('zd',24,'xq

CMD中對使用者的常用操作

檢視使用者賬戶 C:\Windows\system32>net user 檢視有管理員許可權的使用者 C:\Windows\system32>net localgroup administrators 檢視某個使用者的一些許可權 C:\Windows\

python中PIL庫的常用操作

Python 中的影象處理(PIL(Python Imaging Library)) ## Image是PIL中最重要的模組 from PIL import Image import matplo

（四）Python學習之字串常用操作（下）

（四）Python學習之字串常用操作（下）七.其他常用操作 1.format(*args，**kwargs)：格式化字串，將一個字串中的佔位符替換為指定的值；format 函式可以接受不限個引數，位置可以不按順序； print("網站名：{name}, 地址 {url}".for

（三）Python學習之字串常用操作（上）

（三）Python學習之字串常用操作（上）一、字母處理 upper()：全部大寫； lower()：全部小寫； swapcase()：大小寫互換； capitalize()：首字母大寫，其餘小寫； title()：首字母大寫（轉換為標題）；

Office 中的 Word 及常用操作

在所有 Office 應用程式中，Microsoft Word 可能是應用最廣泛的應用程式，它還經常在自定義 Office 解決方案中扮演重要的角色。開發人員用各種不同的方式使用 Word，有一些方式很簡單，而另一些極其複雜。無論涉及何種自定義解決方案，用 Vis

0039C++標準庫中的vector的常用操作函式

vector是C++標準模板庫中的部分內容，它是一個多功能的，能夠操作多種資料結構和演算法的模板類和函式庫。vector之所以被認為是一個容器，是因為它能夠像容器一樣存放各種型別的物件，簡單地說vector是一個能夠存放任意型別的動態陣列，能夠增加和壓縮資料。為

Qt資料庫之資料庫常用操作

前面的章節介紹了怎麼使用 Qt 連線訪問資料庫 SQLite 和 MySQL，在這一節裡將介紹訪問資料庫的常用操作細節，主要是關於QSqlDatabase，QSqlQuery 的運用，以及資料庫訪問安全相關的SQL 注入攻擊。小提示1. 現在比較推薦資料庫設計時每個

Spark中的各種action運算元操作（scala版）

這裡直接貼程式碼了，action的介紹都在java那裡。 package cn.spark.study.core import org.apache.spark.SparkConf import org.apache.spark.SparkContext

spark中的scalaAPI之RDDAPI常用操作

相關推薦