Spark資料過濾、自定義分割槽、Shuffer調優經典案例（詳解）

阿新 • • 發佈：2018-12-11

案例：根據學科取得最受歡迎的老師的前兩名這個是資料

http://bigdata.edu360.cn/zhangsan
http://bigdata.edu360.cn/zhangsan
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/wangwu
http://bigdata.edu360.cn/wangwu
http://javaee.edu360.cn/zhaoliu
http://javaee.edu360.cn/zhaoliu
http://javaee.edu360.cn/laoyang
http://javaee.edu360.cn/laoyang
http://javaee.edu360.cn/laoyang
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/wangwu
http://bigdata.edu360.cn/wangwu
http://javaee.edu360.cn/zhaoliu
http://javaee.edu360.cn/zhaoliu
http://javaee.edu360.cn/laoyang
http://javaee.edu360.cn/laoyang
http://javaee.edu360.cn/laoyang
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/lisi
http://bigdata.edu360.cn/wangwu
http://bigdata.edu360.cn/wangwu
http://javaee.edu360.cn/zhaoliu
http://javaee.edu360.cn/zhaoliu
http://javaee.edu360.cn/laoyang
http://javaee.edu360.cn/laoyang
http://javaee.edu360.cn/laoyang
http://python.edu360.cn/laoli
http://python.edu360.cn/laoliu
http://python.edu360.cn/laoli
http://python.edu360.cn/laoli

                                 `基本寫法`   ------->在List中進行排序會產生記憶體溢位

package day03



/**
  *
  * 根據學科取得最受歡迎的老師前2名
  */
import java.net.URL
import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object FavTeacherWithObject {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)

    val conf = new SparkConf()
    conf.setAppName("FavTeacher").setMaster("local[2]") //local[*]表示用多個執行緒跑，2表示用兩個執行緒
    val sc = new SparkContext(conf)

    //讀取資料
    val lines: RDD[String] = sc.textFile("D:\\data\\teacher.log")

    //整理資料，每個老師記一次數
    val subjectAddTeacher: RDD[((String, String), Int)] = lines.map(line => {
      val teacher = line.substring(line.lastIndexOf("/") + 1)
      val url = new URL(line).getHost
      val subject = url.substring(0, url.indexOf("."))
      ((subject, teacher), 1)
    })

    //聚合
    val reduced: RDD[((String, String), Int)] = subjectAddTeacher.reduceByKey(_+_)
    println(reduced.collect().toBuffer)

    //根據學科進行 分組
    val grouped: RDD[(String, Iterable[((String, String), Int)])] = reduced.groupBy(_._1._1)

    println(grouped.collect().toBuffer)

    //排序，這裡的排序取前兩名， 取到的資料是scala集合list中進行排序的
    //先分組，在組內進行排序，這CompactBuffer是迭代器，繼承了序列，然後將迭代器轉換成list進行排序
    //在某種極端的情況，_表示迭代分割槽的資料，這裡是將迭代器的資料一次性的拉去過來後進行toList,如果資料量非常的大，這裡肯定會出現OOM（記憶體溢位）
    val sorted: RDD[(String, List[((String, String), Int)])] = grouped.mapValues(_.toList.sortBy( - _._2).take(2))

    //println(sorted.collect().toBuffer)

    val result = sorted.collect()
    result.foreach(println)

    //釋放資源
    sc.stop()
  }
}

                將資料過濾，同一個key在一個RDD，在RDD中進行排序就不會記憶體溢位（如果排不下的話就會到磁碟，所以不會溢位）

package day03


/**
  * 根據學科取得最受歡迎的老師前2名（過濾後排序）
  *   ((bigdata, wangwu),10)
  *   ((javaee,laoyang),8)
  *
  *   資料：
  *     http://bigdata.edu360.cn/wangwu
  *     http://bigdata.edu360.cn/wangwu
  *     http://javaee.edu360.cn/zhaoliu
  *     http://javaee.edu360.cn/zhaoliu
  *     ......
  */
import java.net.URL

import org.apache.log4j.{Level, Logger}
import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object FavTeacherWithObject2 {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
    val conf = new SparkConf()
    conf.setAppName("FavTeacherWithObject2").setMaster("local")
    val subjects = Array("bigdata", "javaee", "php")
    val sc = new SparkContext(conf)
    val lines = sc.textFile("D:\\data\\in\\teacher\\teacher.log")
    //整理資料
    val sbjectTeacherAndOne: RDD[((String, String), Int)] = lines.map(line => {
      val index = line.lastIndexOf("/")
      val teacher = line.substring(index + 1)
      val httpHost = line.substring(0, index)
      val subject = new URL(httpHost).getHost.split("[.]")(0)
      ((subject, teacher), 1)
    })

    //和一組合在一起(不好，呼叫了兩次map方法)
    //val map: RDD[((String, String), Int)] = sbjectAndteacher.map((_, 1))

    //聚合，將學科和老師聯合當做key
    val reduced: RDD[((String, String), Int)] = sbjectTeacherAndOne.reduceByKey(_+_)

    //cache到記憶體
    //val cached = reduced.cache()

    //scala的集合排序是在記憶體中進行的，但是記憶體有可能不夠用
    //可以呼叫RDD的sortby方法，記憶體+磁碟進行排序

    for (sb <- subjects) {
      //該RDD中對應的資料僅有一個學科的資料（因為過濾過了）
      val filtered: RDD[((String, String), Int)] = reduced.filter(_._1._1 == sb)

      //現在呼叫的是RDD的sortBy方法，(take是一個action，會觸發任務提交)
      val favTeacher = filtered.sortBy(_._2, false).take(2)

      //列印
      println(favTeacher.toBuffer)
    }

    sc.stop()


  }
}

                       key資料量太大的時候就會使得key在一個分割槽中，從而造成排序混亂，所以自定義分割槽

package day03

/**
  * 根據學科取得最受歡迎的老師前2名（自定義分割槽）
  *   ((bigdata, wangwu),10)
  *   ((javaee,laoyang),8)
  *
  *   資料：
  *     http://bigdata.edu360.cn/wangwu
  *     http://bigdata.edu360.cn/wangwu
  *     http://javaee.edu360.cn/zhaoliu
  *     http://javaee.edu360.cn/zhaoliu
  *     ......
  * Created by zhangjingcun on 2018/9/19 8:36.
  * */
import java.net.URL

import org.apache.log4j.{Level, Logger}
import org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

import scala.collection.mutable
object FavTeacherWithObject03 {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
    val topN = args(0).toInt
    val conf = new SparkConf()
    conf.setAppName("FavTeacher").setMaster("local[2]") //local[*]表示用多個執行緒跑，2表示用兩個執行緒
    val sc = new SparkContext(conf)

    //讀取資料
    val lines: RDD[String] = sc.textFile("D:\\data\\in\\teacher\\teacher.log")

    //整理資料，每個老師記一次數
    val subjectAddTeacher: RDD[((String, String), Int)] = lines.map(line => {
      val teacher = line.substring(line.lastIndexOf("/") + 1)
      val url = new URL(line).getHost
      val subject = url.substring(0, url.indexOf("."))
      ((subject, teacher), 1)
    })

    //聚合，將學科和老師聯合當做key
    val reduced: RDD[((String, String), Int)] = subjectAddTeacher.reduceByKey(_+_)

    //計算有多少學科
    val subjects: Array[String] = reduced.map(_._1._1).distinct().collect()

    //自定義一個分割槽器，並且按照指定的分割槽器進行分割槽
    val sbPatitioner = new SubjectParitioner(subjects);

    //partitionBy按照指定的分割槽規則進行分割槽
    //呼叫partitionBy時RDD的Key是(String, String)
    val partitioned: RDD[((String, String), Int)] = reduced.partitionBy(sbPatitioner)

    //如果一次拿出一個分割槽(可以操作一個分割槽中的資料了)
    val sorted: RDD[((String, String), Int)] = partitioned.mapPartitions(it => {
      //將迭代器轉換成list，然後排序，在轉換成迭代器返回
      it.toList.sortBy(_._2).reverse.take(topN).iterator
    })

    //
    val r: Array[((String, String), Int)] = sorted.collect()

    println(r.toBuffer)


    sc.stop()


  }
}

//自定義分割槽器
class SubjectParitioner(sbs: Array[String]) extends Partitioner {

  //相當於主構造器（new的時候回執行一次）
  //用於存放規則的一個map
  val rules = new mutable.HashMap[String, Int]()
  var i = 0
  for(sb <- sbs) {
    //rules(sb) = i
    rules.put(sb, i)
    i += 1
  }

  //返回分割槽的數量（下一個RDD有多少分割槽）
  override def numPartitions: Int = sbs.length

  //根據傳入的key計算分割槽標號
  //key是一個元組（String， String）
  override def getPartition(key: Any): Int = {
    //獲取學科名稱
    val subject = key.asInstanceOf[(String, String)]._1
    //根據規則計算分割槽編號,相當於執行apply方法
    rules(subject)
  }
}

                在上面的程式碼中有兩個shuffer過程reduceByKey和partitionBy，但是可以合成一個shuffer

package day03

/**
  * 根據學科取得最受歡迎的老師前2名（自定義分割槽）
  *   ((bigdata, wangwu),10)
  *   ((javaee,laoyang),8)
  *
  *   資料：
  *     http://bigdata.edu360.cn/wangwu
  *     http://bigdata.edu360.cn/wangwu
  *     http://javaee.edu360.cn/zhaoliu
  *     http://javaee.edu360.cn/zhaoliu
  *     ......
  * Created by zhangjingcun on 2018/9/19 8:36.
  * */
import java.net.URL

import org.apache.log4j.{Level, Logger}
import org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}
import org.apache.spark.rdd.RDD

import scala.collection.mutable
object FavTeacherWithObject04 {
  def main(args: Array[String]): Unit = {
    Logger.getLogger("org.apache.spark").setLevel(Level.OFF)
    val topN = args(0).toInt
    val conf = new SparkConf()
    conf.setAppName("FavTeacher").setMaster("local[2]") //local[*]表示用多個執行緒跑，2表示用兩個執行緒
    val sc = new SparkContext(conf)

    //讀取資料
    val lines: RDD[String] = sc.textFile("D:\\data\\in\\teacher\\teacher.log")

    //整理資料，每個老師記一次數
    val subjectAddTeacher: RDD[((String, String), Int)] = lines.map(line => {
      val teacher = line.substring(line.lastIndexOf("/") + 1)
      val url = new URL(line).getHost
      val subject = url.substring(0, url.indexOf("."))
      ((subject, teacher), 1)
    })


    //計算有多少學科
    val subjects: Array[String] = subjectAddTeacher.map(_._1._1).distinct().collect()

    //自定義一個分割槽器，並且按照指定的分割槽器進行分割槽
    val sbPatitioner = new SubjectParitioner2(subjects);

    //聚合，將學科和老師聯合當做key，**這時候兩個合併成一個shuffer**
    val reduced: RDD[((String, String), Int)] = subjectAddTeacher.reduceByKey(sbPatitioner,_+_)
    //partitionBy按照指定的分割槽規則進行分割槽
    //呼叫partitionBy時RDD的Key是(String, String)
    val partitioned: RDD[((String, String), Int)] = reduced.partitionBy(sbPatitioner)

    //如果一次拿出一個分割槽(可以操作一個分割槽中的資料了)
    val sorted: RDD[((String, String), Int)] = partitioned.mapPartitions(it => {
      //將迭代器轉換成list，然後排序，在轉換成迭代器返回
      it.toList.sortBy(_._2).reverse.take(topN).iterator
    })

    //
    val r: Array[((String, String), Int)] = sorted.collect()

    println(r.toBuffer)


    sc.stop()


  }
}

//自定義分割槽器
class SubjectParitioner2(sbs: Array[String]) extends Partitioner {

  //相當於主構造器（new的時候回執行一次）
  //用於存放規則的一個map
  val rules = new mutable.HashMap[String, Int]()
  var i = 0
  for(sb <- sbs) {
    //rules(sb) = i
    rules.put(sb, i)
    i += 1
  }

  //返回分割槽的數量（下一個RDD有多少分割槽）
  override def numPartitions: Int = sbs.length

  //根據傳入的key計算分割槽標號
  //key是一個元組（String， String）
  override def getPartition(key: Any): Int = {
    //獲取學科名稱
    val subject = key.asInstanceOf[(String, String)]._1
    //根據規則計算分割槽編號,相當於執行apply方法
    rules(subject)
  }
}

Spark資料過濾、自定義分割槽、Shuffer調優經典案例（詳解）

案例：根據學科取得最受歡迎的老師的前兩名這個是資料 http://bigdata.edu360.cn/zhangsan http://bigdata.edu360.cn/zhangsan http://bigdata.edu360.cn/lisi http:

mapreduce自定義分組、自定義分割槽、二次排序

mapreduce中二次排序的思想中，我們常常需要對資料的分割槽分組進行自定義，以下就介紹一下自定義分割槽分組的簡單實現 1、自定義分割槽： public class demoPartitioner<K, V> extends Partitioner<

資料探勘十大經典演算法（詳解）

資料探勘十大經典演算法一、 C4.5 C4.5演算法是機器學習演算法中的一種分類決策樹演算法,其核心演算法是ID3 演算法. C4.5演算法繼承了ID3演算

大資料（二十二）：hive分桶及抽樣查詢、自定義函式、壓縮與儲存

一、分桶及抽樣查詢 1.分桶表資料儲存分割槽針對的是資料儲存路徑（HDFS中表現出來的便是資料夾），分桶針對的是資料檔案。分割槽提供一個隔離資料和優化查詢的便利方式。不過，並非所有的資料集都可形成合理的分割槽，特別是當資料要

.NET/ASP.NETMVC 深入剖析 Model元資料、HtmlHelper、自定義模板、模板的裝飾者模式（一）

閱讀目錄： 1.開篇介紹 2.Model與View的使用關係（資料上下文DataContext與View呈現） 3.Metadata元資料驅動設計（如何使用中間層元資料來驅動最終的行為） 4.ASP.NETMVC ModelMetadata（ModelMetadata元資料如何支撐Model與Vi

.NET/ASP.NETMVC 深入剖析 Model元資料、HtmlHelper、自定義模板、模板的裝飾者模式（二）

閱讀目錄： 4.ModelMetadata（ModelMetadata元資料如何支撐Model與View之間的組合關係） 4.1.ModelMetadata元資料結構（元資料與資料實體的結構關係） 4.2.View與Model的基本關係及使用方式（View的呈現基礎） 5.通過對Vie

.NET/ASP.NETMVC 深入剖析 Model元資料、HtmlHelper、自定義模板、模板的裝飾者模式（三）

閱讀目錄： 7.HtmlHelper、HtmlHelper<T>中的ViewModel的型別推斷 8.控制ViewModel中的某個屬性的呈現（使用PartialView部分檢視細粒度控制ViewModel的呈現） 9.模板的裝飾者模式（PartialView與ViewModel的巢狀使用（

JSP第四篇【EL表示式介紹、獲取各類資料、11個內建物件、執行運算、回顯資料、自定義函式、fn方法庫】

什麼是EL表示式？表示式語言（Expression Language，EL）,EL表示式是用”${}”括起來的指令碼，用來更方便的讀取物件！ EL表示式主要用來讀取資料，進行內容的顯示！

《深入理解Spark》之通過自定義分割槽器解決資料傾斜問題

package com.lyzx.day37 import org.apache.spark.{Partitioner, SparkConf, SparkContext} class D1 { //partitionBy和自定義分割槽器解決資料傾斜的問題 def

10.異常處理、自定義異常、斷言

類型出現 color spa 同時就是 put exception valid 什麽是異常：當程序遭遇某些非正常問題的時候就會拋出異常：比如int()只能處理能轉化成int的對象，如果傳入一個不能轉化的對象就會報錯並拋出異常常用的異常有： ValueError ：

C# 繪制PDF圖形——基本圖形、自定義圖形、色彩透明度

mat alternate ffi 方法 ref lin 設置 ice pre 引言在PDF中我們可以通過C#程序代碼來添加非常豐富的元素來呈現我們想要表達的內容，如繪制表格、文字，添加圖形、圖像等等。在本篇文章中，我將介紹如何在PDF中繪制圖形，並設置圖形屬性的操作。

約束、自定義異常、加密、日誌處理

update () return 知識點排查 file salt mat ror 一、約束　　BaseMessage類用於約束，約束其派生類：保證派生類中必須編寫方法，不然執行就可能報錯。 class BaseMessage(object): def send

css基礎及其例項：常用選擇器、顏色五中寫法、字型樣式、自定義字型、盒模型及其樣式設定

<html lang="en"><head> <meta charset="UTF-8"> <title>css樣式</title> <style>

springBoot AOP環繞增強、自定義註解、log4j2、MDC

（一）log4j2 maven配置 <dependency> <groupId>org.springframework.boot</groupId> <artifactId>spring-boot-sta

android憤怒小鳥遊戲、自定義View、掌上餐廳App、OpenGL自定義氣泡、抖音電影濾鏡效果等原始碼

Android精選原始碼精練的範圍選擇器，範圍和單位可以自定義自定義View做的小鳥遊戲 android popwindow選擇商品規格顏色尺寸效果原始碼實現Android帶有鋸齒背景的優惠樣式原始碼 android充值頁面效果原始碼使用

Element Table常用設定：排序、自定義序列、列表彙總、設定斑馬線

python 分詞、自定義詞表、停用詞、詞頻統計與權值（tfidf）、詞性標註與部分詞性刪除

# -*- coding: utf-8 -*- """ Created on Tue Apr 17 15:11:44 2018 @author: NAU """ ##############分詞、自定義詞表、停用詞################ import jieba

6、自定義filter 、directive、Angular元件技術

1、filter 過濾器 – 輸出資料之前處理一下 – 自定義過濾器 app.filter('名字',function(){ // filter 的程式碼 }) e.g <!DOCTYPE html> <html>

Python基礎筆記_Day09_Python模組、自定義模組、包、時間模組

Day09_Python模組、自定義模組、包、時間模組 09.01_Python語言基礎(模組概述)(掌握) 09.02_Python語言基礎(匯入模組--import)(掌握) 09.03_Python語言基礎(模組重新命名import...as)(掌握) 09.04_Python語言

AngularJS-demo - 常用命令、內建服務、自定義服務、繼承

AngularJS-demo - 常用命令、內建服務、自定義服務、繼承常用命令: ng-app、ng-controller、ng-init、ng-repeat、ng-click 內建服務: $scope、$http 自定義服務: myService 繼承: myControll

Spark資料過濾、自定義分割槽、Shuffer調優 經典案例（詳解）

相關推薦

Spark資料過濾、自定義分割槽、Shuffer調優經典案例（詳解）