Spark2.x 如何實現自定義排序（利用元組，類--隱式轉換Ordering,Ordered等實現）

阿新 • • 發佈：2019-02-01

交流QQ: 824203453

需求：

對於有複雜排序條件的需求，可以利用自定義排序來實現，同時可以使用多種方案實現自定義排序需求。

對指定的資料（欄位分別為：名稱年齡顏值，資料以空格分割），按照指定的要求排序，排序要求為：根據顏值降序，如果顏值相同，再按照年齡升序排序。

示例資料：

"pp 30 85", "dd 18 100", "taoge 35 100", "laozhao 30 120", "huge 26 9999"

1.2 方案一：利用類或者樣例類來封裝資料

把資料封裝成類或者case class，然後類繼承Ordered[型別] ，然後可以自定義排序規則。

如果是class，需要實現序列化特質，Serializable,如果是case class，可以不實現該序列化特質。

這種處理方式，返回值型別是類的例項物件。

普通類：

objectSortDemo1 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setMaster("local")
      .setAppName(this.getClass.getSimpleName)
    val sc = new SparkContext(conf)

    val data: RDD[String] = sc.parallelize(List("wx 28 85 wx.zfb.com", "pp 30 85", "dd 18 100", "taoge 35 100", "laozhao 30 120", "huge 26 9999"))
    // 獲得的資料型別是Person
    val prdd: RDD[Person] = data.map(t => {
      val strings = t.split(" ")
      val name = strings(0)
      val age = strings(1).toInt
      val fv = strings(2).toInt
      new  Person(name, age, fv)
    })

    // sortBy
    val sortedrd:RDD[Person] = prdd.sortBy(t => t)
    sortedrd.foreach(println)
  }
}

class Person(val name: String, val age: Int, val fv: Int) extends Serializable withOrdered[Person] {
  override def compare(that: Person): Int = {
    //    根據顏值降序   如果顏值相同  再按照年齡的升序
    if (this.fv == that.fv) {
      this.age - that.age
    } else {
      that.fv - this.fv
    }
  }
  override def toString: String = s"$name,$age,$fv"
}

樣例類：

objectSortDemo1 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setMaster("local")
      .setAppName(this.getClass.getSimpleName)
    val sc = new SparkContext(conf)

    val data: RDD[String] = sc.parallelize(List("wx 28 85 wx.zfb.com", "pp 30 85", "dd 18 100", "taoge 35 100", "laozhao 30 120", "huge 26 9999"))
    // 獲得的資料型別是Person
    val prdd: RDD[Person] = data.map(t => {
      val strings = t.split(" ")
      val name = strings(0)
      val age = strings(1).toInt
      val fv = strings(2).toInt
      Person(name, age, fv)
    })
    // sortBy
    val sortedrd:RDD[Person] = prdd.sortBy(t => t)
    sortedrd.foreach(println)
  }
}

case class Person(val name: String, val age: Int, val fv: Int) extends Ordered[Person] {
  override def compare(that: Person): Int = {
    //    根據顏值降序   如果顏值相同  再按照年齡的升序
    if (this.fv == that.fv) {
      this.age - that.age
    } else {
      that.fv - this.fv
    }
  }
  override def toString: String = s"$name,$age,$fv"
}

1.3 方案二：利用class或者case class指定排序規則

對原始資料不進行封裝，僅僅在排序的時候，利用class或者case class指定排序的規則。

如果使用類，需要繼承Ordered[型別]，實現序列化特質，

如果使用case class，不需實現序列化特質。

返回值的結果型別：還是原來的資料型別。和類本身無關。僅僅是利用類的規則來實現了排序。

objectSortDemo2 {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setMaster("local")
      .setAppName(this.getClass.getSimpleName)
    val sc = new SparkContext(conf)

    val data: RDD[String] = sc.parallelize(List("wx 28 85 ", "pp 30 85", "dd 18 100", "taoge 35 100", "laozhao 30 120", "huge 26 9999"))

    // 獲得的資料型別是 元組
    val prdd = data.map(t => {
      val strings = t.split(" ")
      val name = strings(0)
      val age = strings(1).toInt
      val fv = strings(2).toInt
      (name, age, fv)
    })

    // sortBy  在排序的時候 指定使用類的規則   利用已經存在的來來指定排序規則
//    val sortedrd: RDD[(String, Int, Int)] = prdd.sortBy(t => new Person2(t._1,t._2,t._3))
    val sortedrd: RDD[(String, Int, Int)] = prdd.sortBy(t => Person2(t._1,t._2,t._3))

    sortedrd.foreach(println)
  }
}
/*
class Person2(val name: String, val age: Int, val fv: Int) extends Serializable with Ordered[Person2] {

  override def compare(that: Person2): Int = {
    //    根據顏值降序   如果顏值相同  再按照年齡的升序
    if (this.fv == that.fv) {
      this.age - that.age
    } else {
      that.fv - this.fv
    }
  }
  override def toString: String = s"$name,$age,$fv"
}
*/
case class Person2(val name: String, val age: Int, val fv: Int) extends  Ordered[Person2] {
  override def compare(that: Person2): Int = {
    //    根據顏值降序   如果顏值相同  再按照年齡的升序
    if (this.fv == that.fv) {
      this.age - that.age
    } else {
      that.fv - this.fv
    }
  }
  override def toString: String = s"$name,$age,$fv"
}

1.4 方案三：利用隱式轉換

利用隱式轉換時，類可以不實現Ordered的特質，普通的類或者普通的樣例類即可。

隱式轉換支援，隱式方法，隱式函式，隱式的object和隱式的變數，

如果都同時存在，優先使用隱式的object，隱式方法和隱式函式中，會優先使用隱式函式。

隱式轉換可以寫在任意地方（當前物件中，外部的類中，外部的物件中），如果寫在外部，需要匯入到當前的物件中即可。

objectSortDemo3 {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setMaster("local")
      .setAppName(this.getClass.getSimpleName)
    val sc = new SparkContext(conf)

    val data: RDD[String] = sc.parallelize(List("wx 28 85 ", "pp 30 85", "dd 18 100", "taoge 35 100", "laozhao 30 120", "huge 26 9999"))

    // 獲得的資料型別是 元組
    val prdd = data.map(t => {
      val strings = t.split(" ")
      val name = strings(0)
      val age = strings(1).toInt
      val fv = strings(2).toInt
      (name, age, fv)
    })

    // 如果類沒有繼承 Ordered 特質
    // 可以利用隱式轉換  隱式方法  隱式函式  隱式值  隱式object都可以  implicit ord: Ordering[K]
    implicit def ordMethod(p: Person3): Ordered[Person3] = new Ordered[Person3] {
      override def compare(that: Person3): Int = {
        if (p.fv == that.fv) {
          -(p.age - that.age)
        } else {
          that.fv - p.fv
        }
      }
    }

    implicit val ordFunc = (p: Person3) => new Ordered[Person3] {
      override def compare(that: Person3): Int = {
        if (p.fv == that.fv) {
          -(p.age - that.age)
        } else {
          that.fv - p.fv
        }
      }
    }
    // 隱式的Object  優先順序更高
    implicit object ord extends Ordering[Person3] {
      override def compare(x: Person3, y: Person3): Int = {
        if (x.fv == y.fv) {
          x.age - y.age
        } else {
          y.fv - x.fv
        }
      }
    }

    //    隱式的變數
    /*   implicit val ord2: Ordering[Person3] = new Ordering[Person3] {
         override def compare(x: Person3, y: Person3): Int = {
           // 顏值相同  降序
           if (x.fv == y.fv) {
              - (x.age - y.age)
           } else {
             y.fv - x.fv
           }
         }
       }*/
    //  如果把隱式轉換寫在其他的object中，就使用import a._  如果是寫在其他的類中，val obj = new 類（）  import obj._
    val sortedrd: RDD[(String, Int, Int)] = prdd.sortBy(t => new Person3(t._1, t._2, t._3))

    sortedrd.foreach(println)
  }
}
class Person3(val name: String, val age: Int, val fv: Int) extends Serializable {
  override def toString: String = s"$name,$age,$fv"
}

在隱式轉換中，Ordered和Ordering都是可以相互轉換的。

1.5 方案四：利用Ordering的on方法

無需藉助任何的類或者物件

只需要利用Ordering特質的on方法即可。

object SortDemo4 {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setMaster("local")
      .setAppName(this.getClass.getSimpleName)
    val sc = new SparkContext(conf)

    val data: RDD[String] = sc.parallelize(List("wx 28 85", "pp 30 85", "dd 18 100", "taoge 35 100", "laozhao 30 120", "huge 26 9999"))

    // 獲得的資料型別是 元組
    val prdd = data.map(t => {
      val strings = t.split(" ")
      val name = strings(0)
      val age = strings(1).toInt
      val fv = strings(2).toInt
      (name, age, fv)
    })

    /** t=>(-t._3,t._2)  具體的排序的規則
      * Ordering[T].on[U](f)
      * U   (String,Int,Int)  原始的資料型別
      * T    (Int,Int)        具體的函式的返回值的型別
      */
    implicit  val obj = Ordering[(Int,Int)].on[(String,Int,Int)](t=>(-t._3,t._2))

    val sortedrd: RDD[(String, Int, Int)] = prdd.sortBy(t => t)
    sortedrd.foreach(println)
  }
}

1.6 方案五：利用元組封裝排序條件

最簡單的實現方案，直接利用元組來封裝要排序的條件，預設升序，降序使用-號即可

object SortDemo5 {

  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setMaster("local")
      .setAppName(this.getClass.getSimpleName)
    val sc = new SparkContext(conf)

    val data: RDD[String] = sc.parallelize(List("wx 28 85 ", "pp 30 85", "dd 18 100", "taoge 35 100", "laozhao 30 120", "huge 26 9999"))

    // 獲得的資料型別是 元組
    val prdd = data.map(t => {
      val strings = t.split(" ")
      val name = strings(0)
      val age = strings(1).toInt
      val fv = strings(2).toInt
      (name, age, fv)
    })

    // 利用元組直接封裝要排序的條件
    val sortedrd: RDD[(String, Int, Int)] = prdd.sortBy(t => (-t._3,-t._2))
    sortedrd.foreach(println)
  }
}

交流QQ: 824203453

Spark2.x 如何實現自定義排序（利用元組，類--隱式轉換Ordering,Ordered等實現）

交流QQ: 824203453 需求：對於有複雜排序條件的需求，可以利用自定義排序來實現，同時可以使用多種方案實現自定義排序需求。對指定的資料（欄位分別為：名稱年齡顏值，資料以空格分割），按照指定的要求排序，排序要求為：根據顏值降序，如果顏值

java實現自定義排序（實現Comparable介面）

排序的演算法，大家都不陌生，有氣泡排序、選擇排序、插入排序，快速排序等等。如果現在有學生類，學校添加了很多學生，要你給學生按照學號大小排序，你會怎麼排? 學生類 Student {int stuID; String stuName; int sc

JAVA 利用Comparator實現自定義排序

/* 有個Person類，包括姓、名、性別、年齡屬性：現在有個需求，需要對Person進行以下規則的排序 * 誰的姓拼音靠前，誰就排前面。 * 然後對名字進行排序。如果同名，女性排前頭。 * 如果名字和性別都相同，年齡小的排前頭。 * int compare(O

java中實現Comparable接口實現自定義排序

static -1 return rabl generated args logs ava sca 1 class Student implements Comparable{ 2 String name; 3 int gpa; 4 @Ov

thinkphp 5.0如何實現自定義404（異常處理）頁面

錯誤頁自定義異常異常錯誤錯誤 load php 錯誤信息 art 正常 404頁面是客戶端在瀏覽網頁時，由於服務器無法正常提供信息，或是服務器無法回應，且不知道原因所返回的頁面。404承載著用戶體驗與SEO優化的重任。404頁面通常為用戶訪問了網站上不存在或已刪除的

Hadoop完全分散式用MapReduce實現自定義排序、分割槽和分組

經過前面一段時間的學習，簡單的單詞統計已經不能實現更多的需求，就連自帶的一些函式方法等也是跟不上節奏了；加上前面一篇MapReduce的底層執行步驟的瞭解，今天學習自定義的排序、分組、分割槽相對也特別容易。認為不好理解，先參考一下前面的一篇：https://bl

spark中實現自定義排序

排序的方式可以分為6中：（1）使用一個自定義一個普通的類繼承Ordered[User] with Serializable import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext}

java實現自定義佇列（先進先出）

題目：java實現自定義佇列（先進先出）主類： import java.util.LinkedList; public class Main { public static void main(String[] args) { DuiLie dl

java的Comparable介面實現自定義排序

除了利用資料庫的sql語句排序還可以利用java的Comparable介面自定義排序。 import java.util.ArrayList; import java.util.Collections; import java.util.List; public class Emplo

實現自定義註解（程式碼篇）

第一：定義三個自定義的註解類第二：建立一個實體第三：建立一箇中間類第四：測試註解處理的基礎知識方法1：<T extends Annotation> T getAnnotation(Class<T> annotationClass

Hadoop完全分散式下實現自定義排序、分割槽和分組

經過前面一段時間的學習，簡單的單詞統計已經不能實現更多的需求，就連自帶的一些函式方法等也是跟不上節奏了；加上前面一篇MapReduce的底層執行步驟的瞭解，今天學習自定義的排序、分組、分割槽相對也特別容易。自定義排序自定義的排序有許多許多，根據不同的業務需

Elasticsearch 實現自定義排序外掛

外掛入口： package ttd.ugc.plugin; import org.elasticsearch.plugins.Plugin; import org.elasticsearch.script.ScriptModule; /** * Created by ji

List集合實現自定義排序

List自定義排序根據Collections.sort過載方法來實現，實現Comparable介面。實現Comparator ,重寫compare方法。 public class DataS

log4j2實現自定義Appender（輸出到檔案/RPC服務中）

1、背景雖然log4j很強大，可以將日誌輸出到檔案、DB、ES等。但是有時候確難免完全適合自己，此時我們就需要自定義Appender，使日誌輸出到指定的位置上。本文，將通過兩個例子說明自定義APPender，一個是將日誌寫入檔案中，另一個是將日誌傳送到遠端Thrift服

Ultra-Pull-To-Refresh超簡單實現自定義動畫（二）

前言接上一篇部落格，Ultra-Pull-To-Refresh超簡單終極實現下拉重新整理、上拉載入入門實現（一）上一篇是實現了簡單的自帶的重新整理和載入功能。但是這樣簡單的動畫往往不能滿足我們的需求，所以這一片用一個京東重新整理的例子來實現自定義，就

pyspark RDD 自定義排序（python）

問題：現有資料 data = ((‘crystal’,90,22),(‘crystal1’,100,28),(‘crystal3’,100,22)) 現在對data 進行排序排序規則：

【Java】Treeset實現自定義排序

兩個類，一個學生類，含姓名和出生日期兩個屬性；還有一個學生排序類，重寫compare函式，自定義排序規則是先比較出生日期，如果相同再比較姓名字母 package birthday; import java.util.Calendar; public class Stud

java 兩種方式實現自定義排序

package test; //Comparable 使物件本身具有可比性，這種方式稱為元素的自然順序或預設順序 //Comparator 元素自身不具備比較性或者比較性不是所需要的，在集合初始化讓其具有比較性（更實用） import java.util.*; //cl

Java陣列排序中Comparator介面實現自定義排序

1、為節點排序。節點由3個欄位組成，包括num ,weight ,height 。先按照weight升序排序，再按照height降序排序。 2、使用Comparator介面規則：編寫多個排序方式類實現Comparator介面，並重寫新Comparator介面中的compar

TypeScript 總實現自定義事件（Event）

TypeScript有更好的面向物件性，實現事件只要繼承一個類EventEmitter 定義引發事件 //引入EventEmi

Spark2.x 如何實現自定義排序（利用元組，類--隱式轉換Ordering,Ordered等實現）

相關推薦