spark中實現自定義排序

阿新 • • 發佈：2018-11-11

排序的方式可以分為6中：

（1）使用一個自定義一個普通的類繼承Ordered[User] with Serializable

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object CustomSort1 {

  //排序規則：首先按照顏值的降序，如果顏值相等，再按照年齡的升序
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("CustomerSort1").setMaster("local[2]")
    val sc = new SparkContext(conf)
    //定義一個數組型別的值
    val user = Array("laoduan 30 99", "laozhao 29 9999", "laozhang 28 98", "laoyang 28 99")
    //轉換成RDD的型別
    val lines = sc.parallelize(user)
    //將整個字串切分為元組的形式
    val sorted: RDD[User] = lines.map(x => {
      val line = x.split(" ")
      val name = line(0)
      val age = line(1).toInt
      val face = line(2).toInt
      new User(name, age, face)
    })
    //實現自定義排序需要呼叫sortBy才可以自動呼叫自定義排序
    val r = sorted.sortBy(u=>u)
    println(r.collect().toBuffer)

  }
  class User(val name:String,val age:Int,val face:Int)extends Ordered[User] with Serializable{
    override def compare(that: User): Int = {
      if (this.face == that.face){
        this.age-that.age
      }else{
       - (this.face-that.face)
      }
    }
  override def toString: String = s"name :$name,age: $age,face:$face"
  }
}

（2）和上面的差不多隻是new 的位置是不太一樣的


import org.apache.spark.{SparkConf, SparkContext}

object CustomSort2 {
  //排序規則：首先按照顏值的降序，如果顏值相等，再按照年齡的升序
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("CustomSort2").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val user = Array("laoduan 30 99", "laozhao 29 9999", "laozhang 28 98", "laoyang 28 99")
    val lines = sc.parallelize(user)
    val tpRdd=lines.map(x=>{
      val line = x.split(" ")
      val name = line(0)
      val age = line(1).toInt
      val face = line(2).toInt
     (name, age, face)
    })
    val sorted = tpRdd.sortBy(x=>new User1(x._2,x._3))
    sorted.foreach(println)
  }
  //這裡定義的引數必須新增型別,傳的引數只是自己需要比較的引數，沒有重寫toString()方法
  class User1(val age:Int,val face:Int)extends Ordered[User1] with Serializable {
    override def compare(that: User1): Int = {
      if (this.face == that.face){
        this.age-that.age
      }else{
        - (this.face-that.face)
      }
    }
  }
}

（3）使用了樣例類的方式此時可以不用實現序列化，並且輸出不能使用foreach,和並行度有關

import org.apache.spark.{SparkConf, SparkContext}

object CustomSort3 {
  //排序規則：首先按照顏值的降序，如果顏值相等，再按照年齡的升序
  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setAppName("CustomSort3").setMaster("local[2]")
    val sc = new SparkContext(conf)
    val user = Array("laoduan 30 99", "laozhao 29 9999", "laozhang 28 98", "laoyang 28 99")
    val lines = sc.parallelize(user)
    val tpRdd=lines.map(x=>{
      val line = x.split(" ")
      val name = line(0)
      val age = line(1).toInt
      val face = line(2).toInt
      (name, age, face)
    })
    val sorted = tpRdd.sortBy(x=> Man(x._2,x._3))
   // sorted.foreach(println)
   // sc.stop()
    //不能使用foreach
    println(sorted.collect().toBuffer)
  }
  //這裡定義的引數必須新增型別,傳的引數只是自己需要比較的引數，沒有重寫toString()方法
  case class Man(age:Int,face:Int)extends Ordered[Man]  {
    override def compare(that: Man): Int = {
      if (this.face == that.face){
        this.age-that.age
      }else{
        - (this.face-that.face)
      }
    }
  }

}

（4）利用隱式轉換的方式

利用隱式轉換時，類可以不實現Ordered的特質，普通的類或者普通的樣例類即可。
隱式轉換支援，隱式方法，隱式函式，隱式的object和隱式的變數，
如果都同時存在，優先使用隱式的object，隱式方法和隱式函式中，會優先使用隱式函式。
隱式轉換可以寫在任意地方（當前物件中，外部的類中，外部的物件中），如果寫在外部，需要匯入到當前的物件中即可。



import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
/**
  * 利用隱式轉換時，類可以不實現Ordered的特質，普通的類或者普通的樣例類即可。
    隱式轉換支援，隱式方法，  隱式函式，  隱式的object  和隱式的變數，
如果都同時存在，優先使用隱式的object，隱式方法和隱式函式中，會優先使用隱式函式。
隱式轉換可以寫在任意地方（當前物件中，外部的類中，外部的物件中），如果寫在外部，需要匯入到當前的物件中即可。
  */
object CustomSort4 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("CustomSort4").setMaster("local[*]")
    val sc = new SparkContext(conf)
    //排序規則:首先按照顏值的降序,如果顏值相等,再按照年齡的升序
    val users= Array("laoduan 30 99", "laozhao 29 9999", "laozhang 28 98", "laoyang 28 99")
    //將Driver端的資料並行化變成RDD
    val lines: RDD[String] = sc.parallelize(users)
    //切分整理資料
    val tpRDD: RDD[(String, Int, Int)] = lines.map(line => {
      val fields = line.split(" ")
      val name = fields(0)
      val age = fields(1).toInt
      val fv = fields(2).toInt
      (name, age, fv)
    })

    //隱式的object方式
      implicit object OrderingXiaoRou extends Ordering[XianRou]{
        override def compare(x: XianRou, y: XianRou): Int = {
          if(x.fv == y.fv) {
            x.age - y.age
          } else {
            y.fv - x.fv
          }
        }
      }
    // 如果類沒有繼承 Ordered 特質
    // 可以利用隱式轉換  隱式方法  隱式函式  隱式值  隱式object都可以  implicit ord: Ordering[K]
    implicit def ordMethod(p: XianRou): Ordered[XianRou] = new Ordered[XianRou] {
      override def compare(that: XianRou): Int = {
        if (p.fv == that.fv) {
          -(p.age - that.age)
        } else {
          that.fv - p.fv
        }
      }
    }

    //利用隱式的函式方式
    implicit val ordFunc = (p: XianRou) => new Ordered[XianRou] {
      override def compare(that: XianRou): Int = {
        if (p.fv == that.fv) {
          -(p.age - that.age)
        } else {
          that.fv - p.fv
        }
      }
    }


    //排序(傳入了一個排序規則,不會改變資料的格式,只會改變順序)
    val sorted: RDD[(String, Int, Int)] = tpRDD.sortBy(tp => XianRou(tp._2, tp._3))
    println(sorted.collect().toBuffer)
    sc.stop()
  }
}
case class XianRou(age: Int, fv: Int)

（5）利用Ordering的on方法

無需藉助任何的類或者物件

只需要利用Ordering特質的on方法即可。

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object CustomSort5 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
      .setMaster("local")
      .setAppName(this.getClass.getSimpleName)
    val sc = new SparkContext(conf)

    val users= Array("laoduan 30 99", "laozhao 29 9999", "laozhang 28 98", "laoyang 28 99")
    //將Driver端的資料並行化變成RDD
    val lines: RDD[String] = sc.parallelize(users)
    // 獲得的資料型別是 元組
    val prdd = lines.map(t => {
      val strings = t.split(" ")
      val name = strings(0)
      val age = strings(1).toInt
      val fv = strings(2).toInt
      (name, age, fv)
    })
    implicit  val obj = Ordering[(Int,Int)].on[(String,Int,Int)](t=>(-t._3,t._2))

    val sortedrd: RDD[(String, Int, Int)] = prdd.sortBy(t => t)
    sortedrd.foreach(println)
  }
}

（6）利用元組封裝排序條件

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}
object CustomSort6 {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf().setAppName("CustomSort5").setMaster("local[*]")
    val sc = new SparkContext(conf)
    //排序規則:首先按照顏值的降序,如果顏值相等,再按照年齡的升序
    val users= Array("laoduan 30 99", "laozhao 29 9999", "laozhang 28 98", "laoyang 28 99")
    //將Driver端的資料並行化變成RDD
    val lines: RDD[String] = sc.parallelize(users)
    //切分整理資料
    val tpRDD: RDD[(String, Int, Int)] = lines.map(line => {
      val fields = line.split(" ")
      val name = fields(0)
      val age = fields(1).toInt
      val fv = fields(2).toInt
      (name, age, fv)})
    //充分利用元組的比較規則,元組的比較規則:先比第一,相等再比第二個
    val sorted: RDD[(String, Int, Int)] = tpRDD.sortBy(tp => (-tp._3, tp._2))
    println(sorted.collect().toBuffer)
    sc.stop()
  }
}

每天多努力一點

spark中實現自定義排序

排序的方式可以分為6中：（1）使用一個自定義一個普通的類繼承Ordered[User] with Serializable import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext}

java中實現Comparable接口實現自定義排序

static -1 return rabl generated args logs ava sca 1 class Student implements Comparable{ 2 String name; 3 int gpa; 4 @Ov

Java陣列排序中Comparator介面實現自定義排序

1、為節點排序。節點由3個欄位組成，包括num ,weight ,height 。先按照weight升序排序，再按照height降序排序。 2、使用Comparator介面規則：編寫多個排序方式類實現Comparator介面，並重寫新Comparator介面中的compar

Hadoop完全分散式用MapReduce實現自定義排序、分割槽和分組

經過前面一段時間的學習，簡單的單詞統計已經不能實現更多的需求，就連自帶的一些函式方法等也是跟不上節奏了；加上前面一篇MapReduce的底層執行步驟的瞭解，今天學習自定義的排序、分組、分割槽相對也特別容易。認為不好理解，先參考一下前面的一篇：https://bl

java的Comparable介面實現自定義排序

除了利用資料庫的sql語句排序還可以利用java的Comparable介面自定義排序。 import java.util.ArrayList; import java.util.Collections; import java.util.List; public class Emplo

Hadoop完全分散式下實現自定義排序、分割槽和分組

經過前面一段時間的學習，簡單的單詞統計已經不能實現更多的需求，就連自帶的一些函式方法等也是跟不上節奏了；加上前面一篇MapReduce的底層執行步驟的瞭解，今天學習自定義的排序、分組、分割槽相對也特別容易。自定義排序自定義的排序有許多許多，根據不同的業務需

Elasticsearch 實現自定義排序外掛

外掛入口： package ttd.ugc.plugin; import org.elasticsearch.plugins.Plugin; import org.elasticsearch.script.ScriptModule; /** * Created by ji

安卓中實現自定義對話方塊以及自定義顯示位置

專案中有用到如下的對話方塊效果，本來是想用popwindow來實現的結果發現不能覆蓋原來的佈局，不知道是我瞭解的不夠還是本身就不行，發現彈出的對話方塊會與原來的佈局重疊後面就用對話方塊來實現了，接下來講一下如何實現自定義對話方塊和自定義對話方塊的彈出位置

IOS中實現自定義UICombox

們在做IOS開發的時候，有時候會限制於系統自帶的一些控制元件，而無法做到更好的使用者體驗，今天我們就來介紹一下我們自己做的UICombox控制元件，先來看一下圖：這是我們自定義的控制元件，實現了點選輸入框，彈出資料拾取器的效果首先我們先來整理一下思路，UI

android中實現自定義廣播

自定義廣播分兩個步驟：1、傳送廣播 2、接收廣播一、先看如何接收廣播：我使用的是Android Studio，File->New->Other->Broadcast Receiver，先建立一個廣播類，這個建立的類會自動幫我們繼承BroadcastReceiver類，

spark兩種自定義排序方式

一、目標物件新增隱式轉換函式的方式實現自定義排序object MySort{ //為student類新增隱式轉換函式 implicit val stuOrdering = new Orderin

List集合實現自定義排序

List自定義排序根據Collections.sort過載方法來實現，實現Comparable介面。實現Comparator ,重寫compare方法。 public class DataS

JAVA 利用Comparator實現自定義排序

/* 有個Person類，包括姓、名、性別、年齡屬性：現在有個需求，需要對Person進行以下規則的排序 * 誰的姓拼音靠前，誰就排前面。 * 然後對名字進行排序。如果同名，女性排前頭。 * 如果名字和性別都相同，年齡小的排前頭。 * int compare(O

java實現自定義排序（實現Comparable介面）

排序的演算法，大家都不陌生，有氣泡排序、選擇排序、插入排序，快速排序等等。如果現在有學生類，學校添加了很多學生，要你給學生按照學號大小排序，你會怎麼排? 學生類 Student {int stuID; String stuName; int sc

NSMutableArray中各種自定義排序方法

-(void) test2{ //宣告一個數組 NSArray *sortArray = [[NSArray alloc] initWithObjects:@"1",@"123",@"23",@"45",@"67", nil]; NSMutableString *outputBefor = [

Android RecyclerView中實現自定義GridView的方式（實現不同item）

中文網站上，有關RecyclerView的文章實在是太少了，初次接觸到RecyclerView，我便發現了它的強大之處，並且深深的愛上了它，下面我寫一點在我工作中遇到的問題，並用RecyclerView得到了解決。控制元件理解：RecyclerView，顧名思義，僅是提供

Spark2.x 如何實現自定義排序（利用元組，類--隱式轉換Ordering,Ordered等實現）

交流QQ: 824203453 需求：對於有複雜排序條件的需求，可以利用自定義排序來實現，同時可以使用多種方案實現自定義排序需求。對指定的資料（欄位分別為：名稱年齡顏值，資料以空格分割），按照指定的要求排序，排序要求為：根據顏值降序，如果顏值

Java中實現自定義的註解處理器（Annotation Processor）

在之前的《簡單實現ButterKnife的註解功能》中，使用了執行時的註解實現了通過編寫註解繫結View與xml。由於執行時註解需要在Activity初始化中進行繫結操作，呼叫了大量反射相關程式碼，在介面複雜的情況下，使用這種方法就會嚴重影響Activity初始

【Java】Treeset實現自定義排序

兩個類，一個學生類，含姓名和出生日期兩個屬性；還有一個學生排序類，重寫compare函式，自定義排序規則是先比較出生日期，如果相同再比較姓名字母 package birthday; import java.util.Calendar; public class Stud

java 兩種方式實現自定義排序

package test; //Comparable 使物件本身具有可比性，這種方式稱為元素的自然順序或預設順序 //Comparator 元素自身不具備比較性或者比較性不是所需要的，在集合初始化讓其具有比較性（更實用） import java.util.*; //cl

spark中實現自定義排序

相關推薦