SparkCore（13）：TopN演算法

阿新 • • 發佈：2018-12-17

1.實現功能

針對資料，進行排序選取TopN的資料。

2.資料

aa 78
bb 98
aa 80
cc 98
aa 69
cc 87
bb 97
cc 86
aa 97
bb 78
bb 34
cc 85
bb 92
cc 72
bb 32
bb 23

3.程式碼

package _0722rdd
import SparkUtil.SparkUtil
import org.apache.spark.rdd.RDD
/**
  * Created by Administrator on 2018/7/22.
  */
object GroupSortTopN {
  def main(args: Array[String]): Unit = {
    val sc = SparkUtil.createSparkContext(true,"GroupSortTopN")

//    linux上：val inputPathfile:///opt/datas/groupsort.txt
    val inputPath="datas/groupsort.txt"
    val rdd=sc.textFile(inputPath,1)

    val N=3

    //方法一
    /*
    (aa,List(78, 80, 97))
    (bb,List(92, 97, 98))
    (cc,List(86, 87, 98))
     */
    val resultRdd1: RDD[(String, List[Int])] =rdd.map(_.split(" "))
      .filter(arr=>{
        arr.length==2
      })
      .map(t=>(t(0),t(1).toInt))
      .groupByKey()
      .map({
        case(key,itr)=>{
          //應該是asc
          (key,itr.toList.sorted.takeRight(N))
          //下面的是降序排序***
//          (key,itr.toList.sortWith((a,b)=>a>b).takeRight(N))
        }
      })
    resultRdd1.foreach(println)


       //方法二
      /*
          (aa,78)
          (bb, 98)
          (cc,98)
       */
        val resultRdd2=rdd.map(_.split(" "))
          .filter(arr=>{
            arr.length==2
          })
          .map(t=>(t(0),t(1).toInt))
          .groupByKey()
          .flatMap({
            case(key,itr)=>{
              //應該是asc
              val ite=itr.toList.sorted.takeRight(3)
              ite.map(it=>(key,it))
            }
          })
        resultRdd2.foreach(println)


  }
}

（1）按照降序排序的方法

 (key,itr.toList.sortWith((a,b)=>a>b).takeRight(N))

（2）方法一和方法二的區別是返回值是集合還是單個元組

SparkCore（13）：TopN演算法

1.實現功能針對資料，進行排序選取TopN的資料。 2.資料 aa 78 bb 98 aa 80 cc 98 aa 69 cc 87 bb 97 cc 86 aa 97 bb 78 bb 34 cc 85 bb 92 cc 72 bb 32 bb 23 3

SparkCore（4）：Spark-shell的topN的3種實現

一、實現功能獲取Top10 word單詞二、實現方法 1.方法1.sortBy val textFile = sc.textFile("file:///opt/modules/spark-2.1.0-bin-2.7.3/README.md") val wordRD

演算法細節系列（13）：買賣股票

買賣股票詳細程式碼可以fork下Github上leetcode專案，不定期更新。該系列的題目意思很簡單，但要在規定的時間複雜度內完成演算法頗有難度。它有趣的地方在於它的解決思路。如果上一篇文章是為了破除想當然，那麼這篇文章一定可以用異想天開來總結

springCloud（13）：使用Zuul構建微服務網關-簡介

spring cloud 簡介一、為什麽要使用微服務網關不同的微服務一般會有不同的網絡地址，而外部客戶端可能需要調用多個服務的接口才能完成一個業務需求。如：一個電影購票的手機APP，可能會調用多個微服務，才能完成一次購票的業務流程。如果讓客戶端直接與各個微服務通信，會有以下的問題： 1、客戶端會

每天一個linux命令（13）：less 命令

文件中參數使用 ech height 查看進程 str idt 目錄 less 工具也是對文件或其它輸出進行分頁顯示的工具，應該說是linux正統查看文件內容的工具，功能極其強大。less 的用法比起 more 更加的有彈性。在 more 的時候，我們並沒有辦法向前面翻

軟件架構設計學習總結（13）：大型網站技術架構（七）網站的可擴展性架構

開放擴展修改 restfu 消息發送封裝 nts 進行可擴展性擴展性是指對現有系統影響最小的情況下，系統功能可持續擴展或提升的能力。設計網站可擴展架構的核心思想是模塊化，並在此基礎上，降低模塊間的耦合性，提供模塊的復用性。模塊通過分布式部署，獨立

iptables詳解（13）：iptables動作總結之二

定義行動在外 nat配置 centos6 外部重復 image 理論概述閱讀這篇文章需要站在前文的基礎上，如果你在閱讀時遇到障礙，請參考之前的文章。前文中，我們已經了解了如下動作 ACCEPT、DROP、REJECT、LOG 今天，我們來認識幾個新動作，它們

SDP（13）： Scala.Future - far from completion，絕不能用來做甩手掌櫃

atm 軟件 listen async execute gpo eve 並且 pri 在前面幾篇關於數據庫引擎的討論裏很多的運算函數都返回了scala.Future類型的結果，因為我以為這樣就可以很方便的實現了non-blocking效果。無論任何復雜的數據處理操作，只

《Linux學習並不難》Linux常用操作命令（13）：uptime命令顯示系統已經運行的時間

Linux uptime 8.13 《Linux學習並不難》Linux常用操作命令（13）：uptime命令顯示系統已經運行的時間使用uptime命令可以顯示系統已經運行了多長時間，它依次顯示下列信息：現在時間、系統已經運行了多長時間、目前有多少登錄用戶、系統在過去的1分鐘、5分鐘和15分鐘內的平均

SpringBoot學習筆記（13）：日誌框架

配置沒有 alt clas load dep 技術 bubuko col SpringBoot學習筆記（13）：日誌框架——SL4J 快速開始說明　　SpringBoot底層選用SLF4J和LogBack日誌框架。　　 SLF4J的使用 SpringBoot的底層依

Python從菜鳥到高手（13）：分片（Slicing）

方式 ans 表示獲取元素 nsh 通過 int 值類型步長分片操作是從序列A中獲取一個子序列B。序列A可以稱為父序列。從A中獲取B，需要指定B在A中的開始索引和結束索引，因此，分片操作需要指定兩個索引。 ??由於字符串可以看做是字符的序列，所以我們可以用序列的這個分

23種設計模式（13）：叠代器模式

關系想象遍歷集合 spa 意思比較使用 string 對象方法定義：提供一種方法訪問一個容器對象中各個元素，而又不暴露該對象的內部細節。類型：行為類模式。類圖：如果要問java中使用最多的一種模式，答案不是單例模式，也不是工廠模式，更不是策略模式，而是

SparkStreaming（13）：高階資料來源kafka Direct方式（生產）

【Direct方式，直接從kafka的broker讀取資料，而Receiver方式，從zk獲得偏移量資訊，效能要差一些！】 1.測試環境（1）啟動zk bin/zkServer.sh start （2) 啟動kafka bin/kafka-server-start.sh -da

牛客網線上程式設計（13）：兩種排序方法-python

題目描述考拉有n個字串字串，任意兩個字串長度都是不同的。考拉最近學習到有兩種字串的排序方法： 1.根據字串的字典序排序。例如： "car" < "carriage" < "cats" < "doggies < "koala" 2.根據字串的長度排序。例如： "car

演算法複雜度分析（上）：分析演算法執行時，時間資源及空間資源的消耗

前言演算法複雜度是指演算法在編寫成可執行程式後，執行時所需要的資源，資源包括時間資源和記憶體資源。複雜度也叫漸進複雜度，包括時間複雜度和空間複雜度，用來粗略分析執行效率與資料規模之間的增長趨勢關係，越高階複雜度的演算法，執行效率越低。複雜度分析是資料結構與演算法的核心精髓，指在不依賴硬體、宿主環境

JAVA設計模式（13）：行為型-責任鏈模式（Responsibility）

“一對二”，“過”，“過”……這聲音熟悉嗎？你會想到什麼？對！紙牌。在類似“鬥地主”這樣的紙牌遊戲中，某人出牌給他的下家，下家看看手中的牌，如果要不起上家的牌則將出牌請求再轉發給他的下家，其下家再進行判斷。一個迴圈下來，如果其他人都要不起該牌，則最初的出牌者可以打出新的牌。在這個過程中，牌作為一個

深入理解設計模式（13）：直譯器模式

一、什麼是直譯器模式定義：給定一個語言，定義一個文法的一種表示，並定義一個直譯器，這個直譯器使用該表示來解釋語言中的句子。直譯器模式所涉及的角色如下所示：　　（1）抽象表示式(Expression)角色：宣告一個所有的具體表達式角色都需要實現的抽象介面。這個介面主要是一個i

小朋友學資料結構（13）：斐波契那查詢

《大話資料結構》第八章8.4節介紹了斐波契那查詢。斐波那契查詢的理解難點就一個：為什麼需要把陣列長度擴充到f[k]-1而不是f[k]或者f[k+1]？這是為了能正確遞迴計算mid值，看下圖可發現 f[k]-1

c++演算法模板（一）：基礎演算法模板：

1.高精演算法：加法： while(i<=a加數的位數|| i<=b加數的位數) { c[i]=a[i]+b[i]+x; x=c[i]/10; c[i]%=10; i++; } 注意：加法需要逆序儲存，因為如

JVM（四）：GC演算法

1、物件與引用為了解決“哪些記憶體需要回收”的問題，需要確定哪些物件是“有用不可回收”的，而哪些物件是“無用可回收”的。通常存在以下兩種判斷演算法。引用計數法演算法原理：給物件新增一個引用計數器，每當一個地方引用它時，計數器值就加1；每當一個引用失效時，計數器值就減1；當引用

SparkCore（13）：TopN演算法

1.實現功能

2.資料

3.程式碼

相關推薦