hadoop常用演算法在spark中實現

阿新 • • 發佈：2019-02-03

object MRInSpark {
  /**
    * 求最大值最小值一直是Hadoop的經典案例，我們用Spark來實現一下，
    * 藉此感受一下spark中mr的思想和實現方式
    */
  def maxMin = {
    val sconf = new SparkConf().setAppName("avgTest").setMaster("local[2]")
    val sc = new SparkContext(sconf)
    val foo = sc.parallelize(List(1, 6, 4, 22))
    val max = foo.reduce((a, b) => Math.max(a, b))
    val min = foo.reduce((a, b) => Math.min(a, b))
    print(s"max=$max, min=$min")
  }

  /**
    * 平均值問題
    * 求每個key對應的平均值是常見的案例，
    * 在spark中處理類似問題常常會用到combineByKey這個函式，
    * 詳細介紹請google一下用法，下面看程式碼： *
    */
  def avg = {
    val sconf = new SparkConf().setAppName("avgTest").setMaster("local[2]")
    val sc = new SparkContext(sconf)
    val foo = sc.parallelize(List(("a", 1), ("a", 3), ("b", 2), ("b", 8)))
    val result = foo.combineByKey(
      //按照key進行分割槽內合併，v表示value，1表示當前的key出現的次數
      (v) => (v, 1),
      //acc為之前建立的元組，如果出現同一個key的value要進行累加
      (acc: (Int, Int), v) => (acc._1 + v, acc._2 + 1),
      //將不同分割槽間的的資料進行合併
      (acc1: (Int, Int), acc2: (Int, Int)) => (acc1._1 + acc2._1, acc1._2 + acc2._2)
    ).map { case (k, v) => (k, v._1 / v._2.toDouble) }
    result.collect().foreach(println)
  }
  
  def avgTwo = {
    val sconf = new SparkConf().setAppName("avgTest").setMaster("local[2]")
    val sc = new SparkContext(sconf)
    val foo = sc.parallelize(List(("a", 1), ("a", 3), ("b", 2), ("b", 8)))
    val result = foo.groupByKey().map { case (k, vs) => (k, vs.toList.sum / vs.size) }
    result.collect().foreach(println)
  }

  /**
    * Top n問題同樣也是hadoop種體現mr思想的經典案例,那麼在spark中如何方便快捷的解決呢：
    */
  def topn = {
    val sconf = new SparkConf().setAppName("avgTest").setMaster("local[2]")
    val sc = new SparkContext(sconf)
    val foo = sc.parallelize(List(("a", 1), ("a", 3), ("a", 2), ("b", 1), ("b", 4), ("a", 4), ("b", 2)))
    val groupSort = foo.groupByKey().map {
      case (k, values) =>
        //n此時取值為2
        val sortValues = values.toList.sortWith(_ > _).take(2)
        (k, sortValues)
    }
    groupSort.flatMap { case (k, vs) => vs.map(k -> _) }.foreach(println)
  }

  def main(args: Array[String]): Unit = {
    avgMine
  }

}

hadoop常用演算法在spark中實現

object MRInSpark { /** * 求最大值最小值一直是Hadoop的經典案例，我們用Spark來實現一下， * 藉此感受一下spark中mr的思想和實現方式 */ def maxMin = { val sconf =

spark中實現自定義排序

排序的方式可以分為6中：（1）使用一個自定義一個普通的類繼承Ordered[User] with Serializable import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext}

Java常用演算法原理、實現及總結

一、概念 1、內部排序與外排序內部排序：待排序記錄存放在計算機隨機儲存器中（說簡單點，就是記憶體）進行的排序過程，接下來講的十大演算法都是內部排序。外部排序：待排序記錄的數量很大，以致於記憶體不能一次容納全部記錄，所以在排序過程中需要對外存進行訪問的排序過程

hadoop常用演算法簡單例項

例項一、對以下資料進行排序，根據收入減去支出得到最後結餘從大到小排序，資料如下： SumStep執行之後結果如下： SortStep執行之後結果為上圖根據結餘從大到小排序。程式碼如下： public class InfoBean implements Writabl

圖的常用演算法的 python 實現—鄰接表表示法

#圖的鄰接連結串列表示法 graph = {'A': ['B', 'C'], 'B': ['C', 'D'], 'C': ['D'], 'D': ['C','G','H'],

談談Hadoop MapReduce和Spark MR實現

> 談談MapReduce的概念、Hadoop MapReduce和Spark基於MR的實現 ## 什麼是MapReduce？ MapReduce是一種分散式海量資料處理的程式設計模型，用於大規模資料集的並行運算。有以下幾個特點： - 分而治之，並行處理。抽象了map和reduce的計

計算機圖形常用演算法實現1 DDA,中點畫線法，bresenham演算法

打算手動實現圖形學中的絕大部分演算法。執行環境winform+c# （程式碼是通用的，如果在其他地方畫圖，只需要替換掉畫點的函式即可）我們的函式預設是按x座標順序遞增傳入的，因此在呼叫下面函式之前，需要保證p1.x<p2.x（可以減少討論數量） Point pp =

計算機圖形學常用演算法實現2 中點畫圓法

在winform下實現，如果在其他環境，思路完全一樣，只需替換畫圖的函式即可。中點畫圓法算是中點畫線法思路的一種實際應用，本質是一樣的。 1.對稱畫圖，只需要畫1/8部分的圓（我們的函式裡面取45~90度部分），其他部分對稱畫過去即可，對稱畫圖的程式碼如下： void

Hadoop/MapReduce 及 Spark KNN分類演算法實現

KNN 假如有一群已知分類的點集： //S.txt 100;c1;1.0,1.0 101;c1;1.1,1.2 102;c1;1.2,1.0 103;c1;1.6,1.5 104;c1;1.3,1.7 105;c1;2.0,2.1 106;c1;2.0,2.2 107;c

hadoop原始碼中實現權重0.75(Volum選擇中的演算法)

這個演算法簡單float preferencePercentScaler = (highAvailableVolumes.size() * balancedPreferencePercent) + (lowAvailableVolumes.size() * (

Hadoop/MapReduce 及 Spark KMeans聚類演算法實現

package kmeans; import java.io.BufferedReader; import java.io.DataInput; import java.io.DataOutput; import java.io.File; import java.io.

Spark/Scala實現推薦系統中的相似度演算法（歐幾里得距離、皮爾遜相關係數、餘弦相似度：附實現程式碼）

在推薦系統中，協同過濾演算法是應用較多的，具體又主要劃分為基於使用者和基於物品的協同過濾演算法，核心點就是基於"一個人"或"一件物品"，根據這個人或物品所具有的屬性，比如對於人就是性別、年齡、工作、收入、喜好等，找出與這個人或物品相似的人或物，當然實際處理中參考的因子會複雜的多。本篇文章不介紹相關數學概念，

spark中的scalaAPI之RDDAPI常用操作

appname 轉換成了 size pre esc atm rgs new package com.XXX import org.apache.spark.storage.StorageLevel import org.apache.spark.{SparkConf,

Spark中使用Java編程的常用方法

廣播新的 json lambda表達式 aslist rom collect spl nal 原文引自：http://blog.sina.com.cn/s/blog_628cc2b70102w9up.html 一、初始化SparkContext System.setPr

工作采坑劄記：3. Spark中es-hadoop插件異常解決

-h adp elastic sed thread ould dex flush 文檔 1. Es-Hadoop異常： org.elasticsearch.hadoop.EsHadoopException: Could not write all entries [61

Java實現資料統計的常用演算法

求和、平均值、眾數、中位數、中列數、四分位數、極差、四分位數、截斷均值、方差、絕對平均差（AAD）、中位數絕對偏差、標準差的數學方法 package cn.javacodes.utils; import java.util.Arrays; import java.util.HashMap;

[PHP]演算法-二進位制中1的個數的PHP實現

二進位制中1的個數：輸入一個整數，輸出該數二進位制表示中1的個數。其中負數用補碼錶示。思路： 1.右移位運算>> 和與運算& 2.先移位個然後再與1 &運算為1的就是1 3.這裡如果是負數就會出現死迴圈，負數右移後高位會一直補1 4.因此要實現一下無符號位移無符

Java常用的八種排序演算法與程式碼實現（三）：桶排序、計數排序、基數排序

三種線性排序演算法：桶排序、計數排序、基數排序線性排序演算法（Linear Sort）：這些排序演算法的時間複雜度是線性的O(n)，是非比較的排序演算法桶排序（Bucket Sort）　　將要排序的資料分到幾個有序的桶裡，每個桶裡的資料再單獨進行排序，桶內排完序之後，再把桶裡的

Java常用的八種排序演算法與程式碼實現（二）：歸併排序法、快速排序法

注：這裡給出的程式碼方案都是通過遞迴完成的－－－歸併排序（Merge Sort）：　　分而治之，遞迴實現　　如果需要排序一個數組，我們先把陣列從中間分成前後兩部分，然後對前後兩部分進行分別排序，再將排好序的數組合並在一起，這樣整個陣列就有序了　　歸併排序是穩定的排序演算法，時間

hadoop常用演算法在spark中實現

相關推薦