大數據算法設計模式(1) - topN spark實現

阿新 • • 發佈：2017-08-27

lin pair run remove integer fun zab map [0

topN算法，spark實現

package com.kangaroo.studio.algorithms.topn;


import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
 
import org.apache.spark.api.java.function.PairFunction;
import org.apache.spark.broadcast.Broadcast;
import scala.Tuple2;

import java.io.Serializable;
import java.util.*;


public class TopnSpark implements Serializable {

    private JavaSparkContext jsc;
    Broadcast<Integer> topNum;
    private 
 String inputPath;

    /*
    *   構造函數
    *   1. 初始化JavaSparkContext
    *   2. 初始化廣播變量topN個數, 可以被所有partition共享
    *   3. 初始化輸入路徑
    * */
    public TopnSpark(Integer Num, String path) {
        jsc = new JavaSparkContext();
        topNum = jsc.broadcast(Num);
        inputPath = path;
    }

     
/*
    *   程序入口函數
    * */
    public void run() {
        /*
        *   讀入inputPath中的數據
        * */
        JavaRDD<String> lines = jsc.textFile(inputPath, 1);

        /*
        *   將rdd規約到9個分區
        * */
        JavaRDD<String> rdd = lines.coalesce(9);

        /*
        *   將輸入轉化為kv格式
        *   key是規約的主鍵, value是排序參考的個數
        *   註: 這裏的key並不唯一, 即相同的key可能有多條記錄, 所以下面我們規約key成唯一鍵
        *   輸入:line, 輸出:kv
        * */
        JavaPairRDD<String, Integer> kv = rdd.mapToPair(new PairFunction<String, String, Integer>() {
            public Tuple2<String, Integer> call(String s) throws Exception {
                String[] tokens = s.split(",");
                return new Tuple2<String, Integer>(tokens[0], Integer.parseInt(tokens[1]));
            }
        });

        /*
        *   規約主鍵成為唯一鍵
        *   輸入:kv, 輸出:kv
        * */
        JavaPairRDD<String, Integer> uniqueKeys = kv.reduceByKey(new Function2<Integer, Integer, Integer>() {
            public Integer call(Integer i1, Integer i2) throws Exception {
                return i1 + i2;
            }
        });

        /*
        *   計算各個分區的topN
        *   這裏通過廣播變量拿到了topN具體個數, 每個分區都保留topN, 所有分區總個數: partitionNum * topN
        *   輸入:kv, 輸出:SortMap, 長度topN
        * */
        JavaRDD<SortedMap<Integer, String>> partitions = uniqueKeys.mapPartitions(new FlatMapFunction<Iterator<Tuple2<String,Integer>>, SortedMap<Integer, String>>() {
            public Iterable<SortedMap<Integer, String>> call(Iterator<Tuple2<String, Integer>> iter) throws Exception {
                final int N = topNum.getValue();
                SortedMap<Integer, String> topN = new TreeMap<Integer, String>();
                while (iter.hasNext()) {
                    Tuple2<String, Integer> tuple = iter.next();
                    topN.put(tuple._2, tuple._1);

                    if (topN.size() > N) {
                        topN.remove(topN.firstKey());
                    }
                }
                return Collections.singletonList(topN);
            }
        });

        /*
        *   規約所有分區的topN SortMap, 得到最終的SortMap, 長度topN
        *   reduce過後, 數據已經到了本地緩存, 這是最後結果
        *   輸入: SortMap, 長度topN, 當然有partitionNum個, 輸出:SortMap, 長度topN
        * */
        SortedMap<Integer, String> finalTopN = partitions.reduce(new Function2<SortedMap<Integer, String>, SortedMap<Integer, String>, SortedMap<Integer, String>>() {
            public SortedMap<Integer, String> call(SortedMap<Integer, String> m1, SortedMap<Integer, String> m2) throws Exception {
                final int N = topNum.getValue();
                SortedMap<Integer, String> topN = new TreeMap<Integer, String>();
                for (Map.Entry<Integer, String> entry : m1.entrySet()) {
                    topN.put(entry.getKey(), entry.getValue());
                    if (topN.size() > N) {
                        topN.remove(topN.firstKey());
                    }
                }
                for (Map.Entry<Integer, String> entry : m2.entrySet()) {
                    topN.put(entry.getKey(), entry.getValue());
                    if (topN.size() > N) {
                        topN.remove(topN.firstKey());
                    }
                }
                return topN;
            }
        });

        /*
        *   將本地緩存的最終結果打印出來
        * */
        for (Map.Entry<Integer, String> entry : finalTopN.entrySet()) {
            System.out.println(entry.getKey() + " -- " + entry.getValue());
        }
    }


    public static void main(String[] args) {
        String inputPath = args[0];
        TopnSpark topnMapper = new TopnSpark(10, inputPath);
        topnMapper.run();

    }
}

lin pair run remove integer fun zab map [0 topN算法，spark實現 package com.kangaroo.studio.algorithms.topn; import org.apache.spark.api.jav

大數據算法：kNN算法

最簡 ima 圖片整數結果結構 filter 最小 and \一、kNN算法概述　　kNN是k-Nearest Neighbour的縮寫，這是一種非常簡單且易於理解的分類算法。回想我們從小到大在認知事物的過程當中，我們是如何判斷一種事物是屬於哪種類別的?通常的一種

【字符串處理算法】字符串包含的算法設計及C代碼實現【轉】

《C算法．第1卷，基礎、數據結構、排序和搜索（第三版）》pdf

line tom 排序歸並簡介 systems sys 計算 ans 下載地址：網盤下載內容簡介 · · · · · · 《C算法》介紹了當今最重要的算法，共分3卷，《C算法(第1卷):基礎、數據結構、排序和摸索》是第1卷。第1卷分4部

Majority Element ，算法設計大作業1.py

you time some one size ssi none origin ans Majority Element Find majority element; Input:An array A[1 to n] of elements; Output:The maj

算法設計與分析課程復習筆記(1)

n) 期望 AI closed pla UC 我們限定筆記一、計算模型 1.1 定義：我們在思考和處理算法的時候是機器無關、實現語言無關的。所有的算法運行在一種“抽象的機器”之上，這就是計算模型。　 1.2 種類圖靈機是最有名的計算模型，本課使用更簡單更合適的RA

數據結構20：KMP算法(快速模式匹配算法)詳解

sni 實現 inf 基礎二次是否升級有用簡化通過上一節的介紹，學習了串的普通模式匹配算法，大體思路是：模式串從主串的第一個字符開始匹配，每匹配失敗，主串中記錄匹配進度的指針 i 都要進行 i-j+1 的回退操作（這個過程稱為“指針回溯”

大數據學習——MapReduce配置及java代碼實現wordcount算法

鍵值 example nds clas spl key lru 這樣的 java_home ---恢復內容開始--- 配置MapReduce需要在之前配置的基礎上配置兩個xml文件一個是yarn-site.xml一個是mapred-site.xml，在之前配置的hadoop

數據結構筆記（7）算法設計思想

目標算法元素 code 前綴規模一次劃分 n) 貪婪算法調度問題（略）哈夫曼編碼問題（Huffman）前綴碼，歧義（待補）算法：假設字符的個數為C 一顆樹的權等於其樹葉的頻率的和，任意選取最小權的兩棵樹T1和T2，並任意形成以T1和T2為子樹的新樹

數據結構與算法分析-第1章

sca inter tom sqlit absolute solid containe contain tap .title { text-align: center; margin-bottom: .2em } .subtitle { text-align: center

STL算法設計理念 - 函數適配器

二元謂詞 value sdn 使用後者取反器一個轉換技術分享 1）函數適配器的理論知識 2）經常使用函數函數適配器標準庫提供一組函數適配器，用來特殊化或者擴展一元和二元函數對象。經常使用適配器是： 1、綁定器（binder）: binder

STL算法設計理念 - 函數對象和函數對象當參數和返回值

實現 dsm last 返回值 class 算法 stream data 結果函數對象：重載函數調用操作符的類。其對象常稱為函數對象（function object），即它們是行為類似函數的對象。一個類對象，表現出一個函數的特征，就是通過“對象名+(參數列表)”的

算法設計與分析

如何頻率 -a 劃算序列做出開始構造 ras 開始跟著雲課堂學習《算法設計與分析》入門篇和進階篇，開始系統的學習一下 P問題，非P類問題，NP問題，NPC問題 P問題：如果一個問題可以找到一個能在多項式的時間（n在底數上面）裏解決的算法

【算法設計與分析基礎】11、廣度優先遍歷

append path str src http adt ise uil tor package cn.xf.algorithm.ch03; import java.util.ArrayDeque; import java.util.Iterator; import j

【算法設計與分析基礎】12、插入排序

排序 org vision out sys pac data image 技術 package cn.xf.algorithm.ch04; import org.junit.Test; /** * * * . * @author xiaof * @ver

49. 搜狗面試題：大數相乘算法

std margin -a pac string out none content ack 分析：大數能大到整形類型存儲不了。須要借助於其它的算法，來完畢乘法運算。能夠使用口算乘法的步驟來模擬乘法操作。例如以下：

【算法設計與分析基礎】14、快速排序

元素 right get class ima div true cnblogs param package cn.xf.algorithm.ch04; import java.util.ArrayList; import java.util.Arrays; import

算法設計與分析入門學習練習之二

oid cnblogs 練習 find end 算法設計 for bsp 一行 //計算1/1!-1/3!+1/5!-1/7!+…+(-1)^(n+1)/(2n-1)! float mathTest(int n){ int sign = 1; float

順序表算法設計筆記

blog tdi 將不個數新的滿足刪除 16px 時間復雜度 1、已知長度為 n 的線性表 A 采用順序存儲結構。設計一個時間復雜度為O(n)、空間復雜度為O(1)的算法，該算法刪除線性表中所有值為 x 的元素數據元素。以下兩種方法都不滿足要求：如果刪除一個值

【算法設計與分析基礎】15、最近對問題

filename com 算法設計 2個 junit 開始替換 lis 之間 1、由於Java中沒有存放單個鍵值對的類型使用起來不是很方便 package cn.xf.util; /** * * 功能：相當於一個key value * @author xi

大數據算法設計模式(1) - topN spark實現

相關推薦