MapReduce程序之TopN問題（排行榜問題）

阿新 • • 發佈：2018-03-09

大數據 Hadoop MapReduce Java

[toc]

MapReduce程序之TopN問題（排行榜問題）

需求

有下面的文本文件：

yeyonghao@yeyonghaodeMacBook-Pro:~/data/input/topn$ cat senventeen_a.txt
1,9819,100,121
2,8918,2000,111
3,2813,1234,22
4,9100,10,1101
5,3210,490,111
6,1298,28,1211
7,1010,281,90
8,1818,9000,20
yeyonghao@yeyonghaodeMacBook-Pro:~/data/input/topn$ cat senventeen_b.txt
100,3333,10,100
101,9321,1000,293
102,3881,701,20
103,6791,910,30
104,8888,11,39

以逗號作為分隔符，每一列分別為orderid,userid,payment,productid，現在需要按照payment從大到小求出TopN，比如top10，其輸出結果應該如下：

此外，TopN中的N應該是動態的，由輸入的參數來決定，根據引寫一個MapReduce程序來進行處理。

程序思路分析

如下：

Mapper：
/**
 * Mapper，因為Block中的每一個split都會交由一個Mapper Task來進行處理，對於TopN問題，可以考慮每一個Mapper Task的輸出
 * 可以為這個split中的前N個值，最後每個數據到達Reducer的時候，就可以大大減少原來需要比較的數據量，因為在Reducer處理之前
 * Map Task已經幫我們把的數據量大大減少了，比如，在MapReduce中，默認情況下一個Block就為一個split，當然這個是可以設置的
 * 而一個Block為128M，顯然128M能夠存儲的文本文件也是相當多的，假設現在我的數據有10個Block，即1280MB的數據，如果要求Top10
 * 的問題，此時，這些數據需要10個Mapper Task來進行處理，那麽在每個Mapper Task中先求出前10個數，最後這10個數再交由Reducer來進行處理
 * 也就是說，在我們的這個案例中，Reducer需要處理排序的數有100個，顯然經過Map處理之後，Reducer的壓力就大大減少了。
 * 那麽如何實現每個Mapper Task中都只輸出10個數呢？這時可以使用一個set來緩存數據，從而達到先緩存10個數的目的，詳細可以參考下面的代碼。
 */

 Reducer：
 /**
 * Reducer，將Mapper Task輸出的數據排序後再輸出
 * 處理思路與Mapper是類似的
 */

 TopN中的N值問題：
// 向conf中傳入參數
// 在MapReduce中，因為計算是分散到每個節點上進行的
// 也就是將我們的Maper和Reducer也是分散到每個節點進行的
// 所以不能在TopNJob中設置一個全局變量來對N進行設置（雖然在本地運行時是沒有問題的，但在集群運行時會有問題）
// 因此MapReduce提供了在Configuration對象中設置參數的方法
// 通過在Configuration對象中設置某些參數，可以保證每個節點的Mapper和Reducer都能夠讀取到N

MapReduce程序

關於如何處理TopN問題的思路已經在代碼註釋中有說明，不過需要註意的是，這裏使用了前面開發的Job工具類來開發驅動程序。

package com.uplooking.bigdata.mr.topn;

import com.uplooking.bigdata.common.utils.MapReduceJobUtil;
import com.uplooking.bigdata.mr.secondsort.AccessLogWritable;
import com.uplooking.bigdata.mr.secondsort.SecondSortJob;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import java.io.IOException;
import java.util.Comparator;
import java.util.TreeSet;

/**
 * MapReduce程序之TopN問題
 */
public class TopNJob {

    /**
     * 驅動程序，使用Job工具類來生成job
     */
    public static void main(String[] args) throws Exception {
        if (args == null || args.length < 3) {
            System.err.println("Parameter Errors! Usages:<inputpath> <outputpath> <topN>");
            System.exit(-1);
        }

        // 向conf中傳入參數
        // 在MapReduce中，因為計算是分散到每個節點上進行的
        // 也就是將我們的Maper和Reducer也是分散到每個節點進行的
        // 所以不能在TopNJob中設置一個全局變量來對N進行設置（雖然在本地運行時是沒有問題的，但在集群運行時會有問題）
        // 因此MapReduce提供了在Configuration對象中設置參數的方法
        // 通過在Configuration對象中設置某些參數，可以保證每個節點的Mapper和Reducer都能夠讀取到N
        Configuration conf = new Configuration();
        conf.set("topN", args[2]);

        Job job = MapReduceJobUtil.buildJob(conf,
                TopNJob.class,
                args[0],
                TextInputFormat.class,
                TopNJobMapper.class,
                IntWritable.class,
                NullWritable.class,
                new Path(args[1]),
                TextOutputFormat.class,
                TopNReducer.class,
                IntWritable.class,
                IntWritable.class);

        // ReduceTask必須設置為1
        job.setNumReduceTasks(1);
        job.waitForCompletion(true);
    }

    /**
     * Mapper，因為Block中的每一個split都會交由一個Mapper Task來進行處理，對於TopN問題，可以考慮每一個Mapper Task的輸出
     * 可以為這個split中的前N個值，最後每個數據到達Reducer的時候，就可以大大減少原來需要比較的數據量，因為在Reducer處理之前
     * Map Task已經幫我們把的數據量大大減少了，比如，在MapReduce中，默認情況下一個Block就為一個split，當然這個是可以設置的
     * 而一個Block為128M，顯然128M能夠存儲的文本文件也是相當多的，假設現在我的數據有10個Block，即1280MB的數據，如果要求Top10
     * 的問題，此時，這些數據需要10個Mapper Task來進行處理，那麽在每個Mapper Task中先求出前10個數，最後這10個數再交由Reducer來進行處理
     * 也就是說，在我們的這個案例中，Reducer需要處理排序的數有100個，顯然經過Map處理之後，Reducer的壓力就大大減少了。
     * 那麽如何實現每個Mapper Task中都只輸出10個數呢？這時可以使用一個set來緩存數據，從而達到先緩存10個數的目的，詳細可以參考下面的代碼。
     */
    public static class TopNJobMapper extends Mapper<LongWritable, Text, IntWritable, NullWritable> {

        TreeSet<Integer> cachedTopN = null;
        Integer N = null;

        /**
         * 每個Mapper Task執行前都會先執行setup函數
         * map函數是每行執行一次
         */
        @Override
        protected void setup(Context context) throws IOException, InterruptedException {
            // TreeSet定義的排序規則為倒序，後面做數據的處理時只需要pollLast最後一個即可將
            // TreeSet中較小的數去掉
            cachedTopN = new TreeSet<Integer>(new Comparator<Integer>() {
                @Override
                public int compare(Integer o1, Integer o2) {
                    int ret = 0;
                    if (o1 > o2) {
                        ret = -1;
                    } else if (o1 < o2) {
                        ret = 1;
                    }

                    return ret;
                }
            });
            // 拿到傳入參數時的topN中的N值
            N = Integer.valueOf(context.getConfiguration().get("topN"));
        }

        /**
         * 將split中前N個數篩選出來
         */
        @Override
        protected void map(LongWritable key, Text value, Context context)
                throws IOException, InterruptedException {
            // 解析每一行
            String[] fields = value.toString().split(",");
            if (fields == null || fields.length < 3) {
                return;
            }
            // 轉換payment為數字，如果出現異常，終止當前map函數的執行
            Integer payment = null;
            try {
                payment = Integer.valueOf(fields[2]);
            } catch (NumberFormatException e) {
                e.printStackTrace();
                return;
            }
            // 將數字寫入到TreeSet當中
            cachedTopN.add(payment);
            // 判斷cachedTopN中的元素個數是否已經達到N個，如果已經達到N個，則去掉最後一個
            if (cachedTopN.size() > N) {
                cachedTopN.pollLast();
            }
        }

        /**
         * 每個Mapper Task執行結束後才會執行cleanup函數
         * 將map函數篩選出來的前N個數寫入到context中作為輸出
         * 將
         * map函數是每行執行一次
         */
        @Override
        protected void cleanup(Context context) throws IOException, InterruptedException {
            for (Integer num : cachedTopN) {
                context.write(new IntWritable(num), NullWritable.get());
            }
        }
    }

    /**
     * Reducer，將Mapper Task輸出的數據排序後再輸出
     * 處理思路與Mapper是類似的
     */
    public static class TopNReducer extends Reducer<IntWritable, NullWritable, IntWritable, IntWritable> {

        TreeSet<Integer> cachedTopN = null;
        Integer N = null;

        /**
         * 初始化一個TreeSet
         */
        @Override
        protected void setup(Context context) throws IOException, InterruptedException {
            // TreeSet定義的排序規則為倒序，後面做數據的處理時只需要pollLast最後一個即可將
            // TreeSet中較小的數去掉
            cachedTopN = new TreeSet<Integer>(new Comparator<Integer>() {
                @Override
                public int compare(Integer o1, Integer o2) {
                    int ret = 0;
                    if (o1 > o2) {
                        ret = -1;
                    } else if (o1 < o2) {
                        ret = 1;
                    }
                    return ret;
                }
            });
            // 拿到傳入參數時的topN中的N值
            N = Integer.valueOf(context.getConfiguration().get("topN"));
        }

        /**
         * 篩選Reducer Task中的前10個數
         */
        @Override
        protected void reduce(IntWritable key, Iterable<NullWritable> values, Context context)
                throws IOException, InterruptedException {
            cachedTopN.add(Integer.valueOf(key.toString()));
            // 判斷cachedTopN中的元素個數是否已經達到N個，如果已經達到N個，則去掉最後一個
            if (cachedTopN.size() > N) {
                cachedTopN.pollLast();
            }
        }

        /**
         * 將reduce函數篩選出來的前N個數寫入到context中作為輸出
         */
        @Override
        protected void cleanup(Context context) throws IOException, InterruptedException {
            int index = 1;
            for(Integer num : cachedTopN) {
                context.write(new IntWritable(index), new IntWritable(num));
                index++;
            }
        }
    }

}

測試

這裏使用本地環境來運行MapReduce程序，輸入的參數如下：

/Users/yeyonghao/data/input/topn /Users/yeyonghao/data/output/mr/topn 10

也可以將其打包成jar包，然後上傳到Hadoop環境中運行。

運行程序後，查看輸出結果如下：

yeyonghao@yeyonghaodeMacBook-Pro:~/data/output/mr/topn$ cat part-r-00000
1   9000
2   2000
3   1234
4   1000
5   910
6   701
7   490
8   281
9   100
10  28

可以看到，我們的MapReduce程序已經完成了TopN問題的處理，並且其中的N值是動態的，可以根據參數來動態確定。

MapReduce程序之TopN問題（排行榜問題）

大數據 Hadoop MapReduce Java [toc] MapReduce程序之TopN問題（排行榜問題）需求有下面的文本文件： yeyonghao@yeyonghaodeMacBook-Pro:~/data/input/topn$ cat senventeen_a.txt 1,

MapReduce程序實例（python）

鍵值對文件 map 程序輸出一個學生 prior 產生問題背景現在有兩份數據，file1是校園新聞版塊，每一條新聞點擊記錄；file2是校園新聞版塊使用活躍度高的學生記錄。用mr統計出某一天的點擊記錄裏，使用ios/android手機的活躍學生的總的點擊次數原

程序猿的量化交易之路（17）--Cointrader之Temporal實體（5）

eas 建表 times create bject cloud temp 存儲時間轉載須要註明：http://blog.csdn.net/minimicall，http://cloudtrader.top/ 這一小節說明一個時間實體Temporal實體，它的代碼非常

程序猿的量化交易之路（28）--Cointrader之Offer報價實體（15）

content mod min timer warnings ppr extend gets ant 轉載須註明出處：http://blog.csdn.net/minimicall?viewmode=contents，http://cloudtrade.top/ Off

微信小程序之初探（常見語法 VS vue）常見問題（點擊不生效，數據綁定）

數據驅動一點驅動 win -1 沒有 html cat been 最近在調研微信小程序開發，對於一個前端小白來說，在各種框架都還用不熟的情況下，再來開發小程序確實還是不容易。小程序出來之初，聽過演講，看過一點點兒視頻，感覺和angular語法有點相似（PS：那是也是只

程序猿的量化交易之路（27）--Cointrader之PriceData價格數據（14）

time abstract ansi crypto ket pub return nds set 轉載須註明出處：http://blog.csdn.net/minimicall?viewmode=contents，http://cloudtrade.top/ Pr

[轉]微信小程序之加載更多（分頁加載）實例 —— 微信小程序實戰系列（2）

是否底部 watermark water ongl 小程序教程所有空數組 osi 本文轉自;http://blog.csdn.net/michael_ouyang/article/details/56846185 loadmore 加載更多（分頁加載）當

USB小白學習之路（5） HID鼠標程序

不可核心部分兩個變化 rip pre 端口 enter style HID鼠標程序 1. 特別註意需要特別註意，各個例程中的設備描述符，配置描述符等各種描述符都是已經配置好了的，我們需要做的只是在例程中將代碼修改為自己需要的部分即可，一般情況下是不可以串搭配的。 2

USB小白學習之路（4）HID鍵盤程序

aps ron blog 學習隨著 cap 檢測端口 pos 文件中 HID鍵盤程序 1. 特別註意需要特別註意，各個例程中的設備描述符，配置描述符等各種描述符都是已經配置好了的，我們需要做的只是在例程中將代碼修改為自己需要的部分即可，一般情況下是不可以串搭配的。 2.

Hadoop學習之路（十三）MapReduce的初識

drive 分配任務 xtend JD aps 想要好處 val HR MapReduce是什麽首先讓我們來重溫一下 hadoop 的四大組件： HDFS：分布式存儲系統 MapReduce：分布式計算系統 YARN：hadoop 的資源調度系統 Common

學習Linux程序設計之路（1）UNIX程序設計哲學

文件系統領域 mil 自己編程代碼復雜容易 UNIX程序編程有自己特定的風格，我們在學習UNIX程序設計的時候，應該盡量遵從這種設計風格，它能夠最大限度地幫助我們避免一些問題。簡單化許多有用並且好用的UNIX系統軟件都非常簡單，而且很小並易於理解。

dotNet程序員的Java爬坑之旅（一）

是我方法轉java 自己的 java pri 也好工作計劃　　　　仔細想了下還是轉java吧，因為後期不管是留在北京也好還是回老家也好，java的工作都會好找一點。現在的工作主要還是寫.net，目標是下一次離職的時候可以找到一份全職的java工作，我一直都覺得實踐

dotNet程序員的Java爬坑之旅（二）

模式最好的 https servlet 很多過濾器 () 被調用回調　　囉裏囉唆的寫了一大堆，最後還是全刪除了。哎~ 　　言歸正傳，最近因爲發生了很多事情，所以更新的有嗲晚了，最近也一直在學習，但是感覺效率什麼的不是很高，這是不對的，反思一下，從這篇博文開始，打起精

dotNet程序員的Java爬坑之旅（三）之spring MVC篇一

www. let ref ide filter ESS pro enc require 使用maven構建springMVC項目，開發工具為IDEA 一、構建Maven項目，模板為WebApp 二、在pom文件中配置SpringMvc配置（springMvc需要以來serv

Linux程序管理之狀態（二）

二、程序的生命週期程序是一個動態的實體，所以他是有生命的。從建立到消亡，是一個程序的整個生命週期。在這個週期中，程序可能會經歷各種不同的狀態。一般來說，所有程序都要經歷以下的3個狀態：就緒態。指程序已經獲得所有所需的其他資源，正在申請處理處理器資源，準備開始執行。這種情況下，稱程序處於就緒態。

linux程序管理之概念（一）

一、程序和執行緒的概念 1.程序和執行緒的定義　　程序並不只是一段可以執行的程式碼，也包含了執行程式碼所需要的資源。　　在作業系統來看，程序是資源管理的最小單元，而我們又知道，執行緒是程式執行的最小單元。　　話說回來，Linux系統至少有一個程序，一個程式可以對應多個程序，一個程序只能對應一個程

作業系統之程序—死鎖（六）

1.死鎖產生獨佔性資源,如磁帶機、印表機、繪圖儀等硬體裝置以及程序表、臨界區等軟體資源不能同時供多個程序使用，否則容易導致結果混亂、資料錯誤以及程式崩潰，因此係統一次僅允許一個程序訪問獨佔性資源如果多個程序共享的資源為獨佔性資源，處理不當，就可能發生若無外力，程序永遠

Nginx學習之路（五）NginX的主程序迴圈

在上一篇文章中，說明了nginx的worker程序主要的任務，今天，就來講解下nginx的主程序（worker程序）的主要任務。首先要先區分一下概念，雖然nginx也是一個reactors式的伺服器(用陳碩老師的話來說就是reactors in process)，但它和主從r

Nginx學習之路（四）NginX的子程序主迴圈

//呼叫傳入的回撥函式，子程序的正式主迴圈開始，回撥函式的實體是ngx_worker_process_cycle proc(cycle, data); 今天就來介紹一下這個proc的具體過程：首先，proc函式是一個隨ngx_spawn_process(

QT之程序和程序間通訊（IPC）

程序是作業系統的基礎之一。一個程序可以認為是一個正在執行的程式。我們可以把程序當做計算機執行時的一個基礎單位。關於程序的討論已經超出了本章的範疇，現在我們假定你是瞭解這個概念的。在 Qt 中，我們使用QProcess來表示一個程序。這個類可以允許我們的應用程式開啟一個新的外部程式

MapReduce程序之TopN問題（排行榜問題）

MapReduce程序之TopN問題（排行榜問題）

需求

程序思路分析

MapReduce程序

測試

相關推薦