Hadoop學習之路（十九）MapReduce框架排序

阿新 • • 發佈：2018-03-21

ati ioe extends 一個用戶必須 idt 構造 sta gpo

流量統計項目案例

樣本示例

技術分享圖片

需求

1、統計每一個用戶（手機號）所耗費的總上行流量、總下行流量，總流量

2、得出上題結果的基礎之上再加一個需求：將統計結果按照總流量倒序排序

3、將流量匯總統計結果按照手機歸屬地不同省份輸出到不同文件中

第一題

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
 
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 *    第一題：統計每一個用戶（手機號）所耗費的總上行流量、總下行流量，總流量
  
*/

public class FlowSumMR {

    public static void main(String[] args) throws Exception {
        
        
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "FlowSumMR");
        job.setJarByClass(FlowSumMR.class);
        
        job.setMapperClass(FlowSumMRMapper. 
class);
        job.setReducerClass(FlowSumMRReducer.class);
        
        
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        
        
        FileInputFormat.setInputPaths(job, new Path("E:/bigdata/flow/input/"));
        FileOutputFormat.setOutputPath(job, new Path("E:/bigdata/flow/output_sum"));
        
        
        boolean isDone = job.waitForCompletion(true);
        System.exit(isDone ? 0 : 1);
    }
    
    public static class FlowSumMRMapper extends Mapper<LongWritable, Text, Text, Text>{
        
        /**
         * value  =  1363157993044     18211575961    94-71-AC-CD-E6-18:CMCC-EASY    120.196.100.99    
         * iface.qiyi.com    視頻網站    15    12    1527    2106    200
         */
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            
            
            String[] split = value.toString().split("\t");
            
            String outkey = split[1];
            
            String outValue = split[8] + "\t" + split[9];
            
            context.write(new Text(outkey), new Text(outValue));
            
        }
    }
    
    public static class FlowSumMRReducer extends Reducer<Text, Text, Text, Text>{
        
        @Override
        protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
            
            int upFlow = 0;
            int downFlow = 0;
            int sumFlow = 0;
            
            for(Text t : values){
                String[] split = t.toString().split("\t");
                
                int upTempFlow = Integer.parseInt(split[0]);
                int downTempFlow = Integer.parseInt(split[1]);
                
                upFlow+=upTempFlow;
                downFlow +=  downTempFlow;
            }
            
            sumFlow = upFlow + downFlow;
            
            context.write(key, new Text(upFlow + "\t" + downFlow + "\t" + sumFlow));
        }
    }
}

第二題

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.NullWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import comg.ghgj.mr.pojo.FlowBean;

/**
 * 需求： 第二個題目，就是對第一個題目的結果數據，進行按照總流量倒敘排序
 * 
 * 
 */
public class FlowSortMR {

    public static void main(String[] args) throws Exception {
        
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf, "FlowSumMR");
        job.setJarByClass(FlowSortMR.class);
        
        job.setMapperClass(FlowSortMRMapper.class);
        job.setReducerClass(FlowSortMRReducer.class);
        
        job.setOutputKeyClass(FlowBean.class);
        job.setOutputValueClass(NullWritable.class);
        
        
        FileInputFormat.setInputPaths(job, new Path("E:/bigdata/flow/output_sum"));
        FileOutputFormat.setOutputPath(job, new Path("E:/bigdata/flow/output_sort_777"));
        
        
        boolean isDone = job.waitForCompletion(true);
        System.exit(isDone ? 0 : 1);
        
    }
    
    public static class FlowSortMRMapper extends Mapper<LongWritable, Text, FlowBean, NullWritable>{
        
        /**
         * value  = 13602846565    26860680    40332600    67193280
         */
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            
            String[] split = value.toString().split("\t");
            
            FlowBean fb = new FlowBean(split[0], Long.parseLong(split[1]), Long.parseLong(split[2]));
            
            context.write(fb, NullWritable.get());
        }
        
    }
    
    public static class FlowSortMRReducer extends Reducer<FlowBean, NullWritable, FlowBean, NullWritable>{
        
        @Override
        protected void reduce(FlowBean key, Iterable<NullWritable> values, Context context)
                throws IOException, InterruptedException {
            
            
            for(NullWritable nvl : values){
                context.write(key, nvl);
            }
            
        }
        
    }
}

FlowBean.java

  1 import java.io.DataInput;
  2 import java.io.DataOutput;
  3 import java.io.IOException;
  4 
  5 import org.apache.hadoop.io.WritableComparable;
  6 
  7 /**
  8  * 第一，定義好屬性
  9  * 第二，定義好屬性的getter 和 setter方法
 10  * 第三，定義好構造方法（有參，無參）
 11  * 第四：定義好toString();
 12  * 
 13  * 
 14  * 詳細解釋：
 15  * 
 16  * 如果一個自定義對象要作為key 必須要實現 WritableComparable 接口， 而不能實現 Writable, Comparable
 17  * 
 18  * 如果一個自定義對象要作為value，那麽只需要實現Writable接口即可
 19  */
 20 public class FlowBean implements WritableComparable<FlowBean>{
 21 //public class FlowBean implements Comparable<FlowBean>{
 22 
 23     private String phone;
 24     private long upFlow;
 25     private long downFlow;
 26     private long sumFlow;
 27     public String getPhone() {
 28         return phone;
 29     }
 30     public void setPhone(String phone) {
 31         this.phone = phone;
 32     }
 33     public long getUpFlow() {
 34         return upFlow;
 35     }
 36     public void setUpFlow(long upFlow) {
 37         this.upFlow = upFlow;
 38     }
 39     public long getDownFlow() {
 40         return downFlow;
 41     }
 42     public void setDownFlow(long downFlow) {
 43         this.downFlow = downFlow;
 44     }
 45     public long getSumFlow() {
 46         return sumFlow;
 47     }
 48     public void setSumFlow(long sumFlow) {
 49         this.sumFlow = sumFlow;
 50     }
 51     public FlowBean(String phone, long upFlow, long downFlow, long sumFlow) {
 52         super();
 53         this.phone = phone;
 54         this.upFlow = upFlow;
 55         this.downFlow = downFlow;
 56         this.sumFlow = sumFlow;
 57     }
 58     public FlowBean(String phone, long upFlow, long downFlow) {
 59         super();
 60         this.phone = phone;
 61         this.upFlow = upFlow;
 62         this.downFlow = downFlow;
 63         this.sumFlow = upFlow + downFlow;
 64     }
 65     public FlowBean() {
 66         super();
 67         // TODO Auto-generated constructor stub
 68     }
 69     @Override
 70     public String toString() {
 71         return  phone + "\t" + upFlow + "\t" + downFlow + "\t" + sumFlow;
 72     }
 73     
 74     
 75     
 76     
 77     /**
 78      * 把當前這個對象 --- 誰掉用這個write方法，誰就是當前對象
 79      * 
 80      * FlowBean bean = new FlowBean();
 81      * 
 82      * bean.write(out)    把bean這個對象的四個屬性序列化出去
 83      * 
 84      *  this = bean
 85      */
 86     @Override
 87     public void write(DataOutput out) throws IOException {
 88         // TODO Auto-generated method stub
 89         
 90         out.writeUTF(phone);
 91         out.writeLong(upFlow);
 92         out.writeLong(downFlow);
 93         out.writeLong(sumFlow);
 94         
 95     }
 96     
 97     
 98     //   序列化方法中的寫出的字段順序， 一定一定一定要和 反序列化中的 接收順序一致。 類型也一定要一致
 99     
100     
101     /**
102      * bean.readField();
103      * 
104      *             upFlow = 
105      */
106     @Override
107     public void readFields(DataInput in) throws IOException {
108         // TODO Auto-generated method stub
109         
110         phone = in.readUTF();
111         upFlow = in.readLong();
112         downFlow = in.readLong();
113         sumFlow = in.readLong();
114         
115     }
116     
117     
118     
119     /**
120      * Hadoop的序列化機制為什麽不用   java自帶的實現 Serializable這種方式？
121      * 
122      * 本身Hadoop就是用來解決大數據問題的。
123      * 
124      * 那麽實現Serializable接口這種方式，在進行序列化的時候。除了會序列化屬性值之外，還會攜帶很多跟當前這個對象的類相關的各種信息
125      * 
126      * Hadoop采取了一種全新的序列化機制；只需要序列化 每個對象的屬性值即可。
127      */
128     
129     
130     
131     /*@Override
132       public void readFields(DataInput in) throws IOException {
133         value = in.readLong();
134       }
135 
136       @Override
137       public void write(DataOutput out) throws IOException {
138         out.writeLong(value);
139       }*/
140     
141     
142     /**
143      * 用來指定排序規則
144      */
145     @Override
146     public int compareTo(FlowBean fb) {
147 
148         long diff = this.getSumFlow() - fb.getSumFlow();
149         
150         if(diff == 0){
151             return 0;
152         }else{
153             return diff > 0 ? -1 : 1;
154         }
155         
156     }
157 }

View Code

第三題

package comg.ghgj.mr.flow;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.partition.ProvincePartitioner;

public class FlowPartitionerMR {

    public static void main(String[] args) throws Exception {
        
        
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(conf);
        Job job = Job.getInstance(conf, "FlowSumMR");
        job.setJarByClass(FlowPartitionerMR.class);
        
        job.setMapperClass(FlowPartitionerMRMapper.class);
        job.setReducerClass(FlowPartitionerMRReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        
        
        /**
         * 非常重要的兩句代碼
         */
        job.setPartitionerClass(ProvincePartitioner.class);
        job.setNumReduceTasks(10);
        
        
        FileInputFormat.setInputPaths(job, new Path("E:\\bigdata\\flow\\input"));
        Path outputPath = new Path("E:\\bigdata\\flow\\output_ptn2");
        if(fs.exists(outputPath)){
            fs.delete(outputPath, true);
        }
        FileOutputFormat.setOutputPath(job, outputPath);
        
        
        boolean isDone = job.waitForCompletion(true);
        System.exit(isDone ? 0 : 1);
    }
    
    public static class FlowPartitionerMRMapper extends Mapper<LongWritable, Text, Text, Text>{
        
        /**
         * value  =  13502468823    101663100    1529437140    1631100240
         */
        @Override
        protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
            
            
            String[] split = value.toString().split("\t");
            
            String outkey = split[1];
            String outValue = split[8] + "\t" + split[9];
            
            context.write(new Text(outkey), new Text(outValue));
            
        }
    }
    
    public static class FlowPartitionerMRReducer extends Reducer<Text, Text, Text, Text>{
        
        @Override
        protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
            
            int upFlow = 0;
            int downFlow = 0;
            int sumFlow = 0;
            
            for(Text t : values){
                String[] split = t.toString().split("\t");
                
                int upTempFlow = Integer.parseInt(split[0]);
                int downTempFlow = Integer.parseInt(split[1]);
                
                upFlow+=upTempFlow;
                downFlow +=  downTempFlow;
            }
            
            sumFlow = upFlow + downFlow;
            
            context.write(key, new Text(upFlow + "\t" + downFlow + "\t" + sumFlow));
        }
    }
}

Hadoop學習之路（十九）MapReduce框架排序

ati ioe extends 一個用戶必須 idt 構造 sta gpo 流量統計項目案例樣本示例需求 1、統計每一個用戶（手機號）所耗費的總上行流量、總下行流量，總流量 2、得出上題結果的基礎之上再加一個需求：將統計結果按照總流量倒序排序 3

Hadoop學習之路（十七）MapReduce框架Partitoner分區

div get() 劃分 mapreduce ride 作用程序輸出 lin Partitioner分區類的作用是什麽？在進行MapReduce計算時，有時候需要把最終的輸出數據分到不同的文件中，比如按照省份劃分的話，需要把同一省份的數據放到一個文件中；按照性別劃分

Hadoop學習之路（十八）MapReduce框架Combiner分區

類型規則比較一個學習過程 key-value body 註意對combiner的理解 combiner其實屬於優化方案，由於帶寬限制，應該盡量map和reduce之間的數據傳輸數量。它在Map端把同一個key的鍵值對合並在一起並計算，計算規則與reduce一致

Python小白學習之路（十九）—【檔案操作步驟】【檔案操作模式】

一、檔案操作步驟 step1：開啟檔案，得到檔案控制代碼並賦值給一個變數step2：通過控制代碼對檔案進行操作step3：關閉檔案舉例： a = open('hello world', 'r', encoding = 'utf-8') #開啟 ‘hello world’ 檔案，得到檔案控制

Hadoop學習之路（二十三）MapReduce中的shuffle詳解

就是多個流程 http cer 分開分享圖片數據分區 bsp 概述 1、MapReduce 中，mapper 階段處理的數據如何傳遞給 reducer 階段，是 MapReduce 框架中最關鍵的一個流程，這個流程就叫 Shuffle 2、Shuffle: 數

hadoop生態系統學習之路（十二）cloudera manager的簡單使用

最近，忙著辭職和考駕照的事，都沒時間寫部落格了，差點把大資料相關的一些技術都給忘了。不過還好做好歸納整理，能夠快速的恢復起來。其實，筆者發現，學習大資料還是有點小竅門的。首先，最好能有個人指引，有什麼問題都可以問他，因為我僅僅只看視訊、資料等，很難挖掘裡面有價值

python學習之路（十二）

pack 分享 psi python 模塊 shp 詳解階段 new from 這節主要介紹一下import！很實用的調用模塊的功能。導入模塊是導入真實的代碼而導入包是導入包下面的 __init__() 文件這兩個是不一樣的先說模塊定義模塊它就是一個

Hive學習之路（十五）Hive分析窗口函數(三) CUME_DIST和PERCENT_RANK

select rank com ble class mina src format () 這兩個序列分析函數不是很常用，這裏也練習一下。數據準備數據格式 cookie3.txt d1,user1,1000 d1,user2,2000 d1,user3,

Hive學習之路（十八）Hive的Shell操作

int one 依次也會 not show div ble ive 遞增一、Hive的命令行 1、Hive支持的一些命令 Command Description quit Use quit or exit to leave the interactive sh

Spark學習之路（十一）SparkCore的調優之Spark內存模型

精準規模 memory 此外結構定義申請管理方式存儲內部摘抄自：https://www.ibm.com/developerworks/cn/analytics/library/ba-cn-apache-spark-memory-management/index

Spark學習之路（十二）SparkCore的調優之資源調優JVM的基本架構

程序員存儲 src ron 指示器引用 double strong 功能一、JVM的結構圖 1.1　Java內存結構 JVM內存結構主要有三大塊：堆內存、方法區和棧。堆內存是JVM中最大的一塊由年輕代和老年代組成，而年輕代內存又被分成三部分，Eden空間、

Spark學習之路（十二）SparkCore的調優之資源調優

限制無法數據 block 可能 executors 頻繁通過操作摘抄自：https://tech.meituan.com/spark-tuning-basic.html 一、概述在開發完Spark作業之後，就該為作業配置合適的資源了。Spark的資源參數，基

Spark學習之路（十四）SparkCore的調優之資源調優JVM的GC垃圾收集器

當前復制 event 只需要引用應用之前相互分享一、概述垃圾收集 Garbage Collection 通常被稱為“GC”，它誕生於1960年 MIT 的 Lisp 語言，經過半個多世紀，目前已經十分成熟了。 jvm 中，程序計數

Spark學習之路（十五）SparkCore的源碼解讀（一）啟動腳本

-o 啟動服務 binary dirname ppi std 參數 exp 情況一、啟動腳本分析獨立部署模式下，主要由master和slaves組成，master可以利用zk實現高可用性，其driver，work，app等信息可以持久化到zk上；slaves由一臺至多

JAVA基礎學習之路（十二）鏈表

args 是否為空鏈表 == lin 一個 ava int 數據類型定義鏈表的基本結構： class Link {//外部類 //內部類，只為鏈表類服務 private class Node {//定義節點類 private

Kubernetes學習之路（十一）之資源清單定義

map latest dem kubectl 服務發現 bject 均衡 ima limit 一、Kubernetes常用資源以下列舉的內容都是 kubernetes 中的 Object，這些對象都可以在 yaml 文件中作為一種 API 類型來配置。類別名稱

Android破解學習之路（十二）—— GP錄影漢化過程及添加布局

## 前言最近閒著發慌，想起了很久之前就想漢化的一款錄影APP，APP大小不到1MB，但是好用，本期就給大家帶來漢化的基本步驟以及如何在APP中新增我們漢化的資訊 ## 漢化思路 1. **查詢關鍵字** 關鍵字挺好找的，由於APP本身就是英文，我們找到某個英文單詞進行搜尋即可 2. **找到string.

Git+Jenkins學習之路（十四）之自動化指令碼部署實踐

一、環境說明和準備 1、環境說明主機名 IP地址角色系統 deploy-server 192.168.56.12 釋出 Centos 7.4 web 192.1

Python小白學習之路（十四）—【作用域】【匿名函式】【程式設計方法論】【高階函式】

吧啦吧啦內心戲在沒有具體學作用域之前，我在之前的學習筆記中就有提到我開始以為是自己自創的詞兒沒想到這個詞早已經存在（手動捂臉）真是個無知的小火鍋（不知者無罪）我發現自己最擅長做的事情，就是給自己找個臺階，然後很快順勢滑下來一、作用域先來一段程式碼分析一波吧

Python小白學習之路（十五）—【map()函式】【filter()函式】【reduce()函式】

一、map()函式 map()是 Python 內建的高階函式有兩個引數，第一個是接收一個函式 f（匿名函式或者自定義函式都OK啦）；第二個引數是一個可迭代物件功能是通過把函式 f 依次作用在第二個引數的每個元素上，得到一個新的 list 並返回。（新的 list 元素的個數與位置與舊

Hadoop學習之路（十九）MapReduce框架排序

流量統計項目案例

需求

相關推薦