Hadoop之手寫原生態MapReduce的排序

阿新 • • 發佈：2018-11-10

測試資料：
2030 59
1976 68
2030 19
1997 5
年與溫度的文字，資料可以用java程式碼生成。

生成10000條資料程式碼：
public  void makeData() throws IOException {
        FileWriter fw = new FileWriter("e:/mr/tmp/temp.txt");
        for (int i = 0; i < 10000;i++){
            int year = 1970 + new Random().nextInt(100);
            int temp = -30 
 + new Random().nextInt(100);
            fw.write(""+year +" "+temp +"\r\n");
        }
        fw.close();
    }

MapReduce全排序

1、應用場景

當需要從大量資料中獲取某一最大值最小值時，就得進行排序，這樣減少掉檢索的時間，優化了程式的執行效率。

2、實現方式

1、定義一個Reduce
2、自定義分割槽函式
3、使用hadoop取樣機制

3、程式碼

public static void main(String args[]) throws Exception {
        Configuration conf = new 
 Configuration();
        conf.set("fs.defaultFS","file:///");
        Job job = Job.getInstance(conf);

        //設定job的各種屬性
        job.setJobName("MaxTempApp");                        //作業名稱
        job.setJarByClass(MaxTempApp.class);                 //搜尋類
        job.setInputFormatClass(SequenceFileInputFormat.class 
); //設定輸入格式


        //設定輸出格式類
        //job.setOutputFormatClass(SequenceFileOutputFormat.class);
        //新增輸入路徑
        FileInputFormat.addInputPath(job, new Path(args[0]));
        //設定輸出路徑
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        //設定最大切片數
        //FileInputFormat.setMaxInputSplitSize(job,1024);
        //設定最小切片數
        //FileInputFormat.setMinInputSplitSize(job,1);

        //設定合成類    --不能取平均值
        //job.setCombinerClass(MaxTempReducer.class);

        job.setMapperClass(MaxTempMapper.class);             //mapper類
        job.setReducerClass(MaxTempReducer.class);           //reducer類
        //可以設定reduce個數為1
        job.setNumReduceTasks(3);                       //reducer個數

        job.setMapOutputKeyClass(IntWritable.class);
        job.setMapOutputValueClass(IntWritable.class);

        job.setOutputKeyClass(IntWritable.class);
        job.setOutputValueClass(IntWritable.class);

        //建立隨機取樣器物件
        //freq：每個key被選中的概率
        //numSamples：抽取的樣本總數
        //maxSplitsSampled：最大采樣切片數（分割槽數）
        InputSampler.Sampler<IntWritable,IntWritable> sampler = new InputSampler.RandomSampler<IntWritable, IntWritable>(0.1,6000,3);

        //生成的檔案value為空，key為取樣的區間  例如：本次測試的顯示內容2002年、2036年區間節點
        //setPartitionFile(conf,path) 不要使用conf，設定job物件的conf(該物件的conf在底層重新建立)
        TotalOrderPartitioner.setPartitionFile(job.getConfiguration(),new Path("d:/mr/par.lst"));
        //設定全排序分割槽類
        job.setPartitionerClass(TotalOrderPartitioner.class);   //設定自定義分割槽
        //將sampler寫入分割槽檔案
        InputSampler.writePartitionFile(job,sampler);

        job.waitForCompletion(true);
    }

MapReduce二次排序

1、應用場景

由於MapReduce只能對key排序，當需求是獲取value的最大值最小值，對value進行排序稱之為二次排序。

2、實現方式

1、自定義key
實現org.apache.hadoop.io.WritableComparable介面
2、自定義分割槽類
繼承org.apache.hadoop.mapreduce.Partitioner類
3、定義分組對比起
繼承org.apache.hadoop.io.WritableComparator類
4、定義自定義key的排序對比器
繼承org.apache.hadoop.io.WritableComparator類

3、程式碼

自定義key

public class ComboKey implements WritableComparable<ComboKey> {
    private int year ;
    private int temp ;

    public int getYear() {
        return year;
    }

    public void setYear(int year) {
        this.year = year;
    }

    public int getTemp() {
        return temp;
    }

    public void setTemp(int temp) {
        this.temp = temp;
    }

    /**
     * 對key進行比較實現
     */
    public int compareTo(ComboKey o) {
        System.out.println("ComboKey.CompareTo "+ o.toString());
        int y0 = o.getYear();
        int t0 = o.getTemp() ;
        //年份相同(升序)
        if(year == y0){
            //氣溫降序
            return -(temp - t0) ;
        }
        else{
            return year - y0 ;
        }
    }

    /**
     * 序列化過程
     */
    public void write(DataOutput out) throws IOException {
        //年份
        out.writeInt(year);
        //氣溫
        out.writeInt(temp);
    }

    public void readFields(DataInput in) throws IOException {
        year = in.readInt();
        temp = in.readInt();
    }


    public String toString() {
        return year+":"+temp;
    }
}

自定義分割槽類

public class YearPartitioner extends Partitioner<ComboKey,NullWritable> {

    public int getPartition(ComboKey key, NullWritable nullWritable, int numPartitions) {
        int year = key.getYear();
        return year % numPartitions;
    }
}

自定義分組對比器

public class YearGroupComparator extends WritableComparator {

    protected YearGroupComparator() {
        super(ComboKey.class, true);
    }

    public int compare(WritableComparable a, WritableComparable b) {
        System.out.println("YearGroupComparator"+a+","+b);
        ComboKey k1 = (ComboKey)a ;
        ComboKey k2 = (ComboKey)b ;
        return k1.getYear() - k2.getYear() ;
    }
}

自定義key排序對比器

public class ComboKeyComparator extends WritableComparator {

    protected ComboKeyComparator() {
        super(ComboKey.class, true);
    }

    public int compare(WritableComparable a, WritableComparable b) {
        System.out.println("ComboKeyComparator"+a+","+b);
        ComboKey k1 = (ComboKey) a;
        ComboKey k2 = (ComboKey) b;
        //對比方法在自定義key類中
        return k1.compareTo(k2);
    }
}

編寫Mapper

public class MaxTempMapper extends Mapper<LongWritable,Text,ComboKey,NullWritable> {

    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        System.out.println("MaxTempMapper.map");
        String line = value.toString();
        String arr[] = line.split(" ");

        ComboKey keyOut = new ComboKey();
        keyOut.setYear(Integer.parseInt(arr[0]));
        keyOut.setTemp(Integer.parseInt(arr[1]));
        context.write(keyOut,NullWritable.get());
    }
}

編寫Reduce

public class MaxTempReducer extends Reducer <ComboKey ,NullWritable, IntWritable ,IntWritable>{

    protected void reduce(ComboKey key, Iterable<NullWritable> values, Context context) throws IOException, InterruptedException {
        int year = key.getYear();
        int temp = key.getTemp();
        context.write(new IntWritable(year),new IntWritable(temp));
    }
}

編寫App

public class MaxTempApp {
    public static void main(String args[]) throws Exception {
        Configuration conf = new Configuration();
        conf.set("fs.defaultFS","file:///");

        Job job = Job.getInstance(conf);

        //設定job的各種屬性
        job.setJobName("SecondarySortApp");             //作業名稱
        job.setJarByClass(MaxTempApp.class);            //搜尋類
        job.setInputFormatClass(TextInputFormat.class); //設定輸入格式

        //新增輸入路徑
        FileInputFormat.addInputPath(job,new Path(args[0]));
        //設定輸出路徑
        FileOutputFormat.setOutputPath(job,new Path(args[1]));

        job.setMapperClass(MaxTempMapper.class);             //mapper類
        job.setReducerClass(MaxTempReducer.class);           //reducer類

        //設定Map輸出型別
        job.setMapOutputKeyClass(ComboKey.class);            
        job.setMapOutputValueClass(NullWritable.class);      

        //設定ReduceOutput型別
        job.setOutputKeyClass(IntWritable.class);
        job.setOutputValueClass(IntWritable.class);         

        //設定分割槽類
        job.setPartitionerClass(YearPartitioner.class);
        //設定分組對比器
        job.setGroupingComparatorClass(YearGroupComparator.class);
        //設定排序對比器
        job.setSortComparatorClass(ComboKeyComparator.class);

        job.setNumReduceTasks(3);                           //reduce個數

        job.waitForCompletion(true);
    }
}

Hadoop之手寫原生態MapReduce的排序

測試資料： 2030 59 1976 68 2030 19 1997 5 年與溫度的文字，資料可以用java程式碼生成。生成10000條資料程式碼： public void makeData() throws IOException { Fil

前端面試題之手寫二叉排序樹

前端面試題之手寫二叉排序樹二叉排序樹:每個節點的左節點都比根節點小，右節點都比根節點大 function TreeNode(data, left, right) { //節點結構 this.val = data; this.left = left; this

透徹理解Spring事務設計思想之手寫實現

數據庫操作 cal 了解 hashmap 個數這一 use action 管道前言事務，是描述一組操作的抽象，比如對數據庫的一組操作，要麽全部成功，要麽全部失敗。事務具有4個特性：Atomicity（原子性），Consistency（一致性），Isolation（隔離

理解數據庫連接池底層原理之手寫實現

ring cda color 要去分配 .com 管理 roc tex 前言數據庫連接池的基本思想是：為數據庫連接建立一個“緩沖池”，預先在池中放入一定數量的數據庫連接管道，需要時，從池子中取出管道進行使用，操作完畢後，在將管道放入池子中，從而避免了頻繁的向數據庫申請資

C++之手寫strlen函數

sse details nbsp blank tail char 實現 article != 代碼： int strlen(const char *str){ assert(str!=NULL); intlen=0; while((*str++)!=‘\0‘) len

前端面試之手寫一個bind方法

bind 函式對於寫react的人來說並不陌生。哦！是的，沒錯我的朋友，它的一個用處就是用來改變函式this指向的。如果細究一下bind的實現，發現裡面還是有不少東西的，我們今天展開討論一下。在說bind之前呢，我們還要先來講講我們的老熟人 **this。今天我們再來看看它的四種

新手上手Tensorflow之手寫數字識別應用（3）

本系列為應用TensorFlow實現手寫數字識別應用的全過程的程式碼實現及細節討論。按照實現流程，分為如下幾部分： 1. 模型訓練並儲存模型 2. 通過滑鼠輸入數字並儲存 2. 影象預處理 4. 讀入模型對輸入的圖片進行識別本文重點討論影象預處理的問題。所謂的影象預處理，

新手上手Tensorflow之手寫數字識別應用（2）

本系列為應用TensorFlow實現手寫數字識別應用的全過程的程式碼實現及細節討論。按照實現流程，分為如下幾部分： 1. 模型訓練並儲存模型 2. 通過滑鼠輸入數字並儲存 2. 影象預處理 4. 讀入模型對輸入的圖片進行識別本文重點討論模型的儲存以及讀入問題。關於Tens

新手上手Tensorflow之手寫數字識別應用（1）

學深度學習有一段時間了，各種演算法研究一通，什麼CNN啦，RNN啦，LSTM啦，RCNN啦，各種論文看了一堆。看沒看懂且不說（心虛。。），回來我想把訓練的模型看看實際效果的時候，才發現TensorFlow的好多基本功能還不會。好吧，還是拿著Mnist資料集搞一波手寫數字識別的全流程吧！涉

spring事務(5)-----手寫SpringIOC容器框架之手寫@Service和@Resource註解

一，xml方式註解方式就不寫了，主要就是dom4j的解析。二，註解方式 2.1，我們先來看一下spring自帶的寫法 spring.xml <beans xmlns="http://www.springframework.org/schema/beans" xml

Tensorflow入門教程之手寫數字MINST識別

Tensorflow入門教程之手寫數字MINST識別 MNIST是在機器學習領域中的一個經典問題。該問題解決的是把28x28畫素的灰度手寫數字圖片識別為相應的數字，其中數字的範圍從0到9. MNIST 資料下載 Yann LeCun's MNIST page也提供了訓練集與測試集資料

原始碼分析之手寫1.7HahMap(三)

public interface ExtMap<K, V> { // 向集合中插入資料 public V put(K k, V v); // 根據k 從Map集合中查詢元素 public V get(K k); // 獲取集合元素個數 public int size()

原始碼分析之手寫ExtLinkedList

public class ExtLinkedList<E> { // 連結串列實際儲存元素 private int size; // 第一個元素(頭節點，為了查詢) private Node first; // 最後一個元素（尾節點,為了新增） private Node l

原始碼分析之手寫ArrayList

public class ExtArrayList { // 底層採用陣列存放 private Object[] elementData; // 陣列預設容量 private static final int DEFAULT_CAPACITY = 10; // 實際arraylist長度

原始碼分析篇之手寫springvc

1.先建立maven的web專案，結構如下 2.在web.xml新增如下配置 <servlet> <servlet-name>dispatcher</servlet-name> <servlet-class>com.mayik

理解資料庫連線池底層原理之手寫實現

前言資料庫連線池的基本思想是：為資料庫連線建立一個“緩衝池”，預先在池中放入一定數量的資料庫連線管道，需要時，從池子中取出管道進行使用，操作完畢後，在將管道放入池子中，從而避免了頻繁的向資料庫申請資源，釋放資源帶來的效能損耗。在如今的分散式系統當中，系統的QPS瓶頸往往就

漫談深度強化學習之手寫Deep Q-Network解決迷宮問題

1. Q-Learning回顧上一期我們講了Q-Learning以及Sarsa的演算法流程，同時我們還手寫了基於Q-Learning以及Sarsa來解決OpenAI gym中的FrozenLake問題。今天，我們將藉助神經網路來重新解決這個問題。（FrozenLake問題簡單來

【手寫系列】透徹理解Spring事務設計思想之手寫實現

事務，是描述一組操作的抽象，比如對資料庫的一組操作，要麼全部成功，要麼全部失敗。事務具有4個特性：Atomicity（原子性），Consistency（一致性），Isolation（隔離性），Durability（永續性）。在實際開發中，我們對事務應用最多就是在資料庫操作這

hadoop用java API實現mapreduce排序

mapreduce排序依靠的是key鍵，所以要在輸出的key對應的類實現compareTo（）方法 #key對應的類 package org.hadoop.sort; import org.apache.hadoop.io.Writable; import org.apache

Spring系列之手寫註解與配置檔案的解析

目錄 Spring系列之IOC的原理及手動實現 Spring系列之DI的原理及手動實現 Spring系列之AOP的原理及手動實現引入在前面我們已經完成了IOC，DI，AOP的實現，基本的功能都已經完成了，我們的手寫框架也能勉強使用起來。為了讓我們的框架能夠使用起來比較簡單，這一節我

Hadoop之手寫原生態MapReduce的排序

MapReduce全排序

1、應用場景

2、實現方式

3、程式碼

MapReduce二次排序

1、應用場景

2、實現方式

3、程式碼

相關推薦