MapReduce的自定義排序、分割槽和分組

阿新 • • 發佈：2019-01-25

1.自定義排序（WritableComparable）

我們寫mr程式來處理文字時，經常會將處理後的資訊封裝到我們自定義的bean中，並將bean作為map輸出的key來傳輸。上一文我用圖解分析了mr程式的基本流程。而mr程式會在處理資料的過程中（傳輸到reduce之前）對資料排序（如：map端生成的檔案中的內容分割槽且區內有序）。
我們自定義bean來封裝處理後的資訊的話，我們可以自定義排序規則來挑選bean中的某幾個屬性來作為排序的依據，這樣就很靈活了。

import org.apache.hadoop.io.WritableComparable;

public class Person implements WritableComparable<Person> {
    private 
 String name;   //姓名
    private int age;     //年齡
    private int charm;   //魅力值
    // 如果空建構函式被覆蓋，一定要顯示的定義一下，否則反序列化時會拋異常。
    public Person() {
    } 
    public Person(String name, int age, int charm) {
        super();
        this.name = name;
        this.age = age;
        this.charm = charm;
    }
    public 
 String getName() {
        return name;
    }
    public void setName(String name) {
        this.name = name;
    }
    public int getAge() {
        return age;
    }
    public void setAge(int age) {
        this.age = age;
    }
    public int getCharm() {
        return charm;
    }
    public 
 void setCharm(int charm) {
        this.charm = charm;
    }

    @Override    //hadoop的反序列化
    public void readFields(DataInput in) throws IOException {
        name=in.readUTF();
        age=in.readInt();
        charm=in.readInt();
    }

    @Override    //hadoop的序列化
    public void write(DataOutput out) throws IOException {
        out.writeUTF(name);
        out.writeInt(age);
        out.writeInt(charm);
    }

    @Override   //先按照年齡排序，在按照魅力值排序(年齡小，魅力大的在前)
    public int compareTo(Person o) {
        if(o.age==this.age){
            if(o.charm==this.charm){
                return 0;
            }else{
                return o.charm-this.charm;
            }
        }else{
            return this.age-o.age;
        }
    }

}

上要實現自定義排序，需要實現WritableComparable這個介面，然後實現三個方法readFields(反序列化)、write(序列化)、和最關鍵的compareTo(排序)。在mr過程中發生排序的地方就會按照我自定義的排序規則來排序。前提，map的輸出的key為封裝的Person。
注意1：java的序列化過於重量級（Serializable），所以hadoop開發了一套自己的序列化和反序列化策略（Writable，精簡高效），因為map端的檔案要下載到reduce端的話如果不在同一臺節點上是會走網路進行傳輸(hadoop-rpc)，所以物件需要序列化。
注意2：如果空建構函式被覆蓋，一定要顯示的定義一下，否則反序列化時會拋異常。

2、自定義分割槽（Partitioner）

Mapreduce中會將maptask輸出的kv對，預設（HashPartitioner）根據key的hashcode%reducetask數來分割槽。
（1）如果要按照我們自己的需求進行分組，則需要改寫資料分發元件Partitioner繼承抽象類：Partitioner。
（2）在job物件中，設job.setPartitionerClass(自定義分割槽類.class)

import java.util.HashMap;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;
/**
 * @author zzw
 * map端的輸出型別為(Text,Text),這裡自定的分割槽策略為key的首位如果為1,則進入0號分割槽;如果為2,則進入1號分割槽;如果是3則進入2號分割槽
 * 假設資料為:
 * 1367788000   hahaah
 * 2342344234   xiaomei
 * 3324234234   zzzz
 * 6666668888   wwww
 * 7777777777   ssss
 */
public class CustomPartitioner extends Partitioner<Text,Text>{
    static HashMap<String, Integer> numMap = new HashMap<String, Integer>();
    static {
        numMap.put("1", 0);
        numMap.put("2", 1);
        numMap.put("3", 2);
    }
    /*
     * 1)numPartitions其實我們可以設定,在job.setNumReduceTasks(n)設定。
     * 2)如果我們job.setNumReduceTasks(5),那麼這裡的numPartitions=5,那麼預設的HashPartitioner的機制就是用key的hashcode%numPartitions來決定分割槽屬於哪個分割槽，所以分割槽數量就等於我們設定的reduce數量5個。
     */
    @Override    
    public int getPartition(Text key, Text value, int numPartitions) {
        Integer hash = numMap.get(key.toString().substring(0, 1));
        //將沒有匹配到的資料放入3號分割槽
        return hash==null?3:hash;
    }
}

3、自定義分組（GroupingComparator）

假設我們將上面自定義的Person（bean）作為key傳送給reduce，而在reduce端我們希望將年齡相同的kv聚合成組，那麼就可以如下方式實現。
自定義分組要繼承WritableComparator，然後重寫compare方法。
定義完成後要設定job.setGroupingComparatorClass(CustomGroupingComparator.class);

import org.apache.hadoop.io.WritableComparable;
import org.apache.hadoop.io.WritableComparator;

public class CustomGroupingComparator extends WritableComparator{
    protected CustomGroupingComparator() {
        super(Person.class, true);
    }
    @Override
    public int compare(WritableComparable a, WritableComparable b) {
        Person abean = (Person) a;
        Person bbean = (Person) b;
        //將item_id相同的bean都視為相同，從而聚合為一組
        return abean.getAge()-bbean.getAge();
    }
}

Hadoop完全分散式用MapReduce實現自定義排序、分割槽和分組

經過前面一段時間的學習，簡單的單詞統計已經不能實現更多的需求，就連自帶的一些函式方法等也是跟不上節奏了；加上前面一篇MapReduce的底層執行步驟的瞭解，今天學習自定義的排序、分組、分割槽相對也特別容易。認為不好理解，先參考一下前面的一篇：https://bl

MapReduce的自定義排序、分割槽和分組

1.自定義排序（WritableComparable）我們寫mr程式來處理文字時，經常會將處理後的資訊封裝到我們自定義的bean中，並將bean作為map輸出的key來傳輸。上一文我用圖解分析了mr程式的基本流程。而mr程式會在處理資料的過程中（傳輸到re

Hadoop完全分散式下實現自定義排序、分割槽和分組

經過前面一段時間的學習，簡單的單詞統計已經不能實現更多的需求，就連自帶的一些函式方法等也是跟不上節奏了；加上前面一篇MapReduce的底層執行步驟的瞭解，今天學習自定義的排序、分組、分割槽相對也特別容易。自定義排序自定義的排序有許多許多，根據不同的業務需

MapReduce自定義排序、分割槽、分組案例

一、題目資料：由於資料量比較大，放入百度網盤中連結: https://pan.baidu.com/s/13vHZ1v7Rw2Vbb5wZrWX0cA 提取碼: 6qug 欄位說明班級學號

mapreduce，自定義排序，分割槽，分組實現按照年份升序排序，溫度降序排序

自定義類： package myhadoop; import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.Wr

Flume自定義Source、Sink和Interceptor(簡單功能實現)

next generated lose 指定 char atomic -i 根據進行　　1.Event　　　　event是flume傳輸的最小對象，從source獲取數據後會先封裝成event，然後將event發送到channel，sink從channel拿event消

（七）MapReduce自定義型別及分割槽演算法

需求有以下資料：電話 | 地區 | 姓名 | 使用流量三個reduce生成三個檔案，按照地區來分割槽，得到每個人使用流量的彙總結果。 13877779999 bj zs 2145 13766668888 sh ls 1028 13766668888 sh ls 9987 1387

Android——EditText自定義邊框、圓角和其常用屬性總結

看下效果圖：執行步驟：首先在/res/layout資料夾下建立custom_et_layout.xml佈局檔案，原始碼如下： <?xml version="1.0" encoding="utf-8"?> <RelativeLayout xmlns:

微信分享網頁時自定義標題、描述和圖片

用微信開啟一個網頁，選擇右上角的“傳送給朋友”後，收到的訊息是這樣的：而為了推廣效果，我們更希望能自定義標題、描述和圖片，效果如下圖：下面介紹下怎樣來實現這個功能<script type="text/javascript" src="http://res.wx.qq.c

自定義UITabBarController、UITabBar和UIButton

通常情況下，在實際開發過程中經常需要自定義UITabBarController，並且很有可能還涉及到自定義UITabBar和UIButton的情況。就以閒魚為例，我們嘗試著模仿一下它。為了更好的演示和說明，整個演示專案都將使用純程式碼來搭建。所以

異常的形式、自定義異常、throw和throws的區別

異常的撲捉： 1、try{可能出現異常的程式碼塊}catch(Exception e){} 2、在出現異常的方法的方法名後throws Exception 自定義異常： public class MyThrows extends Exception{

android開發之自定義屬性、View和使用

“自定義”這三字聽起來就像是一個高階程式設計師所擁有的一樣！太不接地氣了！come on，baby，讓我們成為高階程式設計師吧！哈哈！第一步：首先建立一個工程專案，在專案中的res/values/下建立atts.xml檔案，在該檔案中： <?xml version

微信瀏覽器分享到朋友圈自定義標題、描述和圖片，檢視圖片可伸縮、儲存

/* * 在微信瀏覽器可伸縮檢視圖片，並儲存 * +----------------------------------+ * 單圖模式，src須為絕對路徑 * +-----------------

mapreduce自定義分組、自定義分割槽、二次排序

mapreduce中二次排序的思想中，我們常常需要對資料的分割槽分組進行自定義，以下就介紹一下自定義分割槽分組的簡單實現 1、自定義分割槽： public class demoPartitioner<K, V> extends Partitioner<

Mapreduce中的自定義型別、分組與二次排序

0、需求說明資料格式期望輸出的結果做簡單分析： a. 由於只有兩列，所以可以將map的InputFormat設定為KeyValueTextInputFormat b. 事實上這裡實現了兩個排序，即對輸出的k

MapReduce自定義分割槽partition的作用和用法

預設分割槽數量為 key.hash%reducetask的個數自定義分割槽自己定義的自定義分割槽很簡單，我們只需要繼承抽象類Partitioner，重寫getPartition方法即可，另外還要給任務設定分割槽：

織夢按權重排序和自定義排序

load ima row idt last 教程 syn 模板文件而已【按權重排序】 dede:list 的方法 1、找到"根目錄\include\arc.listview.class.php"文件。 2、修改代碼：在文件第727行處添加按weight排序判斷代碼(紅色

zabbix的主動模式和被動模式、添加監控主機、添加自定義模板、處理圖形中的亂碼、自動發現

roo 清理瀏覽器間隔原型 fin 監測 9.png sim 主動模式和被動模式主動或者被動是相對客戶端來講的被動模式，服務端會主動連接客戶端獲取監控項目數據，客戶端被動地接受連接，並把監控信息傳遞給服務端主動模式，客戶端會主動把監控數據匯報給服務端，服務

主動模式和被動模式、添加監控主機、添加自定義模板、自動發現

自定義模板上傳點擊中文 path face pla interface 文字 19.7 主動模式和被動模式主動或被動是相對客戶端來講的被動模式，服務端會主動連接客戶端獲取監控項目數據，客戶端被動地接收連接，並把監控信息傳遞給服務端主動模式，客戶端會主動把監控數

Java排序方法--List，數組，【自定義】繼承Comparable和Comparator

pri locale student ide abcdefg 接口 com main object （一）list和數組 ①List默認排序代碼： public static void main(String[] args) { List<String>

MapReduce的自定義排序、分割槽和分組

1.自定義排序（WritableComparable）

2、自定義分割槽（Partitioner）

3、自定義分組（GroupingComparator）

相關推薦