hadoop[8]-使用自定義類處理資料

阿新 • • 發佈：2018-12-02

如果處理的資料結構比較複雜，最好自定義一個類來做mapper和reduce，自定義類需要注意的幾點：

實現org.apache.hadoop.io.Writable介面
需要提供無參建構函式
實現介面中的write和readFields方法
重寫toString方法

這裡以一個流量統計的示例舉例：

pom.xml中需要引入依賴：

<dependencies>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        < 
artifactId>hadoop-common</artifactId>
        <version>2.4.1</version>
    </dependency>
    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-mapreduce-client-core</artifactId>
        <version>2.4.1</version 
>
    </dependency>
</dependencies>

View Code

FlowBean：

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;
import org.apache.hadoop.io.Writable;

public class FlowBean implements Writable{
    private long upflow;
    private long dflow;
     
private long sumflow;
    
    // 因為反射機制的需要,必須定義一個無參的建構函式
    public FlowBean() {}

    public FlowBean(long upflow, long dflow) {
        this.upflow = upflow;
        this.dflow = dflow;
        this.sumflow = upflow + dflow;
    }
    
    public long getUpflow() {
        return upflow;
    }
    public void setUpflow(long upflow) {
        this.upflow = upflow;
    }
    public long getDflow() {
        return dflow;
    }
    public void setDflow(long dflow) {
        this.dflow = dflow;
    }

    public long getSumflow() {
        return sumflow;
    }

    public void setSumflow(long sumflow) {
        this.sumflow = sumflow;
    }

    // 序列化方法 將我們要傳輸的資料序列化成位元組流
    @Override
    public void write(DataOutput out) throws IOException {
        out.writeLong(upflow);
        out.writeLong(dflow);
    }

    // 反序列化的方法 從資料位元組流中恢復出各個欄位
    @Override
    public void readFields(DataInput in) throws IOException {
        upflow = in.readLong();
        dflow = in.readLong();
    }

    @Override
    public String toString() {
        return upflow + "\t" + dflow + "\t" + sumflow;
    }
}

View Code

FlowCountMapper：

import java.io.IOException;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.commons.lang.StringUtils;

public class FlowCountMapper extends Mapper<LongWritable, Text, Text, FlowBean>{
    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, FlowBean>.Context context)
            throws IOException, InterruptedException {
        String line = value.toString();
        String[] fields = StringUtils.split(line, "\t");
        
        String phone = fields[1];
        long upflow = Long.parseLong(fields[fields.length - 3]);
        long dflow = Long.parseLong(fields[fields.length - 2]);
        
        FlowBean bean = new FlowBean(upflow, dflow);
        context.write(new Text(phone), bean);
    }
}

View Code

FlowCountReducer：

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

public class FlowCountReducer extends Reducer<Text,FlowBean,Text,FlowBean>{
    @Override
    protected void reduce(Text key, Iterable<FlowBean> values, Context context) throws IOException, InterruptedException {
        long upflowsum = 0;
        long dflowsum = 0;

        for (FlowBean value : values) {
            upflowsum += value.getUpflow();
            dflowsum += value.getDflow();
        }

        FlowBean bean = new FlowBean(upflowsum, dflowsum);
        context.write(key, bean);
    }
}

View Code

FlowCountSubmitter：

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class FlowCountSubmitter {
    public static void main(String[] args) throws Exception {
        Job job = Job.getInstance(new Configuration());
        job.setJarByClass(FlowCountSubmitter.class);

        job.setMapperClass(FlowCountMapper.class);
        job.setReducerClass(FlowCountReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(FlowBean.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);

        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        job.waitForCompletion(true);
    }
}

View Code

之後打包，上傳到00伺服器，在00伺服器上準備好資料目錄和分析結果輸出目錄，並且上傳資料檔案到hadoop的srcdata路徑下

hadoop fs -mkdir -p /flow/output
hadoop fs -mkdir -p /flow/srcdata

執行：hadoop jar hadoop-mapreduce-customer-1.0.jar com.wange.FlowCountSubmitter /flow/srcdata /flow/output，引數分別為：main函式所在路徑、待分析的檔案所在的目錄、分析結果資料的目錄，執行完畢就可以看到結果了。

檢視yarn的web管理：http://hadoop-server-00:8088/cluster、hdfs的目錄web管理為：http://hadoop-server-00:50070

hadoop[8]-使用自定義類處理資料

如果處理的資料結構比較複雜，最好自定義一個類來做mapper和reduce，自定義類需要注意的幾點：實現org.apache.hadoop.io.Writable介面需要提供無參建構函式實現介面中的write和readFields方法重寫toString方法這裡以一個流量統

Hadoop學習筆記—5.自定義類型處理手機上網日誌

clas stat 基本手機上網 oop interrupt pil 依然手機號碼一、測試數據：手機上網日誌 1.1 關於這個日誌　　假設我們如下一個日誌文件，這個文件的內容是來自某個電信運營商的手機上網日誌，文件的內容已經經過了優化，格式比較規整，便於學習研究。

資料結構與演算法----自定義類中函式與資料成員

近期在梳理知識，做一個小結，希望自己能多多使用在標頭檔案中： enum sign {plus, minus}; class Accruency { public: Accruency(sign s = plus, unsigned long d = 0, unsigned in

Hadoop自定義型別處理手機上網日誌

job提交原始碼分析在eclipse中的寫的程式碼如何提交作業到JobTracker中的哪？ (1)在eclipse中呼叫的job.waitForCompletion(true)實際上執行如下方法　　connect(); 　　info = jobClient.submitJobInt

pytorch—ImageFolder/自定義類讀取圖片資料—Transform資料轉換

文章目錄一、torchvision 影象資料讀取 [0, 1] 二、torchvision 的 Transform 三、讀取影象資料類 3.1 class torchvision.d

自定義異常處理類及錯誤提示類的使用技巧

一.關於自定義處理異常類及聯合自定義錯誤提示類的使用 1.專案內自定義py檔案,使用者存放自定義的錯誤提示類 class BaseResponse(object): def __init__(self):

Hadoop MapReduce自定義資料型別

一自定義資料型別的實現 1.繼承介面Writable,實現其方法write()和readFields(), 以便該資料能被序列化後完成網路傳輸或檔案輸入/輸出； 2.如果該資料需要作為主鍵key使用，或需要比較數值大小時，則需要實現WritalbeComparable介面,實現其方法write(),re

【Qt】以QMap作為自定義類的靜態資料

類的公共資料有幾種儲存方式，其中一種為把資料作為一個類的靜態變數，這樣類的所有物件都可以訪問該資料，並且這個共享的資料只佔有在類的公共空間，不會因為物件的多少而增加儲存空間。例如： sutudent.h class Student { public: stati

java自定義異常處理類

/*** * 為什麼使用自定義異常? * 更加精確定位具體異常資訊 * * 繼承RuntimeException,實現RuntimeException的所有構造方法,就是一種自定義異常類 * */ public class ServiceException extends Runti

Hadoop學習筆記—5.自定義型別處理手機上網日誌

一、測試資料：手機上網日誌 1.1 關於這個日誌　　假設我們如下一個日誌檔案，這個檔案的內容是來自某個電信運營商的手機上網日誌，檔案的內容已經經過了優化，格式比較規整，便於學習研究。　　該檔案的內容如下（這裡我只截取了三行）： 1363157993044 18211575961 94-71-

自定義HttpMessageConverter處理多個不同陣列形式的JSON資料

需求在一個成績管理系統中，有實體類Score和實體類Student，現需要對這兩個實體類關聯的資料庫表分別進行批量插入，因而需要處理兩種不同的JSON資料（均為陣列形式），並轉換為相應的List。在兩種實體類http請求中，Student類中的成員變數與對應

Java集合框架篇-59-TreeSet儲存基本資料型別和自定義類物件

這篇開始，我們來學習Set介面的另外一個實現子類TreeSet。TreeSet一般是需要排序才使用的一種集合儲存方式，由於繼承了Set介面，TreeSet也能實現元素的唯一。下面通過兩個練習

自定義類通過屬性過濾資料（小技巧）

get_class_vars函式是獲取類的屬性，引數是字串，返回key-value陣列，foreach ($this as $k => &$v) 這樣的就不用一個一個$this->屬性寫了，&是取地址也就是C語言的指標

自定義類異常

http image log 技術分享分享 cnblogs 能夠 ima img 只放幾張圖片吧，自己能夠看明白就行了。 1. 2. 3. 4. 自定義類異常

自定義類型轉換器之TypeConverter

can con ont rto 方法 contex int 讓我 tor C#提供了很多類型轉換的方法如ConvertToInt、int.Parse、int.tryParse等等,這些方法都能將一個C#的基本數據類型轉換成另一個C#基本數據類型.那麽.既然如此,C#肯定

自定義錯誤處理

處理 all 信息誤報綁定 ont error () err 自己定義錯誤報告的處理方式。這裏主要是要介紹一個函數set_error_handler ()函數，裏面接受兩個參數(第一個參數是一個回調函數，第二個參數規定哪一個錯報報告級別顯示用戶定義的錯誤，默認值為E_

自定義事件處理函數

rem pan 時間函數 sna 自定義 n) cti .class ntb 解決了傳統事件處理函數的覆蓋問題、可讀性問題、this傳遞問題 1 //添加時間函數 2 function addEvent(obj,type,fn){ //obj相當

Lambda語句中創建自定義類型時，也可指定某種特定類型，方法是在new與{}之間寫上類型名稱

特定 pan sel lambda語句 lam {} where distinct select 如： var fc =...ChildFath = fc.Select(c => new Child_Father { child = c.child, father =

自定義類型的乘法口訣表

定義函數 stdio.h void ++ define oid 之前 scan warnings 之前有寫過乘法口訣表，這次利用函數，做一個可以自定義函數的代碼。 #define _CRT_SECURE_NO_WARNINGS 1#include<stdio.h>

Java自定義類加載和ClassPath類加載器

訪問 pub 需要委派 iat 定義 pro logs repl 1 自定義類加載器：實現規則：自定義類加載器，需要重寫findClass，然後通過調用loadClass進行類加載（loadClass通過遞歸實現類的雙親委派加載） package com.daxin

hadoop[8]-使用自定義類處理資料

相關推薦