自定義MapReduce業務邏輯

阿新 • • 發佈：2018-12-20

1.我們剛一開始的時候，在HDFS上面處理檔案時候，我們並沒有自己寫MapReduce，而是用的是映象架包下面的/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar，同樣的也將執行出來結果（hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount 檔案的在Linux上的源路徑檔案處理後結果存放在HDFS上的路徑）

例如：hadoop jar hadoop-mapreduce-examples-2.6.4.jar wordcount /root/wordcount.txt

/wordcount/input

這其實是hadoop架包裡面自帶的一個Mapreduce的demo例項，紅色是我們要執行的主方法名，通常我們在例項中需要寫絕對路徑；黃色是我們將要處理的檔案在Linux上的絕對路徑；綠色是我們處理後文件，得到的結果儲存的位置（指的是儲存在HDFS上的絕對路徑，並且這個路徑在HDFS上不能存在，當執行命令的時候回自動建立，如果存在程式會包錯誤）

2.往往在實際開發中我們需要自己寫MapReduce的業務邏輯，hadoop架包裡的已經不能滿足我們的多樣化需求了，下面就介紹如何去customMapReduce

我們在建立專案時候可以選擇maven也可以選擇javaProject，maven比較簡單直接從aliyun倉庫線上下載架包即可，Javaproject則需要我們機子手動搭建所需架包，

首先將你的cenos-6.5-hadoop-2.6.4架包解壓，
進入\cenos-6.5-hadoop-2.6.4\hadoop-2.6.4\share\hadoop;將common下面lib下的+sources下的+hadoop-common-2.6.4+hdfs下面的lib下面的+sources下面的+hadoop-hdfs-2.6.4匯入buildpath下面
\cenos-6.5-hadoop-2.6.4\hadoop-2.6.4\share\hadoop\mapreduce\下面的全部架包匯入buildpath下面
最後apply一下就可以

3.例項：統計每一個使用者的使用總流量

此案例我們以物件的形式在網路間傳輸，所以要想在網路間傳輸，我們就要對物件進行序列化，正好hadoop內部封裝有序列化介面，我們只需要實現這個介面即可WritableComparable

public class TelBean implements WritableComparable<TelBean> {

	private String tel;使用者電話號碼
	private Long upPayLoad;上行流量
	private Long downPayLoad;下行流量
	private Long totalPayLoad;總流量=上行+下行

	public String getTel() {
		return tel;
	}

	public void setTel(String tel) {
		this.tel = tel;
	}

	public Long getUpPayLoad() {
		return upPayLoad;
	}

	public void setUpPayLoad(Long upPayLoad) {
		this.upPayLoad = upPayLoad;
	}

	public Long getDownPayLoad() {
		return downPayLoad;
	}

	public void setDownPayLoad(Long downPayLoad) {
		this.downPayLoad = downPayLoad;
	}

	public Long getTotalPayLoad() {
		return totalPayLoad;
	}

	public void setTotalPayLoad(Long totalPayLoad) {
		this.totalPayLoad = totalPayLoad;
	}


//序列化
	@Override
	public void readFields(DataInput in) throws IOException {
		// TODO Auto-generated method stub
		this.tel = in.readUTF();
		this.upPayLoad = in.readLong();
		this.downPayLoad = in.readLong();
		this.totalPayLoad = in.readLong();
	}
//反序列化
	@Override
	public void write(DataOutput out) throws IOException {
		// TODO Auto-generated method stub
		out.writeUTF(tel);
		out.writeLong(upPayLoad);
		out.writeLong(downPayLoad);
		out.writeLong(totalPayLoad);
	}
//物件之間的比較，排序
	@Override
	public int compareTo(TelBean bean) {
		// TODO Auto-generated method stub
		if (this.getTotalPayLoad() > bean.getTotalPayLoad()) {
			return -1;
		} else if (this.getTotalPayLoad() < bean.getTotalPayLoad()) {
			return 1;
		} else {
			if (this.getDownPayLoad() > bean.getDownPayLoad()) {
				return -1;
			} else {
				return 1;
			}
		}
	}

	@Override
	public String toString() {
		return tel + "\t" + upPayLoad + "\t" + downPayLoad + "\t" + totalPayLoad;
	}

	public TelBean(String tel, Long upPayLoad, Long downPayLoad, Long totalPayLoad) {
		super();
		this.tel = tel;
		this.upPayLoad = upPayLoad;
		this.downPayLoad = downPayLoad;
		this.totalPayLoad = totalPayLoad;
	}

	public TelBean() {
		super();
		// TODO Auto-generated constructor stub
	}

	public TelBean(Long upPayLoad, Long downPayLoad, Long totalPayLoad) {
		super();
		this.upPayLoad = upPayLoad;
		this.downPayLoad = downPayLoad;
		this.totalPayLoad = totalPayLoad;
	}

}

4.重寫Mapper,同樣只需要繼承hadoop內部封裝好的Mapper類即可，要注意的要在網路間傳輸，一切都要序列化，string對應的序列化後是text，int序列化後是IntWritable,long序列化後LongWritable等等

LongWritable指的是獲取一行內容的起始偏移量
Text指的是一行文字內容
Text指的是我們將要輸出的tel
TelBean指的是以物件的形式進行輸出
public class TCMapper extends Mapper<LongWritable, Text, Text, TelBean>{

	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, TelBean>.Context context)
			throws IOException, InterruptedException {
		// TODO Auto-generated method stub
獲取一行資訊
		String line = value.toString();
		將單詞以\t進行分割
		String[] fields = line.split("\t");
		例項化物件
		TelBean bean = new TelBean(fields[1],Long.valueOf(fields[8]),Long.valueOf(fields[9]),new Long(0));
		設定將要傳送給reduce的資料形式
		context.write(new Text(fields[1]), bean);
	}
}

5.對於Reduce同樣hadoop內部封裝有Reducer

注意的是map的輸出就是reduce的輸入
Text指的是map傳送過來的keyout，在這裡是keyin

我們最後想要的結果肯定是手機號對應的上行，下行，總流量
所以text數字的是tel
其他的封裝在telBean裡面

public class TCReducer extends Reducer<Text, TelBean, Text, TelBean>{

	@Override
	protected void reduce(Text key, Iterable<TelBean> value, Context context)
			throws IOException, InterruptedException {
		// TODO Auto-generated method stub
//		做統計
		long sumUp = 0;
		long sumDown = 0;
		
		for (TelBean bean : value) {
			sumUp += bean.getUpPayLoad();
			sumDown += bean.getDownPayLoad();
		}
		
//		telBean的屬性應該與log一一對應
//		當前的bean應該是一個新的bean
		TelBean bean = 
				new TelBean(sumUp, sumDown, sumUp+sumDown);
		
		context.write(new Text(key), bean);
	}
}

6.如果我們想將所有手機號前三位為135或者136的手機號令存放一個檔案，代表的是同一個歸屬地的手機號，那麼我們要用到partitioner分割器

map -- suffer -- reduce
map的輸出是suffer的輸入

public class TCPartitioner extends Partitioner<Text, TelBean>{

	@Override
	public int getPartition(Text key, TelBean bean, int arg2) {
		// TODO Auto-generated method stub

//生成的檔案part-r-00000 part的編號的結尾就是這個int型別的返回值
//根據不同的電話號碼 ，劃分到不同的區裡面

		String tel = bean.getTel();
		
		String subTel = tel.substring(0, 3);
		
		if ("135".equals(subTel)||"136".equals(subTel)) {
			return 1;//part-r-00001裡面
		}
		return 0;
	}

}

7.建立job

public class TCAPP {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
//		獲取job
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);
		
//		指定job使用的類
		job.setJarByClass(TCAPP.class);
		
//		將partitioner新增到job裡面
		job.setPartitionerClass(TCPartitioner.class);
//		設定reduceTasks的數量 有幾個分割槽設定幾個任務
		job.setNumReduceTasks(2);
		
//		設定mapper的類以及屬性
		job.setMapperClass(TCMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(TelBean.class);
		
//		設定reduce的類以及屬性
		job.setReducerClass(TCReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(TelBean.class);
		
//		設定輸入檔案 在呼叫的時候動態的傳遞引數
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		
//		設定輸出目錄
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
//		提交任務
		job.waitForCompletion(true);
	}
}

8.將你當前的專案打包

9.啟動hadoop叢集

10.上傳要處理的檔案和打好的包到Linux下

11.將要處理的檔案上傳到HDFS根目錄下

hadoop fs -put /root/要處理的檔名+字尾 / (/代表的是hdfs根目錄)

12.將hadoop的前端頁面開啟，觀察是否上傳成功

13.執行架包

hadoop jar 架包名我們住方法絕對路徑我們上傳在HDFS裡面要處理的檔案絕對路徑處理結果存放在HDFS裡面的絕對路徑

實際開發中要確保處理檔案的時間大於HDFS啟動的時間，要記住hadoop不適合處理小檔案

14.前端頁面檢視是否成功

_SUCCESS只是一個標識，代表執行成功

part-r-000001則是我們要求的手機號碼為135或者136開頭的存放在一個檔案中

注意：hadoop不適合處理小檔案，實際開發中要避免多個小檔案的產生，在源頭進行處理，將小檔案合併，或者是在map階段將小的分割槽內容進行適當合併，減少reduce階段的處理壓力。

自定義MapReduce業務邏輯

1.我們剛一開始的時候，在HDFS上面處理檔案時候，我們並沒有自己寫MapReduce，而是用的是映象架包下面的/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.6.4.jar，同樣的也將執行出來結果（hadoop jar hadoop-ma

Spring Cloud Stream消費失敗後的處理策略（二）：自定義錯誤處理邏輯

應用場景上一篇《Spring Cloud Stream消費失敗後的處理策略（一）：自動重試》介紹了預設就會生效的訊息重試功能。對於一些因環境原因、網路抖動等不穩定因素引發的問題可以起到比較好的作用。但是對於諸如程式碼本身存在的邏輯錯誤等，無論重試多少次都不可能成功的問題，是無法修復的。對於這樣的情況，前文

結合案例講解MapReduce重要知識點 ----------- 自定義MapReduce資料型別（1）重寫Writable介面

重寫Writable介面如下程式碼就是自定義mr資料型別，在wordcount類使用它。 WordCountWritable import java.io.DataInput; import java.io.DataOutput; import java.io.IOE

結合案例講解MapReduce重要知識點 ------- 使用自定義MapReduce資料型別實現二次排序

自定義資料型別SSData import java.io.DataInput; import java.io.DataOutput; import java.io.IOException; import org.apache.hadoop.io.WritableCompa

MapReduce資料型別及自定義MapReduce資料型別

MapReduce資料型別資料型別都要實現Writable介面，以便用這些型別定義的資料可以被序列化進行網路傳輸和檔案儲存。自定義key資料型別的時候，因為需要對key進行排序，需要繼承java中的比較器，所以可以直接繼承WritableComparable

django 自定義登入驗證邏輯

本文的django view採用的是基於cbv的模式 django中的登入功能主要涉及到django.contrib.auth這個包，它提供了2個重要的函式：authenticate和login。 django.contrib.auth.authenti

java中異常處理機制 throw拋出自定義業務邏輯異常 throws繼續拋出 catch捕獲後會自動繼續拋向調用方法

異常處理機制 ... cep super finally sta exc ace 避免 package com.swift; public class Exception_TestC { public static void main(String[] arg

MapReduce實戰：自定義輸入格式實現成績管理

stat app 註意 false exce 考試成績 fileinput collect 劃分 1. 項目需求　　我們取有一份學生五門課程的期末考試成績數據，現在我們希望統計每個學生的總成績和平均成績。樣本數據如下所示，每行數據的數據格式為：學號、

動態加載jar，實現自定義業務

讀取 bool AR sta instance snapshot pub 加載 set 在實際業務中，我們經常會遇到需要按不同用戶實現不同業務邏輯，如果按照最簡單粗暴的做法，當然是使用if else ...來實現。不過作為一個社會人，這樣怎麽能體現出我們的戰鬥力呢，下面

46.Odoo產品分析 (五) – 定制板塊(2) – 為業務自定義odoo(1)

關聯分配 databases 操作產品生成不同業務 ron 查看Odoo產品分析系列—-目錄在這一章節中，將學習到如何設置"開發者模式"以及備份數據庫；然後學習如何添加字段到數據庫並在表單和視圖中顯示。 1 了解odoo的構架

Hadoop完全分散式用MapReduce實現自定義排序、分割槽和分組

經過前面一段時間的學習，簡單的單詞統計已經不能實現更多的需求，就連自帶的一些函式方法等也是跟不上節奏了；加上前面一篇MapReduce的底層執行步驟的瞭解，今天學習自定義的排序、分組、分割槽相對也特別容易。認為不好理解，先參考一下前面的一篇：https://bl

Sybase還原資料庫，業務表為其他使用者所屬，怎樣變更表所有者為自定義使用者。。

SYBASE資料庫技術,資料庫恢復前言：ASE 15.7 新增了命令可以將資料庫物件的所有權從一個所有者移交給另一個所有者。比如將表customer的所有權從dbo移交給bill，使用命令： alter table dbo.customer modify owner bill 不僅僅

MapReduce 自定義屬性類（輸出電話號對應的上行，下行流量及其總計，並排序）

MapReduce 自定義屬性類注意要點：無參構造方法繼承 Writable類重寫write() readFields()方法相關錯誤： java.lang.Exception: java.lang.RuntimeExceptio

springboot mybaits-plus Sql 注入器自定義邏輯刪除

1 寫一個類繼續 AbstractLogicMethod public class LogicDeleteByWrapper extends AbstractLogicMethod { @Override public MappedStatement injectMappedS

MapReduce常見演算法與自定義排序及Hadoop序列化

MapReduce常見演算法 •單詞計數 •資料去重 •排序 •Top K •選擇　　以求最值為例，從100萬資料中選出一行最小值 •投影　　以求處理手機上網日誌為例，從其11個欄位選出了五個欄位(列)來顯示我們的手機上網流量 •分組　　相當於分割槽，以求處理手機上網日誌為例，喊手機號和非手

金蝶bos 自定義UI介面新增複選框控制元件，並且做業務處理

/** * 顯示工程型別 * @author daihao *

HBase之自定義HBase-Mapreduce案例一

1.需求場景將HBase中的ys表中的一部分資料通過Mapreduce遷移到ys_mr表中 2.程式碼編寫 1)構建ReadysMapreduce類，用於讀取ys表中的資料 package cn.ysjh; import java.io.IOException;

SharePoint Entity Framework 3 – 自定義轉換邏輯

前兩篇文章介紹瞭如何使用SharePoint Entity Framework來關聯和轉換SharePoint內建欄位。此外，SharePoint Entity Framework還提供了幾種擴充套件機制來幫助我們自定義轉換邏輯、適配自定義欄位以及自定義屬性型別。自定義轉換邏輯在第一篇文

MapReduce中自定義分割槽

package tq; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.mapreduce.Partitioner; public class MyPartition extends Partitioner<

MapReduce中自定義比較

package tq; import org.apache.hadoop.io.WritableComparable; import org.apache.hadoop.io.WritableComparator; public class MySortComparator extends W

自定義MapReduce業務邏輯

2.往往在實際開發中我們需要自己寫MapReduce的業務邏輯，hadoop架包裡的已經不能滿足我們的多樣化需求了，下面就介紹如何去customMapReduce

3.例項：統計每一個使用者的使用總流量

4.重寫Mapper,同樣只需要繼承hadoop內部封裝好的Mapper類即可，要注意的要在網路間傳輸，一切都要序列化，string對應的序列化後是text，int序列化後是IntWritable,long序列化後LongWritable等等

5.對於Reduce同樣hadoop內部封裝有Reducer

6.如果我們想將所有手機號前三位為135或者136的手機號令存放一個檔案，代表的是同一個歸屬地的手機號，那麼我們要用到partitioner分割器

7.建立job

8.將你當前的專案打包

9.啟動hadoop叢集

10.上傳要處理的檔案和打好的包到Linux下

11.將要處理的檔案上傳到HDFS根目錄下

12.將hadoop的前端頁面開啟，觀察是否上傳成功

13.執行架包

14.前端頁面檢視是否成功

相關推薦