（七）MapReduce自定義型別及分割槽演算法

阿新 • • 發佈：2018-12-18

需求

有以下資料：電話 | 地區 | 姓名 | 使用流量

三個reduce生成三個檔案，按照地區來分割槽，得到每個人使用流量的彙總結果。

13877779999 bj zs 2145
13766668888 sh ls 1028
13766668888 sh ls 9987
13877779999 bj zs 5678
13544445555 sz ww 10577
13877779999 sh zs 2145
13766668888 sh ls 9987

涉及的知識點

編寫Map元件，Reduce元件
編寫自定義的類作為輸入輸出型別
編寫自定義的分割槽類
設定ReduceTask的數量

MR會對Mapper輸出key預設做排序

程式碼實現

package hadoop;

import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

import org.apache.hadoop.io.Writable;

//使用者自定義的javabean，必須實現hadoop的Writable序列化機制
public class JavaBeanDemo implements Writable {
	private String phone;
	private String address;
	private String name;
	private long flow;
	
	//序列化方法
	@Override
	public void write(DataOutput out) throws IOException {
		out.writeUTF(phone);
		out.writeUTF(address);
		out.writeUTF(name);
		out.writeLong(flow);
	}
		
	//反列化方法
	//反序列化與序列化的順序必須一致
	@Override
	public void readFields(DataInput in) throws IOException {
		this.phone = in.readUTF();
		this.address = in.readUTF();
		this.name = in.readUTF();
		this.flow = in.readLong();
	}

	public String getPhone() {
		return phone;
	}

	public void setPhone(String phone) {
		this.phone = phone;
	}

	public String getAddress() {
		return address;
	}

	public void setAddress(String address) {
		this.address = address;
	}

	public String getName() {
		return name;
	}

	public void setName(String name) {
		this.name = name;
	}

	public long getFlow() {
		return flow;
	}

	public void setFlow(long flow) {
		this.flow = flow;
	}

	@Override
	public String toString() {
		return "JavaBeanDemo [phone=" + phone + ", address=" + address + ", name=" + name + ", flow=" + flow + "]";
	}
	
}

package hadoop;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Partitioner;

public class PartitionDemo extends Partitioner<Text, JavaBeanDemo>{

	//根據地點對資料分割槽，分別傳給對應的reduce
	@Override
	public int getPartition(Text key, JavaBeanDemo value, int numPartitions) {
		if(value.getAddress().equals("bj")) {
			return 0;
		}else if(value.getAddress().equals("sh")) {
			return 1;
		}else if(value.getAddress().equals("sz")) {
			return 2;
		}else{
			return 3;
		}
	}

}

package hadoop;

import java.io.IOException;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

//開發Mapper元件，讓該類繼承Mapper
/*四個泛型的含義：前面兩個泛型型別是固定的，後面兩個是根據需求來決定的
  				 Mapper輸入key型別（key是每行行首偏移量）
				 Mapper輸入value型別（value是每行的內容）
				 Mapper輸出key型別
				 Mapper輸出value型別
*/				 
public class MapperDemo extends Mapper<LongWritable, Text, Text, JavaBeanDemo>{
	
	/*
	 * Mapper元件通過map方法，將輸入key和value傳給開發者
	 * 利用context.write(key, value)可以輸出key和value
	 */
	@Override
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, JavaBeanDemo>.Context context)
			throws IOException, InterruptedException {
		 
		String line=value.toString();
		String[] data=line.split(" ");
		
		JavaBeanDemo jbd=new JavaBeanDemo();
		jbd.setPhone(data[0]);
		jbd.setAddress(data[1]);
		jbd.setName(data[2]);
		jbd.setFlow(Long.parseLong(data[3]));
		//輸出{名字，javabeandemo物件}
		context.write(new Text(jbd.getName()), jbd);
	}
}

package hadoop;

import java.io.IOException;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/*
 * 四個泛型：前面兩個對應了Mapper的輸出key，value，後面兩個根據需求決定
 * 			Reducer輸入key型別（值為Mapper輸出key）
 * 			Reducer輸入value型別（值為Mapper輸出value）
 * 			Reducer輸出key型別
 * 			Reducer輸出value型別
 */
public class ReducerDemo extends Reducer<Text, JavaBeanDemo, Text, JavaBeanDemo>{
	
	@Override
	protected void reduce(Text key, Iterable<JavaBeanDemo> values,
			Reducer<Text, JavaBeanDemo, Text, JavaBeanDemo>.Context context) throws IOException, InterruptedException {
		JavaBeanDemo jbd = new JavaBeanDemo();
		
		//把相同的人，使用的流量相加後再封裝
		for(JavaBeanDemo jbdTmp : values){
			jbd.setFlow(jbd.getFlow()+jbdTmp.getFlow());
			jbd.setPhone(jbdTmp.getPhone());
			jbd.setName(jbdTmp.getName());
			jbd.setAddress(jbdTmp.getAddress());
		}
		
		context.write(new Text(key), jbd);
		
	}
}

package hadoop;


import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class Driver {
	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		
		//建立MR job物件
		Job job = Job.getInstance(conf);
		
		//設定job的執行主類（main）入口
		job.setJarByClass(Driver.class);
		
		//設定Mapper元件類
		job.setMapperClass(MapperDemo.class);
		
		//設定Mapper的輸出key和value型別
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(JavaBeanDemo.class);
		
		//設定Reducer元件類
		job.setReducerClass(ReducerDemo.class);
		
		//設定Reducer輸出key和value型別
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(JavaBeanDemo.class);
		
		//設定自定義分割槽的類
		job.setPartitionerClass(PartitionDemo.class);
		
		//設定reduce task的數量，如果不設定，預設是一個
		job.setNumReduceTasks(3);
		
		//設定待處理檔案的HDFS路徑（檔案或資料夾）
		FileInputFormat.setInputPaths(job, new Path("hdfs://192.168.80.100:9000/mrTestDir"));
		
		//設定輸出結果的檔案路徑（該目錄事先不能存在，否則報錯）
		FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.80.100:9000/mrTestDir/result"));
		
		//提交job
		job.waitForCompletion(true);
	}
}

（七）MapReduce自定義型別及分割槽演算法

需求有以下資料：電話 | 地區 | 姓名 | 使用流量三個reduce生成三個檔案，按照地區來分割槽，得到每個人使用流量的彙總結果。 13877779999 bj zs 2145 13766668888 sh ls 1028 13766668888 sh ls 9987 1387

（九）MapReduce自定義檔案讀取和輸出元件

作用自定義檔案讀取讀取檔案時，預設是使用讀取器 LineRecoredReader<行首偏移量，每行內容>，每讀取一次，把key和value傳給開發者開發的Mapper元件。現在自定義檔案讀取器，可以自定義讀取檔案的方法，這樣就可以調整傳遞給Mapper元件的

JavaSE基礎學習（七）——如何自定義方法

1. 方法 1.1 方法概述經過前幾節的學習，相信大家都有了一定的編碼基礎，而且我們的執行程式碼都是寫在主方法 main 裡面的，接下來我們介紹一下自定義方法是如何實現的呢？假設有一個遊戲程式，

搭建自己的部落格（二十七）：自定義使用者模型

2、變化的部分 {% load staticfiles %} <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <!--

佇列——順序儲存的迴圈佇列（儲存元素為自定義型別）

相比儲存預設型別的迴圈佇列，首先我們需要自定義儲存的類。自定義顧客類（Customer.h） #pragma once #include<string> using names

SODBASE CEP學習（十七）：自定義函式開發

前面的文章已經多次提到自定義函式，對JAVA開發熟悉的讀者，只要自己實現一個類的public方法，就可以當做自定義函式在EPL中使用。部署時，程式碼然後打成jar包放到lib目錄下即可。如果對這個流程不熟悉也不要緊，本文提供一個示例，按步驟就可以做自定義函式 1 使用場景

【轉】Spring MVC系列（五）之自定義數據綁定---HandlerMethodArgumentResolver

開閉 src pat 獲取參數 mvc .net 定義開閉原則淺析介紹前面幾節我們介紹了Spring MVC的幾種常見的數據綁定的方法，可以靈活地獲取用戶請求中的參數，例如@PathVariable，@ModelAttribute，@RequestPar

（轉）JVM——自定義類加載器

tails alloc cat .class 網上一個 str int 運行背景：為什麽要自定義，如何自定義，實現過程轉載：http://blog.csdn.net/SEU_Calvin/article/details/52315125 0. 為什麽需要自定義類加

Android項目實戰（十）：自定義倒計時的TextView

初始 als time class nts 時間自定義計時 err 原文:Android項目實戰（十）：自定義倒計時的TextView項目總結 --------------------------------------------------------------

每天學點SpringCloud（三）：自定義Eureka集群負載均衡策略

log util domain 避免 can val 如果 dba filters 相信看了每天學點SpringCloud（一）：簡單服務提供者消費者調用，每天學點SpringCloud（二）：服務註冊與發現Eureka這兩篇的同學都了解到了我的套路，沒錯，本篇博客同樣是

Android開發教程 - 使用Data Binding（八）使用自定義Interface

extend 方便獲取 ble main implement lec click 簡單為什麽要使用自定義Interface 我們平常在Android的開發中，比如如果要設置一個View的點擊事件，通常通過view.setOnClickListener()來實現的，這

[Golang] 從零開始寫Socket Server（2）：自定義通訊協議

在上一章我們做出來一個最基礎的demo後，已經可以初步實現Server和Client之間的資訊交流了~ 這一章我會介紹一下怎麼在Server和Client之間實現一個簡單的通訊協議，從而增強整個資訊交流過程的穩定性。

Python基礎（1）：基本資料型別及變數

資料型別：包括整形，長整型（Python 3不支援），浮點型，複數。 type()方法可以檢視變數型別。整形範圍：-2^32——2^32-1 長整型範圍：取決於你的機器所支援的記憶體大小。（Python3中整形和長整型已無縫結合，整形範圍已不受限制，相當於Java中的BigInt

大資料入門（11）mr自定義分組和切片劃分

public class AreaPartitioner<KEY, VALUE> extends Partitioner<KEY, VALUE>{ private static HashMap<String,Integer> areaMa

Java8 - 定製歸一化收集器（reducing）得到自定義結果集

reducing簡介 reducing 是一個收集器（操作），從字面意義上可以理解為“減少操作”：輸入多個元素，在一定的操作後，元素減少。 reducing 有多個過載方法，其中一個方法如下： public static <T> Collector<T

iOS開發簡記（2）：自定義tabbar

tabbar是放在APP底部的控制元件。常見的APP都使用tabbar來進行功能分類的管理，比如微信、QQ等等。小程需要一個特殊一點的tabbar，要求突顯中間的那個按鈕，讓中間按鈕特別顯眼，從而引導使用者去點選。所以，讓中間按鈕大於兩邊的按鈕，是一個基本的要求。使用常規的UITabBar跟UIT

Android學習（十）—— Android自定義控制元件

Android自定義控制元件安卓在使用中大多數使用已有的一些控制元件，用法比較簡單，還有一部分是比較複雜的、使用者自己想的控制元件，這些就需要進行自定義控制元件，今天就來簡單說一下自定義控制元件。 1、繪製過程建立一個類，繼承View類 onMeasure()方法，測量計算檢視的大小

（轉）C# 自定義使用者控制元件

C# 自定義使用者控制元件轉：https://blog.csdn.net/xiongxuanwen/article/details/2605109 本例是製作一個簡單的自定義控制元件，然後用一個簡單的測試程式，對於初學者來說，本例子比較簡單，只能起到拋石引玉的效

springboot框架開發微信公眾號（四）之自定義選單的使用

關於自定義選單，微信為我們提供了幾個介面分別是建立、查詢和刪除。我們平時使用最多的就是建立選單了，往往我們執行了建立選單的程式碼後，選單並不會當即在我們關注過的公眾號上顯示出來，我們可以通過重新關注的方法，來檢視我們建立或更改後的選單。下面就來跟筆者來學一學這些介面的使用方法吧一、由於這幾個介

跟廠長學PHP7核心（七）：常見變數型別的基本結構

上篇文章講述了變數的儲存結構zval，今天我們就來學習一下幾個常見變數型別的基本結構。一、型別一覽 zval中的u1.v.type用來儲存變數的型別，而zval.value儲存的是不同型別對應的值，所以type決定value取值的地方，以下是PHP7所定義的所有型別。 #define IS_UNDEF

（七）MapReduce自定義型別及分割槽演算法

需求

涉及的知識點

程式碼實現

相關推薦