Hadoop詳解(四)——Shuffle原理，Partitioner分割槽原理，Combiner程式設計，常見的MR演算法

阿新 • • 發佈：2019-02-08

package liuxun.hadoop.mr.dc;

import java.io.IOException;
import java.util.HashMap;
import java.util.Map;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Partitioner;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class DataCountPartition {

	public static class DCMapper extends Mapper<LongWritable, Text, Text, DataBean> {

		@Override
		protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
			// accept
			String line = value.toString();
			// split
			String[] fields = line.split("\t");
			String tel = fields[1];
			long up = Long.parseLong(fields[8]);
			long down = Long.parseLong(fields[9]);
			DataBean bean = new DataBean(tel, up, down);
			// send
			context.write(new Text(tel), bean);
		}

	}

	public static class DCReducer extends Reducer<Text, DataBean, Text, DataBean> {

		@Override
		protected void reduce(Text key, Iterable<DataBean> values, Context context)
				throws IOException, InterruptedException {
			long up_sum = 0;
			long down_sum = 0;
			for (DataBean bean : values) {
				up_sum += bean.getUpPayLoad();
				down_sum += bean.getDownPayLoad();
			}
			DataBean bean = new DataBean("", up_sum, down_sum);
			context.write(key, bean);
		}

	}

	public static class ProviderPartitioner extends Partitioner<Text, DataBean> {

		private static Map<String, Integer> prividerMap = new HashMap<String, Integer>();
		static {
			// 實際開發時是從資料庫載入這種對映關係的
			// 1：中國移動 2：中國聯通 3：中國電信
			prividerMap.put("135", 1);
			prividerMap.put("136", 1);
			prividerMap.put("137", 1);
			prividerMap.put("150", 2);
			prividerMap.put("159", 2);
			prividerMap.put("182", 3);
			prividerMap.put("183", 3);
		}

		// 此方法的返回值是分割槽號
		// key: mapper一次輸出的key 這裡是手機號
		// key: mapper一次輸出的Value 這裡是DataBean
		// numPartitions:分割槽數量，由Reducer的數量決定，啟動幾個Reducer就會有幾個partition
		@Override
		public int getPartition(Text key, DataBean value, int numPartitions) {
			// 根據手機號得到運營商 此處根據key進行分割槽，實際開發中也可以根據value進行分割槽
			String account = key.toString();
			String sub_acc = account.substring(0, 3);
			Integer code = prividerMap.get(sub_acc);
			if (code == null) {
				code  =0;
			}
			return code;
		}

	}

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		Job job = Job.getInstance(conf);

		job.setJarByClass(DataCountPartition.class);

		job.setMapperClass(DCMapper.class);
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(DataBean.class);
		FileInputFormat.setInputPaths(job, new Path(args[0]));

		job.setReducerClass(DCReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(DataBean.class);
		FileOutputFormat.setOutputPath(job, new Path(args[1]));

		job.setPartitionerClass(ProviderPartitioner.class);
		
		// 設定啟動Reducer的數量
		job.setNumReduceTasks(Integer.parseInt(args[2]));
		
		job.waitForCompletion(true);

	}

}

① 首先將日誌資料上傳至HDFS ② 將以上程式打包成WCP.jar —>上傳至Linux主機—>hadoop jar /日誌地址 /統計結果地址 /reducer數量

Hadoop詳解(四)——Shuffle原理，Partitioner分割槽原理，Combiner程式設計，常見的MR演算法

package liuxun.hadoop.mr.dc; import java.io.IOException; import java.util.HashMap; import java.util.Map; import org.apache.hadoop.conf.Configuration; imp

Hadoop詳解 ----------- shuffle原理、partitioner分割槽原理、Combiner程式設計、常見的MR演算法

Partitioner程式設計Partition簡介shuffle是通過分割槽partitioner 分配給Reduce的一個Reducer對應一個記錄檔案Partitioner是shuffle的一部

Hadoop詳解(二)——HDFS的命令，執行過程，Java介面，原理詳解。RPC機制

HDFS是Hadoop的一大核心，關於HDFS需要掌握的有：分散式系統與HDFS、HDFS的體系架構和基本概念、HDFS的shell操作、Java介面以及常用的API、Hadoop的RPC機制、遠端debugDistributed File System資料量越來越多，在一

詳解 vue 雙向資料繫結的原理，並實現一組雙向資料繫結

1：vue 雙向資料繫結的原理： Object.defineProperty是ES5新增的一個API，其作用是給物件的屬性增加更多的控制Object.defineProperty(obj, prop, descriptor)引數 obj: 需要定義屬性的物件（目標物件）prop: 需被定義或修改的屬性名（物

Git詳解四（標籤，分支）

標籤當某一個大版本完成之後,需要打一個標籤作用：記錄大版本備份大版本程式碼模擬經理打標籤 1.進入到經理的本地倉庫test007 cd Desktop/manager/test007/ 2.經理在本地打標籤 git tag -

spark2.x由淺入深深到底系列六之RDD java api詳解四

spark 大數據 javaapi 老湯 rdd 學習spark任何的知識點之前，先對spark要有一個正確的理解，可以參考：正確理解spark本文對join相關的api做了一個解釋SparkConf conf = new SparkConf().setAppName("appName")

angular路由詳解四（子路由）

str edr bsp 絕對路徑 pat outer menu one const 子路由是相對路由路由配置部分：主要是children const routes: Routes = [ {path:‘home‘, component: HomeComponent,

HTTPS協議詳解(四)：TLS/SSL握手過程

其它對數 hello 減少受保護改版 text gin 組裝 1、握手與密鑰協商過程基於RSA握手和密鑰交換的客戶端驗證服務器為示例詳解TLS/SSL握手過程再看一張手繪時序圖 (1).client_hello 客戶端發起請求，以明文傳輸請求信息，包

django模型詳解(四)

imp 參數 des 也會超過分類空白 fault note 1 概述 (1)概述 : Django對各種數據庫提供了很好的支持,Django為這些數據庫提供了統一的調用API,根據不同的業務需求選擇不同的數據庫 (2)定義模型模型,屬性,表,字段間的關系

MyBatis之Mapper XML 文件詳解(四)-JDBC 類型和嵌套查詢

調用表格 outer model sele 復雜普通全局配置當前支持的 JDBC 類型為了未來的參考,MyBatis 通過包含的 jdbcType 枚舉型,支持下面的 JDBC 類型。 BITFLOATCHARTIMESTAMPOTHERUNDEFINEDTINY

Android-基本控件和詳解四種布局方式

步驟頁面標示 string 過多初始 contex 前端 size 轉自：https://www.cnblogs.com/ludashi/p/4883915.html 一、常用基本控件 1.TextView 看到Android中的TextView, 我不禁的想到

mysql系列詳解四：mysql事務-技術流ken

orm value 進行 show _for 就是原子 div str MySQL 事務 MySQL 事務主要用於處理操作量大，復雜度高的數據。比如說，在人員管理系統中，你刪除一個人員，你即需要刪除人員的基本資料，也要刪除和該人員相關的信息，如信箱，文章等等，這樣，這些數

[紙上談兵]Java IO詳解(四) Reactor模式

一、 Reactor中文解釋 Reactor模式翻譯成中文有的說是反應器，有的說是反應堆模式。中文解釋反應：因為事件所引發的迴應。名詞. 器：容器, 例如:用來存放水之類的物體. 堆: 例如: 土堆.可以理解為土彙集到一起。那麼反應器：這個我個人理解，存放反應的容器

基於接口回調詳解JUC中Callable和FutureTask實現原理

cnblogs blog 異步編程但是迷糊對象 extend href 增加 Callable接口和FutureTask實現類，是JUC(Java Util Concurrent)包中很重要的兩個技術實現，它們使獲取多線程運行結果成為可能。它們底層的實現，就是基於接口

步步詳解之第1節----ALTERA FPGA關於PLL的使用，幫你用光所有PLL

PLL 建立工程建立新工程引導說明，點選next 設定工程路徑，不能有中文；設定工程名稱，點選next 點選next 選擇器件庫，這裡選擇cyclone IV E，器件型號為EP4C6EE22C8，該器件有兩個PLL；點選next 呼叫

比較全面的Eclipse配置詳解（包括智慧提示設定、智慧提示外掛修改，修改空格自動上屏、JDK配置、各種快捷鍵列表……） - decarl - 部落格園

Eclipse編輯器基本設定 1、新增行號在邊緣處右鍵 2、改字型字型的一般配置 3、去掉拼寫錯誤檢查 4、Java程式碼風格程式碼格式化 Ctrl + Shift + F 之後點選右邊的New按鈕，新建一個風格。

java 泛型詳解-絕對是對泛型方法講解最詳細的，沒有之一

對java的泛型特性的瞭解僅限於表面的淺淺一層，直到在學習設計模式時發現有不瞭解的用法，才想起詳細的記錄一下。本文參考java 泛型詳解、Java中的泛型方法、 java泛型詳解 1. 概述泛型在java中有很重要的地位，在面向物件程式設計及各種設計模式中有非常廣泛

強大的JS方法Object.defineProperty詳解及VUE.JS雙向繫結原理

Object.defineProperty是一個很了不起的方法。vue.js之所以能夠實現雙向繫結便是拜它所賜！defineProperty直接翻譯過來即是“定義屬性”，不過該方法可不僅僅是定義屬性這麼簡單，咱們還可以通過它來對屬性進行攔截設定！我們知道物

Java集合框架詳解(四) HashSet

相關文章 HashSet 今天繼續對集合框架原始碼的學習 JDK1.8 今天學習HashSet HashSet 顧名思義，就是以散列表的形式儲存資料的集合，集合中不允許相同的元素。HashSet底層是由HashMap實現的，所以在學習HashSet之前最好先學

一起學Hive——詳解四種匯入資料的方式

在使用Hive的過程中，匯入資料是必不可少的步驟，不同的資料匯入方式效率也不一樣，本文總結Hive四種不同的資料匯入方式：從本地檔案系統匯入資料從HDFS中匯入資料從其他的Hive表中匯入資料建立表的同時匯入資料使用匯入資料時，會使用到into和overwrite into兩個關鍵字，into是

Hadoop詳解(四)——Shuffle原理，Partitioner分割槽原理，Combiner程式設計，常見的MR演算法

相關推薦