MapReduce的執行原理 MapReduce的原理及執行過程 Combiner

阿新 • • 發佈：2018-11-27

MapReduce的原理及執行過程

MapReduce簡介

MapReduce是一種分散式計算模型，是Google提出的，主要用於搜尋領域，解決海量資料的計算問題。
MR有兩個階段組成：Map和Reduce，使用者只需實現map()和reduce()兩個函式，即可實現分散式計算。

MapReduce執行流程

MapReduce原理

MapReduce的執行步驟：

1、Map任務處理

　　1.1 讀取HDFS中的檔案。每一行解析成一個<k,v>。每一個鍵值對呼叫一次map函式。 <0,hello you> <10,hello me>

　　1.2 覆蓋map()，接收1.1產生的<k,v>，進行處理，轉換為新的<k,v>輸出。　　　　　　　　　　<hello,1> <you,1> <hello,1> <me,1>

　　1.3 對1.2輸出的<k,v>進行分割槽。預設分為一個區。詳見《Partitioner》

　　1.4 對不同分割槽中的資料進行排序（按照k）、分組。分組指的是相同key的value放到一個集合中。　排序後：<hello,1> <hello,1> <me,1> <you,1>

分組後：<hello,{1,1}><me,{1}><you,{1}>

　　1.5 （可選）對分組後的資料進行歸約。詳見《Combiner》

2、Reduce任務處理

　　2.1 多個map任務的輸出，按照不同的分割槽，通過網路copy到不同的reduce節點上。（shuffle）詳見《shuffle過程分析》

　　2.2 對多個map的輸出進行合併、排序。覆蓋reduce函式，接收的是分組後的資料，實現自己的業務邏輯，　<hello,2> <me,1> <you,1>

　　　　處理後，產生新的<k,v>輸出。

　　2.3 對reduce輸出的<k,v>寫到HDFS中。

Java程式碼實現

注：要匯入org.apache.hadoop.fs.FileUtil.java。

1、先建立一個hello檔案，上傳到HDFS中

2、然後再編寫程式碼，實現檔案中的單詞個數統計（程式碼中被註釋掉的程式碼，是可以省略的，不省略也行）

  1 package mapreduce;
  2 
  3 import java.net.URI;
  4 import org.apache.hadoop.conf.Configuration;
  5 import org.apache.hadoop.fs.FileSystem;
  6 import org.apache.hadoop.fs.Path;
  7 import org.apache.hadoop.io.LongWritable;
  8 import org.apache.hadoop.io.Text;
  9 import org.apache.hadoop.mapreduce.Job;
 10 import org.apache.hadoop.mapreduce.Mapper;
 11 import org.apache.hadoop.mapreduce.Reducer;
 12 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 13 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
 14 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 15 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
 16 
 17 public class WordCountApp {
 18     static final String INPUT_PATH = "hdfs://chaoren:9000/hello";
 19     static final String OUT_PATH = "hdfs://chaoren:9000/out";
 20 
 21     public static void main(String[] args) throws Exception {
 22         Configuration conf = new Configuration();
 23         FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);
 24         Path outPath = new Path(OUT_PATH);
 25         if (fileSystem.exists(outPath)) {
 26             fileSystem.delete(outPath, true);
 27         }
 28 
 29         Job job = new Job(conf, WordCountApp.class.getSimpleName());
 30 
 31         // 1.1指定讀取的檔案位於哪裡
 32         FileInputFormat.setInputPaths(job, INPUT_PATH);
 33         // 指定如何對輸入的檔案進行格式化，把輸入檔案每一行解析成鍵值對
 34         //job.setInputFormatClass(TextInputFormat.class);
 35 
 36         // 1.2指定自定義的map類
 37         job.setMapperClass(MyMapper.class);
 38         // map輸出的<k,v>型別。如果<k3,v3>的型別與<k2,v2>型別一致，則可以省略
 39         //job.setOutputKeyClass(Text.class);
 40         //job.setOutputValueClass(LongWritable.class);
 41 
 42         // 1.3分割槽
 43         //job.setPartitionerClass(org.apache.hadoop.mapreduce.lib.partition.HashPartitioner.class);
 44         // 有一個reduce任務執行
 45         //job.setNumReduceTasks(1);
 46 
 47         // 1.4排序、分組
 48 
 49         // 1.5歸約
 50 
 51         // 2.2指定自定義reduce類
 52         job.setReducerClass(MyReducer.class);
 53         // 指定reduce的輸出型別
 54         job.setOutputKeyClass(Text.class);
 55         job.setOutputValueClass(LongWritable.class);
 56 
 57         // 2.3指定寫出到哪裡
 58         FileOutputFormat.setOutputPath(job, outPath);
 59         // 指定輸出檔案的格式化類
 60         //job.setOutputFormatClass(TextOutputFormat.class);
 61 
 62         // 把job提交給jobtracker執行
 63         job.waitForCompletion(true);
 64     }
 65 
 66     /**
 67      * 
 68      * KEYIN     即K1     表示行的偏移量 
 69      * VALUEIN     即V1     表示行文字內容 
 70      * KEYOUT     即K2     表示行中出現的單詞 
 71      * VALUEOUT 即V2        表示行中出現的單詞的次數，固定值1
 72      * 
 73      */
 74     static class MyMapper extends
 75             Mapper<LongWritable, Text, Text, LongWritable> {
 76         protected void map(LongWritable k1, Text v1, Context context)
 77                 throws java.io.IOException, InterruptedException {
 78             String[] splited = v1.toString().split("\t");
 79             for (String word : splited) {
 80                 context.write(new Text(word), new LongWritable(1));
 81             }
 82         };
 83     }
 84 
 85     /**
 86      * KEYIN     即K2     表示行中出現的單詞 
 87      * VALUEIN     即V2     表示出現的單詞的次數 
 88      * KEYOUT     即K3     表示行中出現的不同單詞
 89      * VALUEOUT 即V3     表示行中出現的不同單詞的總次數
 90      */
 91     static class MyReducer extends
 92             Reducer<Text, LongWritable, Text, LongWritable> {
 93         protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s,
 94                 Context ctx) throws java.io.IOException,
 95                 InterruptedException {
 96             long times = 0L;
 97             for (LongWritable count : v2s) {
 98                 times += count.get();
 99             }
100             ctx.write(k2, new LongWritable(times));
101         };
102     }
103 }

3、執行成功後，可以在Linux中檢視操作的結果

本文章來自於：https://www.cnblogs.com/ahu-lichang/p/6645074.html 如有疑問可與作者聯絡。

MapReduce簡介

MapReduce是一種分散式計算模型，是Google提出的，主要用於搜尋領域，解決海量資料的計算問題。
MR有兩個階段組成：Map和Reduce，使用者只需實現map()和reduce()兩個函式，即可實現分散式計算。

MapReduce執行流程

MapReduce原理

MapReduce的執行步驟：

1、Map任務處理

　　1.1 讀取HDFS中的檔案。每一行解析成一個<k,v>。每一個鍵值對呼叫一次map函式。 <0,hello you> <10,hello me>

　　1.2 覆蓋map()，接收1.1產生的<k,v>，進行處理，轉換為新的<k,v>輸出。　　　　　　　　　　<hello,1> <you,1> <hello,1> <me,1>

　　1.3 對1.2輸出的<k,v>進行分割槽。預設分為一個區。詳見《Partitioner》

　　1.4 對不同分割槽中的資料進行排序（按照k）、分組。分組指的是相同key的value放到一個集合中。　排序後：<hello,1> <hello,1> <me,1> <you,1> 分組後：<hello,{1,1}><me,{1}><you,{1}>

　　1.5 （可選）對分組後的資料進行歸約。詳見《Combiner》

2、Reduce任務處理

　　2.1 多個map任務的輸出，按照不同的分割槽，通過網路copy到不同的reduce節點上。（shuffle）詳見《shuffle過程分析》

　　2.2 對多個map的輸出進行合併、排序。覆蓋reduce函式，接收的是分組後的資料，實現自己的業務邏輯，　<hello,2> <me,1> <you,1>

　　　　處理後，產生新的<k,v>輸出。

　　2.3 對reduce輸出的<k,v>寫到HDFS中。

Java程式碼實現

注：要匯入org.apache.hadoop.fs.FileUtil.java。

1、先建立一個hello檔案，上傳到HDFS中

2、然後再編寫程式碼，實現檔案中的單詞個數統計（程式碼中被註釋掉的程式碼，是可以省略的，不省略也行）

  1 package mapreduce;
  2 
  3 import java.net.URI;
  4 import org.apache.hadoop.conf.Configuration;
  5 import org.apache.hadoop.fs.FileSystem;
  6 import org.apache.hadoop.fs.Path;
  7 import org.apache.hadoop.io.LongWritable;
  8 import org.apache.hadoop.io.Text;
  9 import org.apache.hadoop.mapreduce.Job;
 10 import org.apache.hadoop.mapreduce.Mapper;
 11 import org.apache.hadoop.mapreduce.Reducer;
 12 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 13 import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
 14 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 15 import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
 16 
 17 public class WordCountApp {
 18     static final String INPUT_PATH = "hdfs://chaoren:9000/hello";
 19     static final String OUT_PATH = "hdfs://chaoren:9000/out";
 20 
 21     public static void main(String[] args) throws Exception {
 22         Configuration conf = new Configuration();
 23         FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);
 24         Path outPath = new Path(OUT_PATH);
 25         if (fileSystem.exists(outPath)) {
 26             fileSystem.delete(outPath, true);
 27         }
 28 
 29         Job job = new Job(conf, WordCountApp.class.getSimpleName());
 30 
 31         // 1.1指定讀取的檔案位於哪裡
 32         FileInputFormat.setInputPaths(job, INPUT_PATH);
 33         // 指定如何對輸入的檔案進行格式化，把輸入檔案每一行解析成鍵值對
 34         //job.setInputFormatClass(TextInputFormat.class);
 35 
 36         // 1.2指定自定義的map類
 37         job.setMapperClass(MyMapper.class);
 38         // map輸出的<k,v>型別。如果<k3,v3>的型別與<k2,v2>型別一致，則可以省略
 39         //job.setOutputKeyClass(Text.class);
 40         //job.setOutputValueClass(LongWritable.class);
 41 
 42         // 1.3分割槽
 43         //job.setPartitionerClass(org.apache.hadoop.mapreduce.lib.partition.HashPartitioner.class);
 44         // 有一個reduce任務執行
 45         //job.setNumReduceTasks(1);
 46 
 47         // 1.4排序、分組
 48 
 49         // 1.5歸約
 50 
 51         // 2.2指定自定義reduce類
 52         job.setReducerClass(MyReducer.class);
 53         // 指定reduce的輸出型別
 54         job.setOutputKeyClass(Text.class);
 55         job.setOutputValueClass(LongWritable.class);
 56 
 57         // 2.3指定寫出到哪裡
 58         FileOutputFormat.setOutputPath(job, outPath);
 59         // 指定輸出檔案的格式化類
 60         //job.setOutputFormatClass(TextOutputFormat.class);
 61 
 62         // 把job提交給jobtracker執行
 63         job.waitForCompletion(true);
 64     }
 65 
 66     /**
 67      * 
 68      * KEYIN     即K1     表示行的偏移量 
 69      * VALUEIN     即V1     表示行文字內容 
 70      * KEYOUT     即K2     表示行中出現的單詞 
 71      * VALUEOUT 即V2        表示行中出現的單詞的次數，固定值1
 72      * 
 73      */
 74     static class MyMapper extends
 75             Mapper<LongWritable, Text, Text, LongWritable> {
 76         protected void map(LongWritable k1, Text v1, Context context)
 77                 throws java.io.IOException, InterruptedException {
 78             String[] splited = v1.toString().split("\t");
 79             for (String word : splited) {
 80                 context.write(new Text(word), new LongWritable(1));
 81             }
 82         };
 83     }
 84 
 85     /**
 86      * KEYIN     即K2     表示行中出現的單詞 
 87      * VALUEIN     即V2     表示出現的單詞的次數 
 88      * KEYOUT     即K3     表示行中出現的不同單詞
 89      * VALUEOUT 即V3     表示行中出現的不同單詞的總次數
 90      */
 91     static class MyReducer extends
 92             Reducer<Text, LongWritable, Text, LongWritable> {
 93         protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s,
 94                 Context ctx) throws java.io.IOException,
 95                 InterruptedException {
 96             long times = 0L;
 97             for (LongWritable count : v2s) {
 98                 times += count.get();
 99             }
100             ctx.write(k2, new LongWritable(times));
101         };
102     }
103 }

3、執行成功後，可以在Linux中檢視操作的結果

TOMCAT原理詳解及請求過程

http://yut-i.blog.163.com/blog/static/2425778220121159347221/ http://www.cnblogs.com/hggen/p/6264475.html http://blog.csdn.net/skp127/ar

ThreadPoolTaskExecutor多執行緒使用，及執行緒池配置

1.配置 ThreadPoolTaskExecutor bean <?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans"

入門-Hadoop執行環境搭建(單機)及執行模式

1、準備工作：阿里雲伺服器：作業系統:linux CentOS 7.4 64位 Cpu：1核記憶體：2G 硬碟:40G ip:47.105.157.216 jdk-8u60-linux-x64.tar.gz hadoop-2.7.2.tar.gz 2、環境搭建

linux執行緒基本概念及執行緒控制

文章目錄 1.初識執行緒 1）執行緒的概念 2）程序與執行緒的關係 3）程序的多個執行緒共享 4）執行緒的優點 5）執行緒的缺點 6）執行緒異常情況 2.執行緒控制

Java 執行緒安全問題及執行緒鎖（讀書筆記）

多執行緒安全問題：首先整理多執行緒同步的知識點，開頭肯定是要先探討探討多執行緒安全的問題。那麼嘛叫執行緒安全問題呢？答：我們知道Jvm虛擬機器的設計中執行緒的執行是搶佔式的，執行緒的執行時間是由底層系統決定的。所以就會有多個執行緒修改同一個資料時不同

[深入理解Java虛擬機器]第九章位元組碼執行引擎-類載入及執行子系統的案例與實戰

概述在Class檔案格式與執行引擎這部分中,使用者的程式能直接影響的內容並不太多, Class檔案以何種格式儲存,型別何時載入、如何連線,以及虛擬機器如何執行位元組碼指令等都是由虛擬機器直接控制的行為,使用者程式無法對其進行改變。能通過程式進行操作的,主要是

一起分析執行緒的狀態及執行緒通訊機制

> 本文在個人技術部落格同步釋出，詳情可[**用力戳**](http://www.17coding.info/article/27) > 亦可掃描螢幕右側二維碼關注個人公眾號，公眾號內有個人聯絡方式，等你來撩... 多執行緒程式設計一直是普通程式設計師進階為高階程式設計師的必備技

MapReduce的原理及執行過程

MapReduce簡介 1.MapReduce是一種分散式計算模型，是Google提出的，主要用於搜尋領域，解決海量資料的計算問題。 2.MR有兩個階段組成：Map和Reduce，使用者只需實現map()和reduce()兩個函式，即可實現分散式計算。 MapReduce執行流程

MapReduce的執行原理 MapReduce的原理及執行過程 Combiner

MapReduce的原理及執行過程 MapReduce簡介 MapReduce是一種分散式計算模型，是Google提出的，主要用於搜尋領域，解決海量資料的計算問題。 MR有兩個階段組成：Map和Reduce，使用者只需實現map()和reduce(

MapReduce的原理及執行過程 MapReduce簡介

轉載：https://www.cnblogs.com/ahu-lichang/p/6645074.html MapReduce簡介 MapReduce是一種分散式計算模型，是Google提出的，主要用於搜尋領域，解決海量資料的計算問題。

[Hadoop]淺談MapReduce原理及執行流程

技術分享情況下 size 原來 per node 有一個根據執行流程 MapReduce MapReduce原理非常重要，hive與spark都是基於MR原理 MapReduce采用多進程，方便對每個任務資源控制和調配，但是進程消耗更多的啟動時間，因此MR時效

Mysql查詢語句執行過程及執行原理

Mysql查詢語句執行原理資料庫查詢語句如何執行？ DML語句首先進行語法分析，對使用sql表示的查詢進行語法分析，生成查詢語法分析樹。語義檢查：檢查sql中所涉及的物件以及是否在資料庫中存在，使用者是否具有操作許可權等檢視轉換：將語法分析樹轉換成關係代數表示式

hadoop概念-MapReduce各個執行階段及Shuffle過程詳解

MapReduce各個執行階段（1）MapReduce框架使用InputFormat模組做Map前的預處理，比如驗證輸入的格式是否符合輸入定義；然後，將輸入檔案切分為邏輯上的多個InputSplit，InputSplit是MapReduce對檔案進行處理和運算的輸入單位

Yarn執行Mapreduce程式的工作原理

元件說明： NodeManager 每個節點上裝有一個NM，主要的職責有：（1）為應用程式啟動容器，同時確保申請的容器使用的資源不會超過節點上的總資源。（2）為task構建容器環境，包括二進位制可執行檔案，jars等。（3）為所在的節點提供

JSP執行原理及執行過程

學習J2EE時，初步瞭解了JSP，寫過一篇小的總結：J2EE-JSP，當時還不是很瞭解它的執行機制。學習DRP時，再次接觸了JSP，在原來基礎上有了更深的瞭解，瞭解了它的執行原理 1，JSP的執行原理（1）WEB容器JSP頁面的訪問請求時，它將把該訪問請求交給JSP引擎

分享知識-快樂自己：Hibernate 中 get() 和 load()、sava、update、savaOrUpdate、merge，不同之處及執行原理？

1)：Hibernate 中 get() 和 load() 有什麼不同之處? 1）Hibernate的 get方法，會確認一下該id對應的資料是否存在，首先在session快取中查詢，然後在快取中查詢，還沒有就查詢資料庫，資料庫中沒有就返回null。 2）Hibernate的 load方法載入

JSP工作流程及執行原理

JSP起源在很多動態網頁中，絕大部分內容都是固定不變的，只有區域性內容需要動態產生和改變。如果使用Servlet程式來輸出只有區域性內容需要動態改變的網頁，其中所有的靜態內容也需要程式設計師用Java程式程式碼產生，整個Servlet程式的程式碼將非常臃腫，編寫和維護都將非常困難。對大

分享知識-快樂自己：Struts2框架工作原理及執行流程圖（攔截器的使用）

Struts2 架構圖： 1）：提交請求客戶端通過 HttpServletRequest 向 Servlet （即Tomcat）提交一個請求。請求經過一系列的過濾器，例如圖中的 ActionContextCleanUp 和 Other filer （SlterMesh,etc）等，最後被 Str

Flink 叢集執行原理兼部署及Yarn執行模式深入剖析-Flink牛刀小試

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。版權宣告：禁止轉載，歡迎學習。QQ郵箱地址：[email protected]，如有任何問題，可隨時聯絡。 1 Flink的

Java基礎之多執行緒之原理、實現方式及匿名內部類建立執行緒方法

一、概念程序：作業系統當中正在執行的一個程式。例如正在執行一個QQ。執行緒：程序之內多工的執行單位。例如迅雷當中正在下載的多個電影。 JVM當中：棧（Stack）記憶體是執行緒獨立的，堆（Heap）記憶體是執行緒共享的。（1）Java程式執行的時候至少有兩個執行緒： 1）主

MapReduce的執行原理 MapReduce的原理及執行過程 Combiner

相關推薦