Hadoop: MapReduce2多個job序列處理複雜的MapReduce處理中，往往需要將複雜的處理過程，分解成多個簡單的Job來執行，第1個Job的輸出做為第2個Job的輸入，相互之間有一

阿新 • • 發佈：2019-02-10

複雜的MapReduce處理中，往往需要將複雜的處理過程，分解成多個簡單的Job來執行，第1個Job的輸出做為第2個Job的輸入，相互之間有一定依賴關係。以上一篇中的求平均數為例，可以分解成三個步驟：

1. 求Sum

2. 求Count

3. 計算平均數

每1個步驟看成一個Job，其中Job3必須等待Job1、Job2完成，並將Job1、Job2的輸出結果做為輸入，下面的程式碼演示瞭如何將這3個Job串起來

  1 package yjmyzz.mr.job.link;
  2 
  3 import org.apache.hadoop.conf.Configuration;
  4 import 
 org.apache.hadoop.fs.Path;
  5 import org.apache.hadoop.io.DoubleWritable;
  6 import org.apache.hadoop.io.LongWritable;
  7 import org.apache.hadoop.io.Text;
  8 import org.apache.hadoop.mapreduce.Job;
  9 import org.apache.hadoop.mapreduce.Mapper;
 10 import org.apache.hadoop.mapreduce.Reducer;
 11 
 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
 12 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
 13 import yjmyzz.util.HDFSUtil;
 14 
 15 import java.io.IOException;
 16 
 17 
 18 public class Avg2 {
 19 
 20     private static final Text TEXT_SUM = new Text("SUM");
 
 21     private static final Text TEXT_COUNT = new Text("COUNT");
 22     private static final Text TEXT_AVG = new Text("AVG");
 23 
 24     //計算Sum
 25     public static class SumMapper
 26             extends Mapper<LongWritable, Text, Text, LongWritable> {
 27 
 28         public long sum = 0;
 29 
 30         public void map(LongWritable key, Text value, Context context)
 31                 throws IOException, InterruptedException {
 32             sum += Long.parseLong(value.toString());
 33         }
 34 
 35         protected void cleanup(Context context) throws IOException, InterruptedException {
 36             context.write(TEXT_SUM, new LongWritable(sum));
 37         }
 38 
 39     }
 40 
 41     public static class SumReducer extends Reducer<Text, LongWritable, Text, LongWritable> {
 42 
 43         public long sum = 0;
 44 
 45         public void reduce(Text key, Iterable<LongWritable> values, Context context)
 46                 throws IOException, InterruptedException {
 47             for (LongWritable v : values) {
 48                 sum += v.get();
 49             }
 50             context.write(TEXT_SUM, new LongWritable(sum));
 51         }
 52 
 53     }
 54 
 55     //計算Count
 56     public static class CountMapper
 57             extends Mapper<LongWritable, Text, Text, LongWritable> {
 58 
 59         public long count = 0;
 60 
 61         public void map(LongWritable key, Text value, Context context)
 62                 throws IOException, InterruptedException {
 63             count += 1;
 64         }
 65 
 66         protected void cleanup(Context context) throws IOException, InterruptedException {
 67             context.write(TEXT_COUNT, new LongWritable(count));
 68         }
 69 
 70     }
 71 
 72     public static class CountReducer extends Reducer<Text, LongWritable, Text, LongWritable> {
 73 
 74         public long count = 0;
 75 
 76         public void reduce(Text key, Iterable<LongWritable> values, Context context)
 77                 throws IOException, InterruptedException {
 78             for (LongWritable v : values) {
 79                 count += v.get();
 80             }
 81             context.write(TEXT_COUNT, new LongWritable(count));
 82         }
 83 
 84     }
 85 
 86     //計算Avg
 87     public static class AvgMapper
 88             extends Mapper<LongWritable, Text, LongWritable, LongWritable> {
 89 
 90         public long count = 0;
 91         public long sum = 0;
 92 
 93         public void map(LongWritable key, Text value, Context context)
 94                 throws IOException, InterruptedException {
 95             String[] v = value.toString().split("\t");
 96             if (v[0].equals("COUNT")) {
 97                 count = Long.parseLong(v[1]);
 98             } else if (v[0].equals("SUM")) {
 99                 sum = Long.parseLong(v[1]);
100             }
101         }
102 
103         protected void cleanup(Context context) throws IOException, InterruptedException {
104             context.write(new LongWritable(sum), new LongWritable(count));
105         }
106 
107     }
108 
109 
110     public static class AvgReducer extends Reducer<LongWritable, LongWritable, Text, DoubleWritable> {
111 
112         public long sum = 0;
113         public long count = 0;
114 
115         public void reduce(LongWritable key, Iterable<LongWritable> values, Context context)
116                 throws IOException, InterruptedException {
117             sum += key.get();
118             for (LongWritable v : values) {
119                 count += v.get();
120             }
121         }
122 
123         protected void cleanup(Context context) throws IOException, InterruptedException {
124             context.write(TEXT_AVG, new DoubleWritable(new Double(sum) / count));
125         }
126 
127     }
128 
129 
130     public static void main(String[] args) throws Exception {
131 
132         Configuration conf = new Configuration();
133 
134         String inputPath = "/input/duplicate.txt";
135         String maxOutputPath = "/output/max/";
136         String countOutputPath = "/output/count/";
137         String avgOutputPath = "/output/avg/";
138 
139         //刪除輸出目錄(可選,省得多次執行時,總是報OUTPUT目錄已存在)
140         HDFSUtil.deleteFile(conf, maxOutputPath);
141         HDFSUtil.deleteFile(conf, countOutputPath);
142         HDFSUtil.deleteFile(conf, avgOutputPath);
143 
144         Job job1 = Job.getInstance(conf, "Sum");
145         job1.setJarByClass(Avg2.class);
146         job1.setMapperClass(SumMapper.class);
147         job1.setCombinerClass(SumReducer.class);
148         job1.setReducerClass(SumReducer.class);
149         job1.setOutputKeyClass(Text.class);
150         job1.setOutputValueClass(LongWritable.class);
151         FileInputFormat.addInputPath(job1, new Path(inputPath));
152         FileOutputFormat.setOutputPath(job1, new Path(maxOutputPath));
153 
154 
155         Job job2 = Job.getInstance(conf, "Count");
156         job2.setJarByClass(Avg2.class);
157         job2.setMapperClass(CountMapper.class);
158         job2.setCombinerClass(CountReducer.class);
159         job2.setReducerClass(CountReducer.class);
160         job2.setOutputKeyClass(Text.class);
161         job2.setOutputValueClass(LongWritable.class);
162         FileInputFormat.addInputPath(job2, new Path(inputPath));
163         FileOutputFormat.setOutputPath(job2, new Path(countOutputPath));
164 
165 
166         Job job3 = Job.getInstance(conf, "Average");
167         job3.setJarByClass(Avg2.class);
168         job3.setMapperClass(AvgMapper.class);
169         job3.setReducerClass(AvgReducer.class);
170         job3.setMapOutputKeyClass(LongWritable.class);
171         job3.setMapOutputValueClass(LongWritable.class);
172         job3.setOutputKeyClass(Text.class);
173         job3.setOutputValueClass(DoubleWritable.class);
174 
175         //將job1及job2的輸出為做job3的輸入
176         FileInputFormat.addInputPath(job3, new Path(maxOutputPath));
177         FileInputFormat.addInputPath(job3, new Path(countOutputPath));
178         FileOutputFormat.setOutputPath(job3, new Path(avgOutputPath));
179 
180         //提交job1及job2,並等待完成
181         if (job1.waitForCompletion(true) && job2.waitForCompletion(true)) {
182             System.exit(job3.waitForCompletion(true) ? 0 : 1);
183         }
184 
185     }
186 
187 
188 }

輸入文字在上一篇可以找到，上面這段程式碼的主要思路：

1. Sum和Count均採用相同的輸入/input/duplicate.txt，然後將各自的處理結果分別輸出到/output/max/及/output/count/下

2. Avg從/output/max及/output/count獲取結果做為輸入，然後根據Key值不同，拿到sum和count的值，最終計算並輸出到/output/avg/下

Hadoop: MapReduce2多個job序列處理複雜的MapReduce處理中，往往需要將複雜的處理過程，分解成多個簡單的Job來執行，第1個Job的輸出做為第2個Job的輸入，相互之間有一

複雜的MapReduce處理中，往往需要將複雜的處理過程，分解成多個簡單的Job來執行，第1個Job的輸出做為第2個Job的輸入，相互之間有一定依賴關係。以上一篇中的求平均數為例，可以分解成三個步驟： 1. 求Sum 2. 求Count 3. 計算平均數每1個步驟看成一個Job，其中Job3必須等待Job

（華為）2個DHCP與一個中繼搭配PC1與PC2獲取不同網段IP地址

system 1.2 dns 分享圖片 col server watermark water ace 1.通過上面的拓撲圖要求配置DHCP讓PC1和PC2分別從不同DHCP上獲取對應的IP地址；2.配置命令如下：DHCP中繼：<Huawei>system-vie

第 0001 題：做為 Apple Store App 獨立開發者，你要搞限時促銷，為你的應用生成啟用碼（或者優惠券），使用 Python 如何生成 200 個啟用碼（或者優惠券）？

第 0001 題：做為 Apple Store App 獨立開發者，你要搞限時促銷，為你的應用生成啟用碼（或者優惠券），使用 Python 如何生成 200 個啟用碼（或者優惠券）？知識點： 1、range生成隨機數 2、int型別轉換成char型別用chr() 函式

如何將txt檔案用shell拆分成多個？

1.（實測）按行拆分txt檔案 (將50,000,000行的dddd.txt檔案拆成5個檔案，每個檔案10,000,000行) split -l 10000000 dddd.txt aa（aa為拆分檔案的字首-可選） 2.其他可以參考

有一個二叉樹，現在懷疑它有一個結點有2個父節點，請寫出一個函式來判斷該二叉樹是否存在一個節點含有2個父節點。如果存在，返回true，否則返回false。

可以這樣，要檢測一個結點是否有兩個父親時，先把從該結點開始的結點與原樹分離，分成兩部分，然後再從原樹再查詢該結點，如果找到那就是有兩個結點，如果沒有則遞迴查詢。</span> struct Node{ Node *pLeft; Node *pRight; int

poj 2104 <排序分塊，區間第k大>/<第一次用主席樹>2個方法+整體二分

給一個序列，查詢區間第k大，用分塊來實現首先將區間分為每塊block大小，也就有num=n/block塊，if(n%block==0)num++. 然後每次在定義每個塊其左右邊界的時候進行排序，那麼就得到一個每塊內排好序的塊。查詢的時候因為是查詢區間第k大，那麼我們

如何將 .NetFramework WebApi 按業務拆分成多個模組

在 .NetFramework 中使用 WebApi ，在不討論微服務的模式下，大部分都是以層來拆分庫的 : 基礎設施資料儲存層服務層 WeApi 層一些其它的功能庫專案結構可能會像下面這樣子有些人可能會將

將變量做為一個對象的key，push新增進一個數組

spa cti push [] 內容 for IE 總結一個 var orgnIdListValue=["0","2"]; function arrayField(a,b){ 　　let arrayMes=[]; 　　for(var i=0;i<a.length;

第1章為什麼創造WPF、第2章 XAML揭祕

1.2 步入WPF 下面是WPF的一些亮點：廣泛整合：各種媒體型別都能組合起來並一起呈現與解析度無關：因為WPF使用向量圖形硬體加速：WPF是基於Direct3D建立的，工作全部是由GPU完成的宣告式程式設計富創作和定製易於部署 2.1 XAML 定義 XAML是

第1章計算機網路和協議（2）_OSI參考模型

2. OSI參考模型 2.1 OSI參考模型詳解（1）參考模型的優點　　①將網路的通訊過程劃分為小一些、功能簡單的部件，有助於各個部件開發、設計和故障排除。　　②通過網路元件的標準化，允許多個供應商進行開發生產出標準的網路裝置（如裝置的介面標準和電壓標準）

Netty原始碼分析第1章(Netty啟動流程)---->第4節: 註冊多路複用

第一章:Netty啟動流程第四節:註冊多路複用回顧下以上的小節, 我們知道了channel的的建立和初始化過程, 那麼channel是如何註冊到selector中的呢?我們繼續分析回到上一小節的程式碼: final ChannelFuture

小明去美國旅遊，美國溫度以華氏溫度計量，她需要將華氏溫度轉換為攝氏溫度，編寫程式實現此功能. 要求：從控制檯輸入華氏溫度資訊，並且分別列印最後的華氏溫度和攝氏溫度的結果

public class Test_9 {/*小明去美國旅遊，美國溫度以華氏溫度計量，她需要將華氏溫度轉換為攝氏溫度，編寫程式實現此功能.要求：從控制檯輸入華氏溫度資訊，並且分別列印最後的華氏溫度和攝氏溫度的結果攝氏溫度=5/9.0*(華氏溫度

Ffmpeg 將視訊分解成多張圖片以及多張圖片合成視訊

1.將視訊分解成多張圖片 -y 覆蓋以前的圖片 %04d 輸出的圖片的命名格式 ffmpeg -y -i Desktop/FfmpegVideos/10.avi Desktop/FfmpegImages/%04d.png 2.多張圖片合成視訊只是將上面視

Netty原始碼分析第1章(Netty啟動流程)-------->第1節: 服務端初始化

第一章: Server啟動流程概述: 本章主要講解server啟動的關鍵步驟, 讀者只需要瞭解server啟動的大概邏輯, 知道關鍵的步驟在哪個類執行即可, 並不需要了解每一步的運作機制, 之後會對每個模組進行深度分析第一節:服務端初

Netty原始碼分析第1章(Netty啟動流程)---->第3節: 服務端channel初始化

第一章:Netty啟動流程第三節:服務端channel初始化回顧上一小節的initAndRegister()方法: final ChannelFuture initAndRegister() { Channel channel = nul

Netty原始碼分析第1章(Netty啟動流程)---->第5節: 繫結埠

第一章:Netty啟動步驟第五節:繫結埠上一小節我們學習了channel註冊在selector的步驟, 僅僅做了註冊但並沒有監聽事件, 事件是如何監聽的, 我們繼續跟第一小節的最初的doBind()方法: private ChannelFuture doBind

數學之美，美在將複雜問題簡化——《數學之美》讀後感

我是在讀了吳軍博士的《浪潮之巔》之後，發現推薦了《數學之美》這本書。我到豆瓣讀書上看了看評價，就果斷在噹噹上下單買了一本研讀。本來我以為這是一本充滿各種數學專業術語的書，讀後讓我非常震撼的是吳軍博士居然能用非常通俗的語言將自然語言處理等高深理論解釋的相當簡單。在李開

使用者上傳gif動圖分解成多張幀圖片，併合並生成新gif圖片

背景為什麼要製作這麼一款工具首先公司最近在做一款表情包的產品，需要將文字生成到gif圖片中，並可以控制文字顯示的位置，並將不同的文字顯示在不同的圖片上製作成網頁端工具，隨時隨地，方便使用探索首先需要將GIF圖片分幀，通過查詢發現了這個庫buzzfeed/libgif-js 要將生成的文字，可以

TF之DNN：TF利用簡單7個神經元的三層全連線神經網路實現降低損失到0.000以下(輸入、隱藏、輸出層分別為 2、3 、 2 個神經元)——Jason niu

# -*- coding: utf-8 -*- import tensorflow as tf import os import numpy as np #TF：TF實現簡單的三層全連線神經網路（輸入、隱藏、輸出層分別為 2、3 、 2 個神經元） #隱藏層和輸出層的啟用

從鍵盤任意輸入n個實數，分別計算並輸出其中正數的平均值和負數的平均值，需要考慮可能出現的異常，並給出異常處理

異常一共也就幾種，陣列越界，分母為0異常第一種交給jvm處理 package chuki; import java.util.*; public class Two { public static void main(String[] args)

Hadoop: MapReduce2多個job序列處理 複雜的MapReduce處理中，往往需要將複雜的處理過程，分解成多個簡單的Job來執行，第1個Job的輸出做為第2個Job的輸入，相互之間有一

相關推薦

Hadoop: MapReduce2多個job序列處理複雜的MapReduce處理中，往往需要將複雜的處理過程，分解成多個簡單的Job來執行，第1個Job的輸出做為第2個Job的輸入，相互之間有一