MapReduce框架學習（3）——Job的建立及配置

阿新 • • 發佈：2018-11-20

參考： JeffreyZhou的部落格園

《Hadoop權威指南》第四版

0

一個MR作業，包括三點：

輸入資料
MR程式
Job配置資訊

前面兩篇學習了資料格式和MR過程（map函式和reduce函式），那麼今天再講一下配置資訊，是怎麼把資料和程式結合起來的。

3.1 程式碼

Job物件指定作業執行規範，我們可以用它來控制整個作業的執行。打算對照程式碼來講解，這樣可能要有邏輯一點，不至於講到最後都不知道自己的線索在哪。先貼上WordCount中的Job任務程式碼：

public static void main(String[] args) throws Exception {
	Configuration conf = new Configuration();   // 配置檔案
	// System.out.println("url:" + conf.get("fs.default.name"));  // deprecated
	// System.out.println("url:" + conf.get("fs.defaultFS"));
	
// 獲取一個作業
	// Job job = new Job(conf, "word count");  // deprecated 

	Job job = Job.getInstance(conf,"wordcount");  // 用job的靜態方法
// 設定job所用的那些類（class）檔案在哪個jar包
	job.setJarByClass(WordCount.class);
// 設定所用的map reduce類
	job.setMapperClass(TokenizerMapper.class);
	job.setCombinerClass(IntSumReducer.class);  // 對每個節點的map輸出進行combine
	job.setReducerClass(IntSumReducer.class);  // 對所有節點的輸出進行reduce 


// 設定資料輸出型別
	job.setOutputKeyClass(Text.class);
	job.setOutputValueClass(IntWritable.class);
// 指定要處理的輸入、輸出路徑，
	//此處輸入/出為固定檔案目錄
	FileInputFormat.addInputPath(job, "input");
	FileOutputFormat.setOutputPath(job, "output");
	//此處為引數
	// FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
	// FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
	
// 將job提交給叢集執行
	System.exit(job.waitForCompletion(true) ? 0 : 1);

那麼，現在對照上面的程式碼來分析作業提交到執行的整個過程吧。

3.2 建立Job

任務建立比較容易，其實就是new一個例項，先建立一個配置檔案的物件，然後將配置檔案，以及作業名稱作為引數，構造一個Job物件就行了

Configuration conf = new Configuration();   // 配置檔案
Job job = Job.getInstance(conf,"wordcount");  // 用job的靜態方法

3.3 打包作業

我們在Hadoop叢集上執行這個作業時，要把程式碼打包成一個JAR檔案（Hadoop在叢集上釋出這個檔案），關於打包JAR，大概意思就是把程式執行所需要的包啊類啊啥的，全部形成一個壓縮包，但這個工作不用我們自己去一個個找，只要在Job物件的setJarByClass()方法中傳遞一個類即可，Hadoop會利用這個類來查詢包含它的JAR檔案，進而找到相關的JAR檔案。

// 將job所用的那些類（class）檔案，打成jar包
job.setJarByClass(WordCount.class);

3.4 設定各個環節的函式

這個很好理解，上一篇博文分析了MR過程中的各個環節，這些環節都是可以自定義的，就是在Job裡面設定，將自定義的函式和具體作業聯絡起來。

job.setMapperClass(TokenizerMapper.class);
job.setCombinerClass(IntSumReducer.class);  // 對每個節點的map輸出進行combine
job.setPartitionerClass(MyPartitioner.class); // 對每個節點的map輸出進行partition
job.setReducerClass(IntSumReducer.class);  // 對所有節點的輸出進行reduce

3.5 設定輸入輸出資料型別

job.setInputFormatClass(MyInputFormat.class);
job.setOutputFormatClass(TextOutputFormat.class);
job.setOutputKeyClass(Text.class);
job.setOutputValueClass(IntWritable.class);

3.6 設定輸入輸出檔案目錄

在設定輸入輸出檔案目錄時，可以選擇使用絕對目錄，就是直接在語句中寫入目錄；也可以使用引數輸入，即在執行程式時，再在控制檯輸入目錄。

// 指定要處理的輸入、輸出路徑，
	//此處輸入/出為固定檔案目錄
	FileInputFormat.addInputPath(job, "input");
	FileOutputFormat.setOutputPath(job, "output");
	//此處為引數
	// FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
	// FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));

3.7 提交併執行作業

單個任務的執行

可以直接使用語句：

job.waitForCompletion(true)

waitForCompletion()方法提交作業並等待執行完成，該方法唯一的引數是一個標識，指示是否已生成詳細輸出，當標識為true（成功）時，作業會把其進度寫到控制檯。
–《Hadoop權威指南》第四版，28頁

多個任務執行

多個任務的話，就有多種組織形式，例如序列、並行、無關、組合。如下圖：

在這裡插入圖片描述
圖中，Job2和Job3將會等Job1執行完了再執行，且可以同時開始，而Job4必須等Job2和Job3同時結束後才結束。

這個組合，就可以採用這樣的程式碼來實現：

Configuration conf = new Configuration();
Job job1 = new Job(conf, "job1");   //.. config Job1
Job job2 = new Job(conf, "job2");   //.. config Job2
Job job3 = new Job(conf, "job3");	//.. config Job3
Job job4 = new Job(conf, "job4");	//.. config Job4
 
//新增依賴關係
job2.addDependingJob(job1);
job3.addDependingJob(job1);
job4.addDependingJob(job2);
job4.addDependingJob(job3);
 
JobControl jc = new JobControl("jbo name");
jc.addJob(job1);
jc.addJob(job2);
jc.addJob(job3);
jc.addJob(job4);

jc.run();

3.x 後記

這裡講的其實偏向於作業的程式設計方面，但是在程式中把這些都設定好了，提交給集群后，又是怎樣的執行機制呢？這個就是關於application master 、map task等方面的分析了。

MapReduce框架學習（3）——Job的建立及配置

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版 0 一個MR作業，包括三點：輸入資料 MR程式 Job配置資訊前面兩篇學習了資料格式和M

MapReduce框架學習（2）——Map/Reduce及 Shuffle前後

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版 0 Map/Reduce大致流程輸入（input）：將輸入資料分成一個個split，並將spilt進一步拆成<

MapReduce框架學習（4）——倒排索引程式實戰

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版 0 倒排索引（Inverted Index）前面我們執行過WordCount例子，得到的單詞計數結果，如果輸入3篇文件，得到

MapReduce框架學習（1）——輸入、輸出格式

參考： JeffreyZhou的部落格園《Hadoop權威指南》第四版在前面的學習中，完成了幾件事：搭建並測試Hadoop完全分散式環境；在master節點上配置Hadoop的E

laravel框架學習（四）執行建立中介軟體後，提示無法找到該中介軟體的解決方法

按照官方提供的文件：http://laravelacademy.org/post/7812.html 1.建立中介軟體：先宣告中介軟體， php artisan make:middleware AdminMiddleware 會自動在app/Http/Middlewar

selenium + python自動化測試unittest框架學習（一）selenium原理及應用

自動化網上下載安裝 src .cn 基礎 client cnblogs pytho unittest框架的學習得益於蟲師的《selenium+python自動化實踐》這一書，該書講得很詳細，大家可以去看下，我也只學到一點點用於工作中，閑暇時記錄下自己所學才能更加印象深刻

思科路由模擬器 -- （3）RIP協議及配置

本文說明了RIP協議在思科路由模擬中如何設定和使用，需要解決的問題： 1.在各自路由器上進行基本配置，包括路由器名稱、介面IP地址等，並測試直連鏈路連通性。 2.在各路由器上進行RIP基本配置 3.等待一段時間後，在各路由器上檢視路由表，檢視關鍵資訊(管理

python web框架學習（2）——建立Django專案

Django 帶有一個名為 django-admin.py 的工具，如果使用的是 Windows 系統，它會安裝到 Scripts 資料夾下，該資料夾位於 Python 安裝目錄下，如 C:\Python27\Scripts 。對於 Windows 系統，需要手

ElasticSearch學習（3）--使用elsticsearch-head連線es、建立es叢集

1、使用elsticsearch-head連線es 首先我們進入github並搜尋elsticsearch-head軟體，選擇進入mobz/elasticsearch-head，在download的

基於Qt的OpenGL可編程管線學習（3）- 使用Instanced方式繪制

qt opengl shader instanced 繪制多個重復的模型時，使用Instanced方式繪制可以大大加快顯然速度。繪制效果如下圖所示：1、Vertex Shader中定義如下：attribute vec3 pos; attribute vec2 coord; attribute

OSChinaclient源代碼學習（3）--輪詢機制的實現

man data 本地變量其它失敗 cbo cancel seh ref 主要以OSChina Androidclient源代碼中Notice的輪詢機制進行解讀。一、基礎知識一般IM（即使通訊）的實現有兩種方式：推送和輪詢，推送就是se

DWR3.0框架入門（3） —— ScriptSession的維護及優化

final comm scrip javax href run com stat creat 1.ScriptSession使用中存在的問題在上一節實現了服務器的推送功能，但是根據 ScriptSession的生命周期我們可以得出以下幾點的問題：

PYTHON設計模式學習（3）：Singleton pattern

blog ora 參考擁有沒有 _屬性 ces cti ttr 參考了其他的博客：http://ghostfromheaven.iteye.com/blog/1562618 #-*- encoding=utf-8 -*- print ‘--------------

selenium + python自動化測試unittest框架學習（三）webdriver對頁面其他控件操作（三）

文件的文件路徑內容 option selenium script web 對話對話框 1.對話框，下拉框（1）對話框的有兩種，一種是iframe格式的，需要switch_to_iframe()進行定位，現在大部分的對話框是div格式的，這種格式的可以通過層級定位來定

selenium + python自動化測試unittest框架學習（三）webdriver元素定位（一）

倒數節點大於文本框 webdriver 而且單標簽 unit 遍歷 1.Webdriver原理 webdirver是一款web自動化操作工具，為瀏覽器提供統一的webdriver接口，由client也就是我們的測試腳本提交請求，remote server瀏覽器進行響

selenium + python自動化測試unittest框架學習（四）python導入模塊及包知識點

腳本 selenium imp pat 程序文件 sel sys module 在寫腳本的時候，發現導入某些模塊，經常報錯提示導入模塊失敗，這裏來惡補下python導入模塊的知識點。 1.模塊導入時文件查找順序在腳本中，import xxx模塊時的具體步驟：（1）新建

Java集合框架學習（一）List

collect 有序集合 original package images 遍歷容量 exp 子類先附一張Java集合框架圖。從上面的集合框架圖可以看到，Java集合框架主要包括兩種類型的容器，一種是集合（Collection），存儲一個元素集合，另一種是圖（M

tcpdump 學習（3）：MySQL Query

說明 server gen rollback 命令復雜 pro 關於 col 在MySQL線上環境我們一般只打開了binary log，slow log，有時我們需要查看general log呢？因為該log記錄所有的請求，打開該日誌肯定給磁盤造成很大壓力，IO能力有所下

Django學習（3）模板定制

ase 我們頻繁 ping upload shang star 2.0 asc 　　在Django學習（一）一首情詩中，views.py中HTML被直接硬編碼在代碼之中，雖然這樣便於解釋視圖是如何工作的，但直接將HTML硬編碼到視圖卻不算一個好主意。因為：對頁面設計進

機器學習基石筆記11——機器可以怎樣學習（3）

1.2 div esc 怎樣學習 clas regress 1.3 1.4 Lecture 11： Linear Models for Classification 11.1 Linear Models for Binary Classification 11.2 S

MapReduce框架學習（3）——Job的建立及配置

0

3.1 程式碼

3.2 建立Job

3.3 打包作業

3.4 設定各個環節的函式

3.5 設定輸入輸出資料型別

3.6 設定輸入輸出檔案目錄

3.7 提交併執行作業

單個任務的執行

多個任務執行

3.x 後記

相關推薦