MapReduce編程模型詳解（基於Windows平臺Eclipse）

阿新 • • 發佈：2018-05-03

lib read 找到 lin @override ext logs 設置 otf

本文基於Windows平臺Eclipse，以使用MapReduce編程模型統計文本文件中相同單詞的個數來詳述了整個編程流程及需要註意的地方。不當之處還請留言指出。

前期準備

hadoop集群的搭建

編程環境搭建

1、將官網下載的hadoop安裝包解壓，並記住下圖所示的目錄

技術分享圖片

2、創建java project，右鍵工程--->build path--->Configure build path

技術分享圖片

3、進行如下圖操作

技術分享圖片

4、新建MapReduce編程要使用的環境包，如下圖操作

技術分享圖片

5、將下圖所示的commom包以及lib文件夾下所有的包導入

技術分享圖片

6、將下圖所示的hdfs包和lib文件夾下所有的包導入

技術分享圖片

7、將下圖所示的包以及lib文件夾下所有的包導入

技術分享圖片

8、將下圖所示的包以及lib文件夾下的所有包導入

技術分享圖片

9、將新建的好的hadoop_mr庫導入

技術分享圖片

編寫map階段的map函數

package com.cnblogs._52mm;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
/**
 * 第一個參數：默認情況下是mapreduce框架所讀文件的起始偏移量,類型為Long，在mr框架中類型為LongWritable
 * 第二個參數：默認情況下是框架所讀到的內容，類型為String，在mr框架中為Text
 * 第三個參數：框架輸出數據的key，在該單詞統計的編程模型中輸出的是單詞，類型為String，在mr框架中為Text
 * 第四個參數：框架輸出數據的value，在此是每個所對應單詞的個數，類型為Integer,在mr框架中為IntWritable
 * @author Administrator
 *
 */
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
//  map階段的邏輯
//  對每一行輸入數據調用一次我們自定義的map（）方法
    @Override
    protected void map(LongWritable key, Text value, Context context)throws IOException, InterruptedException {
//      將傳入的每一行數據轉為String
        String line = value.toString();
//      根據空格將單詞劃分
        String[] words = line.split(" ");
        
        for(String word: words){
            //將word作為輸出的key，1作為輸出的value    <word,1>
            context.write(new Text(word), new IntWritable(1));
        }
//      mr框架不會在map處理完一行數據就發給reduce，會先將結果收集
    }
}

編寫reduce階段的reduce函數

package com.cnblogs._52mm;

import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

/**
 * reduce的輸入是map的輸出
 * 第一個和第二個參數分別是map的輸出類型
 * 第三個參數是reduce程序處理完後的輸出值key的類型，單詞，為Text類型
 * 第四個參數是輸出的value的類型，每個單詞所對應的總數，為IntWritable類型
 * @author Administrator
 *
 */
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{
    /**
     * map輸出的內容相當於:
     *          <i,1><i,1><i,1><i,1><i,1><i,1>...
     *          <am,1><am,1><am,1><am,1><am,1><am,1>...
     *          <you,1><you,1><you,1><you,1><you,1><you,1>...   
     */
    
    
    @Override
    protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int count = 0;
        
//      Iterator<IntWritable> iterator = values.iterator();
//      while(iterator.hasNext()){
//          count += iterator.next().get();
//      }
        
        for(IntWritable value: values){
            count += value.get();
        }
        
        context.write(key, new IntWritable(count));
    }
}

編寫驅動類

package com.cnblogs._52mm;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;



/**
 * 相當於yarn集群的客戶端，封裝mapreduce的相關運行參數，指定jar包，提交給yarn
 * @author Administrator
 *
 */
public class WordCountDriver {
    
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        
        Configuration conf = new Configuration();
//      將默認配置文件傳給job
        Job job = Job.getInstance(conf);
        
//      告訴yarn  jar包在哪
        job.setJarByClass(WordCountDriver.class);
        
        //指定job要使用的map和reduce
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);
        
//      指定map的輸出類型
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(IntWritable.class);
        
//      指定最終輸出的類型
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(IntWritable.class);
        
//      job的輸入數據所在的目錄
//      第一個參數：給哪個job設置
//      第二個參數：輸入數據的目錄，多個目錄用逗號分隔
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        
//      job的數據輸出在哪個目錄
        FileOutputFormat.setOutputPath(job, new Path(args[1]));
        
        //將jar包和配置文件提交給yarn
//      submit方法提交作業就退出該程序
//      job.submit();
        
//      waitForCompletion方法提交作業並等待作業執行
//      true表示將作業信息打印出來，該方法會返回一個boolean值，表示是否成功運行
        boolean result = job.waitForCompletion(true);
//      mr運行成功返回true，輸出0表示運行成功，1表示失敗
        System.exit(result?0:1);
    }
    
}

運行MapReduce程序

1、打jar包（鼠標右鍵工程-->Export）

技術分享圖片

2、上傳到hadoop集群上（集群中的任何一臺都行）,運行

#wordcounrt.jar是剛剛從eclipse打包上傳到linux的jar包
#com.cnblogs._52mm.WordCountDriver是驅動類的全名
#hdfs的/wordcount/input目錄下是需要統計單詞的文本
#程序輸出結果保存在hdfs的/wordcount/output目錄下（該目錄必須不存在，由hadoop程序自己創建）
hadoop jar wordcount.jar com.cnblogs._52mm.WordCountDriver /wordcount/input /wordcount/output

技術分享圖片

3、也可用yarn的web界面查看作業信息

技術分享圖片

ps：在這裏可以看到作業的詳細信息，失敗還是成功一目了然

4、查看輸出結果

hadoop fs -cat /wordcount/output/part-r-00000

也可查看hdfs的web界面
技術分享圖片

報錯解決

Error: java.io.IOException: Unable to initialize any output collector
    at org.apache.hadoop.mapred.MapTask.createSortingCollector(MapTask.java:412)
    at org.apache.hadoop.mapred.MapTask.access$100(MapTask.java:81)
    at org.apache.hadoop.mapred.MapTask$NewOutputCollector.<init>(MapTask.java:695)
    at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:767)
    at org.apache.hadoop.mapred.MapTask.run(MapTask.java:341)
    at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:163)
    at java.security.AccessController.doPrivileged(Native Method)
    at javax.security.auth.Subject.doAs(Subject.java:415)
    at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1692)
    at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

該錯誤是由於編寫代碼時impor了錯誤的包導致的（我錯在Text包導錯了），仔細檢查一下，改正後重新打jar包上傳。

 Output directory hdfs://mini1:9000/wordcount/output already exists

顯然，該錯誤是由於reduce的輸出目錄必須是不存在才行，不能自己在hdfs上手動創建輸出目錄。

總結

map函數和reduce函數的輸入輸出類型要用hadoop提供的基本類型（可優化網絡序列化傳輸）
LongWritable類型相當於java的Long類型，IntWritable類型相當於java的Integer類型，Text類型相當於java的String類型
reduce函數的輸入類型等於map函數的輸出類型
Job對象控制整個作業的執行。
job對象的setJarByClass()方法傳遞一個類，hadoop利用這個類來找到相應的jar文件
運行作業前，輸出目錄不應該存在，否則hadoop會報錯（為了防止覆蓋了之前該目錄下已有的數據）
setOutputKeyClass()和setOutputValueClass()控制map和reduce函數的輸出類型，這兩個函數的輸出類型一般相同，如果不同，則通過setMapOutputKeyClass()和setMapOutputValueClass()來設置map函數的輸出類型。
輸入數據的類型默認是TextInputFormat（文本），可通過InputFormat類來改變。
Job中的waitForCompletion()方法提交作業並等待執行完成，傳入true作為參數則會將作業的詳細信息打印出來。作業執行成功返回true，執行失敗返回false。

作者：py小傑

博客地址：http://www.cnblogs.com/52mm/

本文版權歸作者和博客園共有，歡迎轉載，但未經作者同意必須保留此段聲明，且在文章頁面明顯開頭給出原文鏈接。

MapReduce編程模型詳解（基於Windows平臺Eclipse）

lib read 找到 lin @override ext logs 設置 otf 本文基於Windows平臺Eclipse，以使用MapReduce編程模型統計文本文件中相同單詞的個數來詳述了整個編程流程及需要註意的地方。不當之處還請留言指出。前期準備 hadoop集群

Vue.js 運行環境搭建詳解（基於windows的手把手安裝教學）及vue、node基礎知識普及

頁面沒有全能服務器程序重載帶來 size 耐心編程　　Vue.js 是一套構建用戶界面的漸進式框架。他自身不是一個全能框架——只聚焦於視圖層。因此它非常容易學習，非常容易與其它庫或已有項目整合。在與相關工具和支持庫一起使用時，Vue.j

制作自己的Setup.exe-程序打包詳解（基於Visual Studio 2015）

忘記圖片安裝文件 for int .com create rtc gis 序言　　第一次打包程序，新手，遂作筆記如下，以供自己忘記細節時翻看，也供同樣新手或有需要者以為參考。不敢班門弄斧，大神若是誤入還請莫要見笑。　　以下所述基於Visual Studio 2015

redis的事件模型詳解（結合Reactor設計模式）

文章基於redis-4.0.1原始碼詳細介紹一下redis的事件模型。一、redis事件模型概覽 redis是一個事件驅動的服務程式，在redis的服務程式中存在兩種型別的事件，分別是檔案事件和時間事件。檔案事件是對網路通訊操作的統稱

ARM64核心系統呼叫詳解（基於kernel-4.9）

本文以ARM64為例，介紹如何新增系統呼叫，首先來介紹一些程式碼執行流程：首先來看異常向量表的配置，核心在arch/arm64/kernel/entry.S彙編程式碼中設定了異常向量表。 /* * Exception vectors. */

Vue.js 執行環境搭建詳解（基於windows的手把手安裝教學）及vue、node基礎知識普及

Vue.js 是一套構建使用者介面的漸進式框架。他自身不是一個全能框架——只聚焦於檢視層。因此它非常容易學習，非常容易與其它庫或已有專案整合。在與相關工具和支援庫一起使用時，Vue.js 也能完美地驅動複雜的單頁應用。　　在配置環境之前呢，有些基礎的東西還是要和大家普及一

Intel硬編碼（二）：不定長指令、ModR/M與SIB詳解（基於P6微架構）

Intel硬編碼（一）：Opcode Map、定長指令與指令字首我們在Opcode Map中提到定長指令的索引方式，也分析了比較常見的一些定長指令，接著我們就要進行不定長指令的分析了。所謂不定長指得是SIB部分、Displcement、Immediate三部

（十三）linux檔案系統詳解（基於ext2檔案系統）

　　我們知道，一個磁碟可以劃分成多個分割槽，每個分割槽必須先用格式化工具（例如某種mkfs命令）格式化成某種格式的檔案系統，然後才能儲存檔案，格式化的過程會在磁碟上寫一些管理儲存佈局的資訊。下圖是一個磁碟分割槽格式化成ext2檔案系統後的儲存佈局：

綜合運用: C++11 多線程下生產者消費者模型詳解（轉）

並發 rep 生產我會交流模型操作 const ref 生產者消費者問題是多線程並發中一個非常經典的問題，相信學過操作系統課程的同學都清楚這個問題的根源。本文將就四種情況分析並介紹生產者和消費者問題，它們分別是：單生產者-單消費者模型，單生產者-多消費者模型，多生產

MapReduce編程模型

.cn map com map() alt 列表 ron 元素過程 MapReduce編程模型一種分布式計算模型框架，解決海量數據的計算問題 MapReduce將整個並行計算過程抽象到兩個函數　　map(映射)：對一些獨立元素組成的列表的每一個元素進行指定的操作，可以

Git遠程操作詳解（新手必備）

tar etc rename 也有 mas 本地文件轉載其中 efault Git是目前最流行的版本管理系統，學會Git幾乎成了開發者的必備技能。 Git有很多優勢，其中之一就是遠程操作非常簡便。本文詳細介紹5個Git命令，它們的概念和用法，理解了這些內容，你就會完全掌

python3多線程應用詳解（第一卷：線程的本質概念）

本質函數解釋 style height auto 進行 mage pla 之前我用過多線程的方式執行了爬蟲程序，爬取了糗事百科的數據可以看到速率非常之快，就像正常一個人他要完一個漢堡，再吃喝一瓶水才能走，結果他邊吃漢堡邊喝水，速率一下加快了一樣。首先我們看看什麽是線程：

python3多線程應用詳解（第三卷：圖解多線程中join，守護線程應用）

圖解 pytho inf bubuko post 圖片 clas info blog python3多線程應用詳解（第三卷：圖解多線程中join，守護線程應用）

python3多線程應用詳解（第四卷：圖解多線程中LOCK）

python3 9.png image 任務來看 info 對比 body pos 先來看下圖形對比：發現沒有這種密集型計算的任務中，多線程沒有穿行的速率快，原因就是多線程在線程切換間也是要耗時的而密集型計算任務執行時幾乎沒以偶IO阻塞，這樣你說誰快python

Flume NG高可用叢集搭建詳解（基於flume-1.7.0）

1、Flume NG簡述 Flume NG是一個分散式，高可用，可靠的系統，它能將不同的海量資料收集，移動並存儲到一個數據儲存系統中。輕量，配置簡單，適用於各種日誌收集，並支援 Failover和負載均衡。並且它擁有非常豐富的元件。Flume NG採用的是三層架構：Agent層，Collecto

MapReduce內部shuffle過程詳解（Combiner的使用）

Maptask呼叫一個元件FileInputFormat FileInputFormat有一個最高層的介面 --> InputFormat 我們不需要去寫自己的實現類，使用的就是內部預設的元件：TextInputFormat maptask先呼叫TextInputFormat,

非對稱加密過程詳解（基於RSA非對稱加密演算法實現）

1、非對稱加密過程：假如現實世界中存在A和B進行通訊，為了實現在非安全的通訊通道上實現資訊的保密性、完整性、可用性（即資訊保安的三個性質），A和B約定使用非對稱加密通道進行通訊，具體過程如下：說明：國內目前使用雙證書體系，即

Rabbitmq詳解（基於go語言）

參考文件 RMQ的安裝和埠手動安裝太麻煩，請自行百度。這裡只給出一種基於docker安裝的簡單形式。 docker run -d --hostname my-rabbit --name rmq -p 15672:15672 -p 5

Java線程池詳解（圖解）

max imp rgs 註意毫秒的區別 stub 否則插入斷線來源：www.jianshu.com/p/098819be088c 前言 Java中的線程池十分重要，無論是在實際應用中還是應對面試一、線程池原理 1.1 使用線程池的好處

機器學習中的概率模型和概率密度估計方法及 VAE生成式模型詳解（之二）

簡介非監督機器學習（Unsupervised Machine Learning）中的資料分佈密度估計（Density Estimation）、樣本取樣（Sampling）與生成（Generation，或Synthesis，即合成）等幾類任務具有重要的應用價值，這從近

MapReduce編程模型詳解（基於Windows平臺Eclipse）

前期準備

編程環境搭建

編寫map階段的map函數

編寫reduce階段的reduce函數

編寫驅動類

運行MapReduce程序

報錯解決

總結

相關推薦