hadoop word count 學習總結

阿新 • • 發佈：2019-02-02

hadoop wordcount學習總結

需求

實現對文字檔案中各個單詞數量的統計，文字檔案的內容在hdfs檔案系統的/srcdata目錄下，檔名稱為test.txt，檔案內容如下：

wo shi yi
zhi xiao yang
mao wo e e e
e heng heng heng

輸出資料夾為output資料夾。

程式

  在eclipse 上新建一個java工程，匯入hadoop目錄下面的hadoop-2.7.3\share\hadoop目錄中的java包，此目錄下所有的包都加入。新建一個包，包名為app，mapreduce分為兩個部分，第一個部分為map階段，wordcount的map程式的功能為：
  將輸入的行文字拆分成單詞輸出至reduce階段。
   map階段的類取名為WordMap，程式碼如下所示：

package app;
import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
//kv:輸入資料KV對中的key的資料型別
//valueIn:輸入kv資料對中的value資料型別
//keyout 輸出kv資料的資料型別
//value 輸出kv中value的資料型別
public class 
 WordMap extends Mapper<LongWritable,Text,Text,IntWritable>
{
    protected void map(LongWritable key,Text value,Context context) throws IOException, InterruptedException 
    {
        String str = value.toString();
        //將一行文字分成單詞
        String[] words = str.split(" ");

        //輸出單詞用<單詞，1> 

        for(String word:words)
        {
            System.out.println("map:"+word);
            context.write(new Text(word),new  IntWritable(1));
        }
    }
}

  這個Mapper類是一個泛型型別，它有四個引數型別，分別指定map函式的輸入鍵、輸入值、輸出鍵和輸出值的型別。就現在這個例子來說，輸入鍵是一個長整數便宜，輸入值是一行文字，輸出鍵是單詞，輸出值是1。
  當map階段執行完成之後，hadoop會將相同具有相同鍵值的k-v對輸出到recuder中，hadoop mapreduce 的執行原理如下圖所示

   reducer類名為：WordReduce，程式碼如下：

package app;

import java.io.IOException;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

class WordReduce extends Reducer<Text,IntWritable,Text,IntWritable>
{
    protected void reduce(Text key,Iterable<IntWritable> values,Context context) throws IOException, InterruptedException
    {
        int count =0;

        for(IntWritable value:values)
        {

            System.out.println("reduce:"+value);
            count = count + value.get();
        }
        //輸出單詞的總次數
        context.write(key, new IntWritable(count));
    }
}

reducer類的輸入要和map類的輸出型別一致，這個reducer類的作用是將相同鍵值的次數相加，最後再進行輸出。
除了mapreduce類，還要一個job提交類，job提交類取名為WordSubmit，這個類程式碼如下：

package app;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;


public class WordSubmit {

    public static void main(String [] args) throws IOException, ClassNotFoundException, InterruptedException
    {
        Configuration conf =  new Configuration();
        Job wJob = Job.getInstance(conf);

        //指定job指定的jar包位置
        wJob.setJarByClass(WordSubmit.class);

        wJob.setMapperClass(WordMap.class);
        wJob.setReducerClass(WordReduce.class);
        //
        wJob.setMapOutputKeyClass(Text.class);
        wJob.setMapOutputValueClass(IntWritable.class);
        wJob.setOutputKeyClass(Text.class);
        wJob.setOutputValueClass(IntWritable.class);

        //設定要處理文字的資料在哪裡

        FileInputFormat.setInputPaths(wJob, "hdfs://127.0.0.1:9000/srcdata");
        //最終輸出結果所存放的路徑
        FileOutputFormat.setOutputPath(wJob, new Path("hdfs://127.0.0.1:9000/output"));

        wJob.waitForCompletion(true);

    }
}

我的執行環境為centos，開發環境為eclipse,需要指定指定引數和hadoop native庫，啟動引數設定為Debug configurations ，啟動引數設定如下圖所示。

兩個引數配置可以檢視http://yeelor.iteye.com/blog/1991075
最後是執行結果，如下所示：

e       4
heng    3
mao     1
shi     1
wo      2
xiao    1
yang    1
yi      1
zhi     1

hadoop word count 學習總結

hadoop wordcount學習總結需求實現對文字檔案中各個單詞數量的統計，文字檔案的內容在hdfs檔案系統的/srcdata目錄下，檔名稱為test.txt，檔案內容如下： wo shi yi zhi xiao yang ma

Hadoop AWS Word Count 樣例

執行 export config str oop exp rri interrupt [1] 在AWS裏用Elastic Map Reduce 開一個Cluster然後登陸master node並編譯下面程序：import java.io.IOException; im

Mac下hadoop運行word count的坑

ack world apache 默認轉換成 OS 刪除 .lib logs Mac下hadoop運行word count的坑 Word count體現了Map Reduce的經典思想，是分布式計算中中的hello world。然而博主很幸運地遇到了Mac下特有的問題Mk

Hadoop錯誤: put: Lease mismatch on ... by DFSClient_NONMAPREDUCE_-499992815_1.... 學習總結

錯誤總結分享: 使用了hadoop挺長時間了，多數人應該很熟悉它的特點了吧，但是今天突然遇到個錯誤，從來沒見過，一時自己也想不到是什麼原因，就在網上查了一些資料，得到了解決的辦法，再次分享一下。過程: 使用kettle

學習總結 - swift介面卡為 Hadoop 的儲存層增加對 OpenStack Swift 的支援

雖然文件內所涉及的版本有點舊，但內容很精彩，值得推薦背景在 Hadoop 中有一個抽象檔案系統的概念，它有多個不同的子類實現，由 DistributedFileSystem 類代表的 HDFS 便是其中之一。在 Hadoop 的 1.x 版本中，HDFS 存在 NameNode 單點故障

大資料學習總結（一）分散式Hadoop系統

Scala tips：在前面的類層次結構圖中可以看到，Null型別是所有AnyRef型別的子型別，也即它處於AnyRef類的底層，對應java中的null引用。而Nothing是scala類中所有類的子類，它處於scala類的最底層。近期投入大資料組工作，就寫一

pyspark學習（一）-- 入門程式word count

1. 學習spark的第一個程式 wordcount 先說下本人的開發環境和工具： win10spark 1.6python 2.7pycharm什麼是word count？單詞計數為什麼第一個程式是它，helloword呢？基本上是學習hadoop的mapreduce

個人hadoop學習總結：Hadoop叢集+HBase叢集+Zookeeper叢集+chukwa監控（包括單機、偽分佈、完全分佈安裝操作）

環境介紹：虛擬機器四個： hadoop-marster hadoop-salve1 hadoop-salve2 hadoop-salve3 ===========================1.Hadoop==============================

Hadoop MapReduce案例word count本地環境執行時遇到的一些問題

問題一載入不到主類原因：我一開始建立的是Map/Reduce Project, 它會直接去我本地安裝的hadoop裡面尋找相應的jar包。但是由於我一開始將hadoop放在D:\Program Files資料夾下，應為該路徑中間有個空格，所以沒有找到相應的jar包。解

設計模式學習總結（八）策略模式(Strategy)

isp 筆記本 override div ont 角色 write stat 通過　　策略模式，主要是針對不同的情況采用不同的處理方式。如商場的打折季，不同種類的商品的打折幅度不一，所以針對不同的商品我們就要采用不同的計算方式即策略來進行處理。　　一、示例展示：　　以

設計模式學習總結（七）適配器模式(Adapter)

實現接口國外手機額外 sed ges program ebe 通過　　適配器模式主要是通過適配器來實現接口的統一，如要實現國內手機在國外充電，則需要在不同的國家采用不同的適配器來進行兼容！　　一、示例展示：　　以下例子主要通過給筆記本電腦添加類似手機打電話和發短

Linux下常用命令之sed學習總結

linux sed sed命令正則表達式 sed總結 Sed功能說明：Sed是linux下一個強大的文本文件處理工具，通過對文件增加、刪除、查找、查詢操作，配合正則表達式以實現工作中的各種需求。同時也是一名運維人員必須掌握的核心技能。---------------------------

Paxos 學習總結

max 更強分開由於 zab ted 偽代碼 big commit 近期學習了分布式領域的重要算法Paxos，這裏羅列下關鍵點當作總結。自己水平有限，難免存在謬誤，懇請讀者指正。本篇不包含Paxos的基本理論介紹。Paxos基礎能夠參考以下的學習資料

Java IO流學習總結

系統指針數組 rar amr redo 修改接收學習 Java IO流學習總結 Java流操作有關的類或接口： Java流類圖結構：流的概念和作用流是一組有順序的，有起點和終點的字節集合，是對數據傳輸的總稱或抽象。即數據在兩設備間的傳輸稱為流，流

201521044091 《Java程序設計》第11周學習總結

概念 ray 本周 art pre sign 繼續 not 生產 1. 本章學習總結 2. 書面作業 Q1.1.互斥訪問與同步訪問完成題集4-4(互斥訪問)與4-5(同步訪問)　1.1 除了使用synchronized修飾方法實現互斥同步訪問，還有什麽辦法實現互斥同步訪

201521123087 《Java程序設計》第11周學習總結

syn finally ktr comm 解鎖 cer 存取 ren 進行 1. 本周學習總結 2. 書面作業本次PTA作業題集多線程互斥訪問與同步訪問完成題集4-4(互斥訪問)與4-5(同步訪問)1.1 除了使用synchronized修飾方法實現互斥同步訪

201521123105 第11周Java學習總結

同步互斥生產 tor 什麽 signal 源代碼 final 本周執行 1. 本周學習總結 1.1 以你喜歡的方式（思維導圖或其他）歸納總結多線程相關內容。 2. 書面作業本次PTA作業題集多線程 1. 互斥訪問與同步訪問完成題集4-4(互斥訪問)與4-5(同步訪

201521123089 《Java程序設計》第11周學習總結

提交 trac 消費者生產者消費者問題 start nal 出現選擇查詢 1. 本周學習總結 1.1 以你喜歡的方式（思維導圖或其他）歸納總結多線程相關內容。 2. 書面作業本次PTA作業題集多線程 Q1.互斥訪問與同步訪問 1.1 除了使用synchroni

《構建之法》第八、九章學習總結

快速需求獲取利益相關者軟件需求用戶需求估計 bcd abcd 第八章：需求分析這一章主要講述了軟件需求的類型、利益相關者、獲取用戶需求的常用方法和步驟、競爭性需求分析的框架NABCD、四象限方法、項目計劃和估計的技術。確認軟件需求有以下步驟：1.獲取和引導需

《網絡攻防》第十周學習總結

log 64位位置 uid 操作 fff 指令攻擊匯編緩沖區溢出漏洞實踐由於實驗樓提供的是64位操作系統，而本次實驗為了方便觀察匯編語句，采用32位操作系統，所以先按照要求進行一些必要的準備先按順序輸入下面的三個命令安裝32位操作系統安裝好之

hadoop word count 學習總結

需求

程式

相關推薦