wordcount代碼實現詳解

阿新 • • 發佈：2017-07-13

常量內部 t對象 mit sta see .org 系統配置 ioe

/**
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package org.apache.hadoop.examples;
//導入必要的package
import java.io.IOException;        //報錯類                                       
import java.util.StringTokenizer;  //StringTokenizer類，用於將空白字符作為分割符的類

import org.apache.hadoop.conf.Configuration;//Hadoop中用於讀取配置信息的類
import org.apache.hadoop.fs.Path;           //有關文件系統輸入輸出數據的類
import org.apache.hadoop.io.IntWritable;    //封裝定義了IntWritable類
import org.apache.hadoop.io.Text;           //封裝定義了Text類
import org.apache.hadoop.mapreduce.Job;     //封裝定義了Job類
import org.apache.hadoop.mapreduce.Mapper;  //封裝定義了Mapper類
import org.apache.hadoop.mapreduce.Reducer; //封裝定義了Reducer類
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;   //文件輸入要用到的類
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; //文件輸出要用到的類
import org.apache.hadoop.util.GenericOptionsParser;             //GenericOptionsParser類，用來解釋常用hadoop命令，並根據需要為Configuration對象設置相應的值

public class WordCount {

  public static class TokenizerMapper 
       extends Mapper<Object, Text, Text, IntWritable>{         //自定義的TokenizerMapper類，繼承自前面導入的Mapper類
    
    private final static IntWritable one = new IntWritable(1);  //實例化了一個IntWritable類的one對象並賦值為常量1
    private Text word = new Text();                             //實例化了一個Text類的對象word
      
    public void map(Object key, Text value, Context context     //定義Map方法
                    ) throws IOException, InterruptedException {

//這裏說一下context類，它是Mapper的一個內部類，它用來與MapReduce系統進行通信，如把map的結果傳給reduce處理。簡單的說頂級接口用它在map或是reduce任務中跟蹤task的狀態，MapContext就是記錄了map執行的上下文，在mapper類中，這個context可以存儲一些job conf的信息，同時context作為了map和reduce執行中各個函數的一個橋梁，我們可以在map函數中處理這個信息

      StringTokenizer itr = new StringTokenizer(value.toString());//實例化了一個以空白字符為分隔符的StringTokenizer類的對象itr
      while (itr.hasMoreTokens()) {//如果判斷還有下一個分隔符（空格）
        word.set(itr.nextToken()); //則輸出並返回之間的字符串給word
        context.write(word, one);  //context.write方法將（word，1）這樣的二元組存入context中
      }
    }
  }
  
  public static class IntSumReducer                           //自定義的IntSumReducer類，繼承自前面導入的Reducer類                             
       extends Reducer<Text,IntWritable,Text,IntWritable> {
    private IntWritable result = new IntWritable();           //實例化了一個IntWritable類的result對象

    public void reduce(Text key, Iterable<IntWritable> values,Context context//定義Reduce方法，這裏叠代器（Iterator）是一種設計模式，它是一個對象，它可以遍歷並選擇序列（IntWritable）中的對象，而開發人員不需要了解該序列的底層結構。
                       ) throws IOException, InterruptedException {
      int sum = 0;
      for (IntWritable val : values) {
        sum += val.get();//將該詞的出現次數相加
      }
      result.set(sum);//將sum賦給result
      context.write(key, result);//輸出最終結果
    }
  }

  public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
  //運行MapReduce程序前都要初始化Configuration，該類主要是讀取MapReduce系統配置信息，這些信息包括hdfs還有MapReduce，也就是安裝hadoop時候的配置文件例如：core-site.xml、hdfs-site.xml和mapred-site.xml等等文件裏的信息，有些童鞋不理解為啥要這麽做，這個是沒有深入思考MapReduce計算框架造成，我們程序員開發MapReduce時候只是在填空，在map函數和reduce函數裏編寫實際進行的業務邏輯，其它的工作都是交給MapReduce框架自己操作的，但是至少我們要告訴它怎麽操作啊，比如hdfs在哪裏，MapReduce的jobstracker在哪裏，而這些信息就在conf包下的配置文件裏。

    String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();
    if (otherArgs.length < 2) {
      System.err.println("Usage: wordcount <in> [<in>...] <out>");
      System.exit(2);
    }//If的語句好理解，就是運行WordCount程序時候一定是兩個參數，如果不是就會報錯退出。至於第一句裏的GenericOptionsParser類，它是用來解釋常用hadoop命令，並根據需要為Configuration對象設置相應的值
    Job job = Job.getInstance(conf, "word count");//用Job.getInstance方法設置作業名為word count
    job.setJarByClass(WordCount.class);           //為job的輸出數據設置Key類
    job.setMapperClass(TokenizerMapper.class);    //設置Mapper類(Map階段使用)
    job.setCombinerClass(IntSumReducer.class);    //設置Combiner類（中間合並結果）
    job.setReducerClass(IntSumReducer.class);     //設置Reducer類（Reduce階段使用）
    job.setOutputKeyClass(Text.class);            //為job的輸出數據設置Key類，規定Reduce輸出的Key類型為Text
    job.setOutputValueClass(IntWritable.class);   //設置Reduce輸出的Value類型為IntWritable
    
    for (int i = 0; i < otherArgs.length - 1; ++i) { //設置輸入輸出路徑      
      FileInputFormat.addInputPath(job, new Path(otherArgs[i]));
    }
    FileOutputFormat.setOutputPath(job,
      new Path(otherArgs[otherArgs.length - 1]));
    System.exit(job.waitForCompletion(true) ? 0 : 1);//等待任務執行完畢退出
  }
}

wordcount代碼實現詳解

常量內部 t對象 mit sta see .org 系統配置 ioe /** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agre

c語言—棧區，堆區，全局區，文字常量區，程序代碼區詳解

註意進制但是 ack int 運行時內存區域否則數組轉：http://www.cnblogs.com/xiaowenhui/p/4669684.html 一、預備知識—程序的內存分配一個由C/C++編譯的程序占用的內存分為以下幾個部分1、棧區（stack）—

Django 前後端不分離代碼結構詳解

stat file .site ini sta 文件的 ase numeric 輸出結果 Demo: hello_pycharm 根目錄文件：hello_pycharm [__init__.py __pycache__ settings.py urls.py ws

python 小數據池、代碼塊詳解

得到 pyc 長度超過新的小寫 bsp div 開始　　首先我們來看看下面的問題，第一次遇到還以為見鬼了。看到上面這麽多種情況剛開始直接就懵逼了。100ID一樣，1000就不一樣。終端運行情況居然會和pycharm不一

WordCount代碼實現及測試

splay 快速基礎網絡信息測試宋體當前計算 ret 1.項目地址：開發者：201631062515 201631062415 碼雲地址：https://gitee.com/heshuxiang/WordCount/tree/master 2.項目需求

視訊轉碼技術及轉碼實現詳解

IDC分析指出了三種主要的轉碼需求：不同視訊格式間的轉換，例如從MPEG-2或者MPEG-4轉到H.264；內容傳輸，改變位元率滿足不同網路頻寬或者裝置播放速度的需求；清晰度，將高清視訊轉為標清甚至更低的清晰度，後者反向處理。典型的例子是，為了進行編輯並將資訊上載到網站(

後綴自動機多圖詳解（代碼實現）

論證 point ubunt 動態添加 xtend == 擴大 min 後綴自動機作者註：搭配理論證明類的$SAM$博客閱讀，效果更佳。作者水平較低，時間有限，只講實現，不再胡亂證明。後綴自動機是一種在線的，動態添加字符擴展字符串的算法。蒟蒻深知沒圖的痛苦，這裏放一

實現高性能糾刪碼引擎 | 糾刪碼技術詳解（下）

糾刪碼引擎基礎知識深入優化技術工程師作者介紹：徐祥曦，七牛雲工程師，獨立開發了多套高性能糾刪碼/再生碼編碼引擎。柳青，華中科技大學博士，研究方向為基於糾刪碼的分布式存儲系統。前言：在上篇《如何選擇糾刪碼編碼引擎》中，我們簡單了解了 Reed-Solomon Codes（RS 碼

大數據學習——MapReduce配置及java代碼實現wordcount算法

鍵值 example nds clas spl key lru 這樣的 java_home ---恢復內容開始--- 配置MapReduce需要在之前配置的基礎上配置兩個xml文件一個是yarn-site.xml一個是mapred-site.xml，在之前配置的hadoop

MapReduce編寫wordcount程序代碼實現

經典 .com .class count -o args val ring xtend MapReduce經典案例代碼（wordcount）以經典的wordcount為例，通過自定義的mapper和reducer來實現單詞計數 package com.fwmagic.ma

java壓縮文件解壓：調用WinRAR5命令強於自己寫代碼實現

成功 cat val value util sub 屬性 eal mon 最近，手上維護著一個幾年前的系統，技術是用的JSP+Strust2，系統提供了rar和zip兩種壓縮格式的解壓功能，後臺是用java實現的 1、解壓rar格式，采用的是java-unrar-0.3.j

PHP實現的封裝驗證碼類詳解

用PHP寫一個驗證碼類，並進行封裝。類名： validationcode.class.php程式碼如下：程式碼如下: <?php class ValidationCode { private $width; private $height; private $codeNum; pri

胡扯一點代碼實現小技巧啦啦啦~ x

cnblogs ++ 利用喜歡代碼實現 ron 等價 -s size 一. for(int t=m; t; t--) a[++n] = b[t]; // 循環中間的 t：非零即真，遇到 t=0 才停下 int ans(0); // 效果等價於 ans=0

C++筆記(5)：繼承和多態代碼實現

c++筆記 esp 變量 main style cnblogs radius 區分 fine Shape.h 1 #ifndef SHAPE_H 2 #define SHAPE_H 3 #include<string> 4 using std::str

IOS布局筆記一（代碼實現自己主動布局）

tde tps space sina idt normal title 2014年 otto 1.將一個試圖放置在其父視圖的中央位置,使用限制條件。 2.創建兩個限制條件:一個是將目標視圖的 center.x 位置排列在其父視圖的 center.x 位置,而且另

【轉載】對一致性Hash算法，Java代碼實現的深入研究

困難之前存在 itl ger 正常我不操作算法實現原文地址：http://www.cnblogs.com/xrq730/p/5186728.html 一致性Hash算法關於一致性Hash算法，在我之前的博文中已經有多次提到了，MemCache超詳細解讀一

HTML5遊戲實戰之20行代碼實現打地鼠

before line asc win csdn 實戰動畫 and wiki 之前寫過一篇打地鼠的博客70行的代碼實現打地鼠遊戲，細致思考過後，發現70行代碼都有點多余了，應用tangide的控件特性，能夠將代碼量縮減到20行左右。先show一下終於成果，點擊試

Canny邊緣檢測算法原理及其VC實現詳解(一)

常用差分實現圖還需要鏈接傳感器出了關系位置轉自：http://blog.csdn.net/likezhaobin/article/details/6892176 圖象的邊緣是指圖象局部區域亮度變化顯著的部分，該區域的灰度剖面一般可以看作是一個階躍，既從

100行代碼實現最簡單的基於FFMPEG+SDL的視頻播放器（SDL1.x）【轉】

對一致性Hash算法，Java代碼實現的深入研究

memcach 還原情況 () 實用 target 強人最壞情況一致性hash 一致性Hash算法關於一致性Hash算法，在我之前的博文中已經有多次提到了，MemCache超詳細解讀一文中"一致性Hash算法"部分，對於為什麽要使用一致性Hash算法、一致性Has

wordcount代碼實現詳解

相關推薦