Hadoop學習筆記：（一）WordCount執行

阿新 • • 發佈：2019-01-10

前言：本文是在hadoop已經配置好的情況下

WordCount是hadoop下的HelloWorld程式，是初學者必須要會的。下面是用eclipse進行開發

一、工程與MapReduce程式碼

新建工程，建立WordCount class
下面的程式碼是舊版mapreduce

package mapreduce;

import java.io.IOException;
import java.util.Iterator;
import java.util.StringTokenizer;

import org.apache.hadoop.fs.Path;
import org.apache 
.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.FileInputFormat;
import org.apache.hadoop.mapred.FileOutputFormat;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapred.JobConf;
import org.apache 
.hadoop.mapred.MapReduceBase;
import org.apache.hadoop.mapred.Mapper;
import org.apache.hadoop.mapred.OutputCollector;
import org.apache.hadoop.mapred.Reducer;
import org.apache.hadoop.mapred.Reporter;
import org.apache.hadoop.mapred.TextInputFormat;
import org.apache.hadoop.mapred.TextOutputFormat; 


public class WordCount {

    public static class Map extends MapReduceBase implements Mapper<LongWritable, Text, Text, IntWritable> {

        private final static IntWritable one = new IntWritable(1);

        private Text word = new Text();

        public void map(LongWritable key, Text value, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {

            String line = value.toString();

            StringTokenizer tokenizer = new StringTokenizer(line);

            while(tokenizer.hasMoreTokens()){
                word.set(tokenizer.nextToken());
                output.collect(word, one);
            }
        }
    }

    public static class Reduce extends MapReduceBase implements Reducer<Text, IntWritable, Text, IntWritable> {
        public void reduce(Text key, Iterator<IntWritable> values, OutputCollector<Text, IntWritable> output, Reporter reporter) throws IOException {

            int sum = 0;

            while(values.hasNext()){
                sum += values.next().get();

            }

            output.collect(key, new IntWritable(sum));
        }
    }

    public static void main(String[] args) throws Exception {

        JobConf conf = new JobConf(WordCount.class);

        conf.setJobName("wordcount");

        conf .setOutputKeyClass(Text.class);
        conf.setOutputValueClass(IntWritable.class);

        conf.setMapperClass(Map.class);
        conf.setReducerClass(Reduce.class);

        conf.setInputFormat(TextInputFormat.class);
        conf.setOutputFormat(TextOutputFormat.class);

        FileInputFormat.setInputPaths(conf, new Path(args[0]));
        FileOutputFormat.setOutputPath(conf, new Path(args[1]));

        JobClient.runJob(conf);
    }
}

上述程式碼的執行成功離不開很多jar包，這些jar包主要在安裝的hadoop資料夾裡面。具體位置參考：

HADOOP_HOME/share/hadoop/

這裡的HADOOP_HOME是你安裝hadoop的路徑。

這個目錄下包含下面資料夾：

common
httpfs
hdfs
mapreduce
tool
yarn

其中我們的程式需要從common, mapreduce, yarn資料夾裡新增存在的所有jar包以及lib下的所有jar包（這可能有重複，只要相同的覆蓋即可）

新增好jar包後，就可以執行程式了。這裡我們要為程式配置兩個輸入。

本地測試時，直接在eclipse點選run configuration ，在arguments下的program argument下新增要統計的檔案地址以及輸出檔案路徑。

1.本地模式：測試檔案路徑輸出檔案路徑（資料都在本地）
2.HDFS檔案：hdfs://localhost/測試檔案 hdfs://localhost/輸出目錄（資料在HDFS中）

配置好了，就可以點選run運行了。

另外：

也可以用命令列

打包：用eclipse將工程打包．
執行：hadoop jar wordcount.jar input output

這裡的input最好寫成HDFS下的檔案路徑．(本地的不知道怎麼表示，試了下老報錯),好像hadoop它會預設載入hdfs的路徑．

叢集模式：

先將檔案複製到HDFS上：hadoop dfs -copyFromLocal 本地檔案　hdfs路徑
然後命令列執行：hadoop jar wordcout.jar WordCout input output

執行wordcount.jar中的ＷordCount類，input作為輸入，output作為輸出．

Hadoop學習筆記：（一）WordCount執行

前言：本文是在hadoop已經配置好的情況下 WordCount是hadoop下的HelloWorld程式，是初學者必須要會的。下面是用eclipse進行開發一、工程與MapReduce程式碼新建工程，建立WordCount class

QT5.11.1結合VS2017學習筆記：（一）環境的配置及HelloWorld的實現

前言：最近開始學習QT，由於習慣了使用VS而網上的教程大多都是基於QTCreator的，很少有基於VS的。為此，本人決定將自己學習的過程記錄下來。水平有限，有不對的地方，歡迎大家批評指正！工具及系統：VS2017，Qt5.11.1 一、環境配置 1、安

基本設計模式學習筆記：（一）常見的七種面向物件設計原則

0.概述面向物件設計原則為支援可維護性複用而誕生，這些原則蘊含在很多設計模式中，他們是從許多設計方案中總結出來的指導性原則1.單一原則一個類只負責一個功能領域中的相應職責，或者說：就一個類而言，應該只有一個引起它變化的原因。個人總結：將不同職責的方法放在

Hadoop學習之路（一）理論基礎和邏輯思維

file 工作 puts 範圍小文件集合無效任務問題三個題目第一題問題描述統計出當前這個一行一個IP的文件中，到底哪個IP出現的次數最多解決思路 //必須要能讀取這個內容 BufferedReader br = n

吳恩達老師機器學習筆記SVM（一）

時隔好久沒有再拾起機器學習了，今日抽空接著學今天是從最簡單的二維資料分類開始學習SVM~ （上圖為原始資料） SVM的代價函式這裡套用以前logistic迴歸的模板改一下下。。 load('ex6data1.mat'); theta=rand(3,1); [

python學習筆記：（九）迴圈（for和while）

　　在python中迴圈包括for和while 1、while迴圈　　while 判斷條件：　　　　statements ----表示：判斷條件為真時執行statements，為假不執行 2、for語句　　for var in seq：　　　　statements1 　　else：

Android學習筆記——Activity（一）

1.什麼是Activity （1）Activity是一個應用程式元件（2）為應用程式提供一個視覺化頁面（3）使用者通過此頁面與應用程式互動 2.啟動Act

《Effective C++》讀書筆記：（一）讓自己習慣C++

條款01：四個次語言：C、Object-Oriented C++、Template C++（泛型和模板超程式設計）、STL 條款02：用inline、enum、const代替#define #define定義的巨集，複雜起來，就會很難理解。（1）對於單純常量

深度學習筆記篇（一）VGG + 動量法

新開個坑，作為最近一直忙不寫部落格的一個補償。在筆記篇中，主要會以流水賬（日記）的形式，覺得囉嗦的朋友可以關注我的後續篇節，有一些Project會單獨拿出來說。先講個題外話。因為經常需要更新github上老師的程式碼，於是很多人想要在本地與專案保持更新通過 g

【GANs學習筆記】（一）初步瞭解GANs

** 第一章初步瞭解GANs ** ** 1. 生成模型與判別模型 ** 理解對抗網路，首先要了解生成模型和判別模型。判別模型比較好理解，就像分類一樣，有一個判別界限，通過這個判別界限去區分樣本。從概率角度分析就是獲得樣本x屬於類別y的概率，是一個條件概率P（

Oracle個人學習日記：（一）decode 使用

遇到的需求： DISORDER為排序欄位需要調整某兩個的資料的DISORDER SQL語句: update t_article_manage set disorder=decode( di

【PhotonEngine 學習筆記】（一）簡單使用

【PhotonEngine 學習筆記】（一）簡單使用前言 PhotonEngine簡介 Photon SDKs SDK：SELF-HOSTED 下載安裝伺服器端邏輯建立自己的伺服器專案（類庫）

MongoDB學習筆記：（1）MongoDB在Win10下的安裝及配置

1. 下載下載連結： https://www.mongodb.com/download-center?jmp=nav#community 2. 安裝 3. 配置 1. 安裝完的目錄結構 [C:\Program Fil

node.js學習筆記整理（一）

（1）node Node.js 是一個基於 Chrome V8 引擎的 JavaScript 執行環境。 Node與javaScript的區別在於，javaScript的頂層物件是window,而node是global //這裡使用的var宣告的變數不是全域性的，是當前模組下的，用global宣告的表示是

【Java】Java學習筆記總結（一）

2013-07-15 1. JDK、JRE和JVM分別是什麼，區別是什麼？答： ①、JDK 是整個Java的核心，包括了Java執行環境、Java工具和Java基礎類庫。 ②、JRE（Java Runtime Environment，Java執行環境），執行JAVA程式所

spark機器學習筆記：（三）用Spark Python構建推薦系統

輸出結果： [[Rating(user=789, product=1012, rating=4.0), Rating(user=789, product=127, rating=5.0), Rating(user=789, product=475, rating=5.0), Rating(us

GNU Make讀書筆記：（一）規則

前言規則主要是分為三種：模式規則隱含規則靜態模式規則具體規則：就是指定需要更新的工作目標，如果存在的依賴的時間戳在目標的後面就是對目標進行更新。這是最常見的規則型別。模式規則：使用的是萬用字元(wildcard)不是明確的檔名隱含規則：可以是模式規則也可以是內置於make

【JVM學習筆記】（一）jvm初體驗-記憶體溢位問題分析及解決方案

####1、開始建立Main類和Demo類，在Main類的main方法中建立List，並向List中無限建立Demo物件，造成記憶體溢位，並輸出記憶體溢位錯誤檔案在專案目錄下，為了使等待時間減小，設定執行堆記憶體大小。 ####2、建立Demo類 package com.ch

統計學學習筆記：（五）正態分佈

正態分佈：二項分佈極好的近似 X是隨機變數，E（X）是期望值。正態分佈（normal distribution）也稱為高斯分佈（Gaussian distribution），或者鐘形曲線（bell curve）。（x-μ）/σ也稱為z score（注意：z score是個通用的概念，包括非正態分佈）。因

xml 筆記：（一）

xml簡介： eXtensible Markup Language 簡寫 xml（可擴充套件標記型語言） xml語言是具有結構性的標記語言, 可以靈活的儲存一對多的資料關係。 xml用途：可以用於顯示資料儲存資料（主要功能） xml檔案組成部分文件宣告

Hadoop學習筆記：（一）WordCount執行

相關推薦