Hadoop-MapReduce初步應用-統計單詞個數

阿新 • • 發佈：2018-12-10

參考官網的單詞統計，上傳文字檔案讀取資料，統計等，

首先準備好文字檔案，隨便寫點單詞，再看統計結果正確與否。註釋都寫在程式碼裡了，希望能幫到入門的開發人員

專案結構如下，讀出的資料一起發出來了

package hadoop.com.test;

import java.io.IOException;
import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.JobClient;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class WordCount {
	 
	public static class WordCountMap extends Mapper<LongWritable, Text, Text, IntWritable>{
		private final IntWritable one=new IntWritable(1);
		private Text word=new Text();
		
		/**
	     * map方法完成工作就是讀取檔案
	     * 將檔案中每個單詞作為key鍵，值設定為1，
	     * 然後將此鍵值對設定為map的輸出，即reduce的輸入
	     */
		public void map(LongWritable key,Text value,Context context)throws IOException,InterruptedException{
			String line=value.toString();
			StringTokenizer token=new StringTokenizer(line);
			while(token.hasMoreTokens()){
				word.set(token.nextToken());
				context.write(word, one);
			}
		}	
	}
	/**
     * reduce的輸入即是map的輸出，將相同鍵的單詞的值進行統計累加
     * 即可得出單詞的統計個數，最後把單詞作為鍵，單詞的個數作為值，
     * 輸出到設定的輸出檔案中儲存
     */
	public static class WordCountReduce extends Reducer<Text, IntWritable, Text, IntWritable>{
		public void reduce(Text key,Iterable<IntWritable> values,Context context) throws IOException,InterruptedException{
			int sum=0;
			for(IntWritable val:values){
				sum+=val.get();
			}
			context.write(key, new IntWritable(sum));
		}
	}
 
	public static void main(String[] args) throws Exception {
		// TODO Auto-generated method stub
		Configuration conf=new Configuration();
		Job job=Job.getInstance(conf);
		//Job job= new Job();
		job.setJarByClass(WordCount.class);
		job.setJobName("wordcount");
		
		//對應單詞字串
		job.setOutputKeyClass(Text.class);
		 //對應單詞的統計個數 int型別
		job.setOutputValueClass(IntWritable.class);
		
		//設定mapper類
		job.setMapperClass(WordCountMap.class);
		 /**
         * 設定合併函式，合併函式的輸出作為Reducer的輸入，
         * 提高效能，能有效的降低map和reduce之間資料傳輸量。 但是合併函式不能濫用。需要結合具體的業務。
         * 由於本次應用是統計單詞個數，所以使用合併函式不會對結果或者說業務邏輯結果產生影響。
         * 當對於結果產生影響的時候，是不能使用合併函式的。
         * 例如：我們統計單詞出現的平均值的業務邏輯時，就不能使用合併 函式。此時如果使用，會影響最終的結果。
         */
		//job.setCombinerClass(WordCountReduce.class);
		job.setReducerClass(WordCountReduce.class);
		 /**
         * 設定輸入格式，TextInputFormat是預設的輸入格式
         * 這裡可以不寫這句程式碼。它的值型別是Text型別（文字型別）
         */
		job.setInputFormatClass(TextInputFormat.class);
	    /**
         * 設定輸出格式，TextOutpuTFormat是預設的輸出格式
         * 每條記錄寫為文字行，它的鍵和值可以是任意型別，輸出回撥用toString()
         * 輸出字串寫入文字中。預設鍵和值使用製表符進行分割。
         */
		job.setOutputFormatClass(TextOutputFormat.class);
		
		//設定輸入資料檔案路徑
		FileInputFormat.addInputPaths(job, "hdfs://192.168.1.128:9000/input/word.txt");
		//設定輸出資料檔案路徑（該路徑不能存在，否則異常）
		FileOutputFormat.setOutputPath(job, new Path("hdfs://192.168.1.128:9000/output/output-out"));//hdfs://192.168.1.128:9000/wordcount-out  file:\\E:\\output-out

		job.waitForCompletion(true);
		System.exit(0);
	}
}

Hadoop-MapReduce初步應用-統計單詞個數

參考官網的單詞統計，上傳文字檔案讀取資料，統計等，首先準備好文字檔案，隨便寫點單詞，再看統計結果正確與否。註釋都寫在程式碼裡了，希望能幫到入門的開發人員專案結構如下，讀出的資料一起發出來了 package hadoop.com.test; import

IO應用——讀取文字檔案並統計單詞個數

讀取一共文字檔案，統計出其中每一個單詞出現的次數，並把結果儲存在另外的一個檔案中此處我的文字內容是：i love you,i love you 我就沒有儲存到另一個檔案了，要儲存直接用輸出流就行了 public static void main(String[] args) thr

Mapreduce例項---統計單詞個數（wordcount）

一：問題介紹統計每一個單詞在整個資料集中出現的總次數。資料流程：二：需要的jar包 Hadoop-2.4.1\share\hadoop\hdfs\hadoop-hdfs-2.4.1.ja

【基礎水題】統計單詞個數

int pan 一個 else art 個數 print urn 是不是 1 //1.統計單詞的個數 2 #include <stdio.h> 3 int main(void) 4 { 5 int i, flag = 0, number =

P1026 統計單詞個數

word 截斷 area for name center 方程拆分決策 P1026 統計單詞個數題目描述給出一個長度不超過200的由小寫英文字母組成的字母串(約定;該字串以每行20個字母的方式輸入，且保證每行一定為20個)。要求將此字母串分成k份(1<k<

統計單詞個數（NOIP 2001提高組）

sample 字符串重疊 -s pre rom 長度最大的解析題目描述 Description 給出一個長度不超過200的由小寫英文字母組成的字母串(約定;該字串以每行20個字母的方式輸入，且保證每行一定為20個)。要求將此字母串分成k份(1<k<=

統計單詞個數

題目描述給出一個長度不超過200的由小寫英文字母組成的字母串(約定;該字串以每行20個字母的方式輸入，且保證每行一定為20個)。要求將此字母串分成k份(1<k≤40)，且每份中包含的單詞個數加起來總數最大(每份中包含的單詞可以部分重疊。當選用一個單詞之後，其第一個字母不能再用。例如字串this中

從零開始寫一個Spark Structured Streaming程式來統計單詞個數

本文將從零開始寫一個Spark Structured Streaming程式來統計單詞的個數。單詞的來源是socket，讀者也可以換成kafka，計算的結果輸出到控制檯，讀者也可以改成輸出到kafka的某個topic。準備環境： JDK和Scala安裝，並配置好環境變數JAVA_H

luogu1026_統計單詞個數_區間dp

題意 https://www.luogu.org/problemnew/show/P1026 solution 設f[i][j]表示1~i分成j分，最多的單詞數預處理一個sum[i][j]陣列，表示i~j包含的單詞數預處理的時候需要注意一個順序j從大到小

Java程式設計，統計單詞個數

題目統計一篇文件資料中單詞的個數（提示文件資料可放在字串中，利用正則表示式來實現） import java.util.Scanner; public class DemoTest{ String regex="[\\d\\s\\p{Punct}]+";//用正則表示式來作為分割標記

【題解】洛谷P1026[NOIP2001]統計單詞個數區間DP+字串

題目連結參考了大佬題解中string的基操 #include<cstdio> #include<iostream> using namespace std; string str,ch,word[10]; int p,k,s,su

2015藍橋杯校選-統計單詞個數

題目：輸入一個字串，求它包含多少個單詞。單詞間以一個或者多個空格分開。第一個單詞前，最後一個單詞後也可能有0到多個空格。比如：" abc xyz" 包含兩個單詞，"ab c xyz

C語言練習題每練 1：字串統計單詞個數，單詞由空格隔開

空格隔開，所以空格是一個標誌性的符號，可以通過空格來統計單詞的個數。首先，分析一下所能遇到的各種情況。相鄰兩個字元組合情況為：空空；空字：字空；字字。特殊情況考慮有全空，全字，空空空字空空空。因為要兼顧前後所以需要兩個變數來指示，p指示前一個初始為0，C指示

【NOIP2001提高組T3】統計單詞個數-字串上的動態規劃

（本人本題完成於2016-7-19）題目大意：給定一個字串（長度為20*p，不超過200）和一個包含一些單詞（個數為n，1≤n≤6）的詞典，問如何將該字串分成K（不超過40）份，使得每份中包含的單詞

C++統計單詞個數及排序：容器按照value排序

例：給定一段英語文字，要求對其中單詞出現的個數按照從小到大進行排序，出現次數相同的按照首字母順序排列。演算法實現： #include <iostream> #include <algorithm> #include <

Vijos1118 統計單詞個數

題目大意：給定一個長度20*p的字串以及一個字典，求將該字串分成k份後最多能包含多少個字典中的單詞（某個字母不能同時作為多個單詞的開頭）。思路：劃分型DP。先預處理出在各個區間中包含的單詞數，這裡可以只記錄最短單詞的長度，因為一個字母只能提供一個開頭。接下來

P1026 統計單詞個數 [dp]

sum line bstr sin rip 個數第一個 math length P1026 統計單詞個數這道題看上去就是要用dp的樣子。裸裸的dp題無誤。首先要把分開的字符串合成那個長度小於等於\(200\)的總字符串。然後做個預處理，預處理出任意區間內的單詞個數，

C 單詞首字母大寫&統計單詞個數

#include <string.h> #include <stdio.h> int main(int argc, const char * argv[]){ /* * 單詞首字母大寫&統計單詞個數 */ //定義變數 char

使用StringTokenizer分割並統計單詞個數

在某些時候，可能會需要統計一大串文字中出現的單詞個數。一般情況下，直接想到的是用正則表示式，但是我偶然發現了一個比用正則表示式更好的方法。也就是使用StringTokenizer這個類，參考文件：

用scala統計單詞個數一步一步詳解

val lines = List("hello tom hello jerry", "hello jerry", "hello kitty") //先按空格切分val lines_1 = lines.map(_.split(" "))//壓平val lines_2 =

Hadoop-MapReduce初步應用-統計單詞個數

相關推薦