MapReduce實戰一手寫WordCount案例

阿新 • • 發佈：2018-12-19

需求：在一堆給定的文字檔案中統計輸出每一個單詞出現的總次數如下圖所示為MapReduce統計WordCount的分析圖：

map階段從檔案中讀取資料，行號作為key，讀取的每行值作為value，將每個key/value對輸出給reduce階段，reduce階段將map階段所有執行完的結果進行reduce操作，每個相同的key執行一次reduce方法。

程式碼如下：

WordCountMapper.java

package com.lxj.wc;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

//Map階段：輸入的行號作為key,每行讀取的值作為value
public class WordCountMapper extends Mapper<LongWritable, Text, Text, IntWritable>{

	private Text k  = new Text();
	private IntWritable v = new IntWritable(1);
	
	@Override
	protected void map(LongWritable key, Text value,Context context) throws java.io.IOException, java.lang.InterruptedException {
	     
		// 1 將每次讀入的一行進行分割
		String line = value.toString();
		
		// 2 轉換成String型別進行分割
		String[] words = line.split(" ");
		
		// 3 將每個鍵值對都寫出
		for (String word : words) {
			String trim = word.trim();
			if(!" ".equals(trim)){
				k.set(trim);
				// 4 map階段將單詞拆分，並不合併，所以固定值為1
				context.write(k, v);
			}
		}
	}
	
}

WordCountReducer.java

package com.lxj.wc;

import java.util.Iterator;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

//Reduce階段是以Map階段的輸出結果作為Reduce階段的輸入資料
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

	
	//同一個key有且僅只執行一次reduce方法
	@Override
	protected void reduce(Text text, Iterable<IntWritable> iterable, Context context) throws java.io.IOException, java.lang.InterruptedException {
	    
		// 1. 將map階段同一個key對應的value值求和
		int sum = 0;
		Iterator<IntWritable> iterator = iterable.iterator();
		while(iterator.hasNext()){
			 sum += iterator.next().get();
		}
		if(!text.toString().trim().equals("")){
			//將結果輸出
			context.write(text, new IntWritable(sum));
		}
	}
	
}

WordCountDriver.java

package com.lxj.wc;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

//驅動類，將map與reduce進行關聯
public class WordCountDriver {

	public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
		// 1.獲取配置資訊
		Configuration configuration = new Configuration();
		Job job = Job.getInstance(configuration);
		
		// 2.設定載入jar的位置路徑,直接傳入當前Class物件
		job.setJarByClass(WordCountDriver.class);
		
		// 3.設定map和reduce類
		job.setMapperClass(WordCountMapper.class);
		job.setReducerClass(WordCountReducer.class);
		
		// 4.設定map的輸出型別
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		
		
		// 5.設定最終的輸出
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		
		// 6.設定輸入和輸出路徑
		FileInputFormat.setInputPaths(job, new Path(args[0]));
		FileOutputFormat.setOutputPath(job, new Path(args[1]));
		
		// 7.提交
		boolean result = job.waitForCompletion(true);
		System.exit( result ? 0 : 1);
		
	}
}

準備如下檔案：

一本地方法測試結果如下：

Astonished	1
At	1
But	1
Fate	1
He	2
Immediately	1
Many	1
O	1
Phoenix	1
a	1
admired,	1
again	1
ages	1
al	1
amongst	1
an	1
and	5
animals,	1
appeared	1
around	1
at	1
away	1
beasts,	1
beauty,	1
been	2
began	1
being	1
birds	1
both	1
broke	1
compassion,	1
different	1
elasticserach	1
euraka	1
eye	1
flocked	1
friend	1
great	1
had	2
hadoop	1
hard	1
has	2
he	1
him	3
his	1
in	2
into	1
javaee	1
kinds	1
know	1
last	1
look	1
loved	1
loving	1
map	1
mate	1
most	1
mysql	1
neither	1
never	1
nor	1
now	1
of	4
or	1
out	1
passed	1
phoenix	1
pleasure	1
praise.	1
prudent	1
redis	2
reduce	1
seen	1
shiro	1
short	1
sighed	1
since	1
spark	1
ssh	1
ssm	1
stared	1
the	5
them	1
they	2
time,	1
to	2
unhappy	1
upon	1
will	1
wisest	1
with	1
world.	1
yarn	1
zookeeper	1

二 Hadoop叢集上執行如下:

首先將專案打成jar包，然後上傳到HDFS上面進行分析，並執行以下命令：

執行成功之後檢視結果：

當然也可以直接在web端下載檢視：

MapReduce實戰一手寫WordCount案例

需求：在一堆給定的文字檔案中統計輸出每一個單詞出現的總次數如下圖所示為MapReduce統計WordCount的分析圖： map階段從檔案中讀取資料，行號作為key，讀取的每行值作為value，將每個key/value對輸出給reduce階段，reduce階段將ma

MapReduce之自定義WordCount案例

在一堆給定的文字檔案中統計輸出每一個單詞出現的總次數。 1.分析 mapper階段：將mapstack 傳給我們的文字資訊內容先轉換成string。根據空格將一行切分成單詞。將單詞輸出為<單詞，1>的格式。 reducer階段

MapReduce實戰 wordcount

昨天在自己的電腦上配置了hadoop，也運行了第一個MapReduce程式WordCount程式。但是對mapreduce的程式設計還很不清楚，在網上轉了一段對wordcount的解釋，轉載學習下。 Wordcount的輸入是資料夾，資料夾內是多個檔案，內容是以空格作分隔符

初學MapReduce-WordCount案例遇到的問題

一、WordCount案例1.Driver類中容易發生導包錯誤//6指定輸入輸出路徑 FileInputFormat.setInputPaths(job, new Path(args [0])); FileOutputFormat.setOutputPath(job, n

MapReduce實戰之WordCount

開啟eclipse，新建一個WordCount的java project工程，寫WordMapper類繼承於Mapper抽象類，覆寫map函式，寫WordReducer類繼承於Reducer，覆寫reduce函式,最後寫一個場景呼叫類，呼叫WordMapp

使用MapReduce執行WordCount案例

@[toc] ## 一、準備資料注意：準備的資料的格式必須是文字，每個單詞之間使用==製表符==分割。編碼必須是==utf-8無bom== ![在這裡插入圖片描述](https://img-blog.csdnimg.cn/20200715115827403.png) ## 二、MR的程式設計規範

MapReduce實戰：自定義輸入格式實現成績管理

stat app 註意 false exce 考試成績 fileinput collect 劃分 1. 項目需求　　我們取有一份學生五門課程的期末考試成績數據，現在我們希望統計每個學生的總成績和平均成績。樣本數據如下所示，每行數據的數據格式為：學號、

【原創】MapReduce實戰（一）

tid refs 讀取 sel instance 網站 let 創建 -c 應用場景：用戶每天會在網站上產生各種各樣的行為，比如瀏覽網頁，下單等，這種行為會被網站記錄下來，形成用戶行為日誌，並存儲在hdfs上。格式如下： 17:03:35.012?pageview?{"d

用java寫wordcount

同時 fileread iteye ron 詳細設計 sch porting 功能如何碼雲地址：https://gitee.com/Huan62201/events；個人PSP表格： PSP2.1 PSP階段預估耗時（分鐘）實際耗時

深度學習之PyTorch實戰（3）——實戰手寫數字識別

　　上一節，我們已經學會了基於PyTorch深度學習框架高效，快捷的搭建一個神經網路，並對模型進行訓練和對引數進行優化的方法，接下來讓我們牛刀小試，基於PyTorch框架使用神經網路來解決一個關於手寫數字識別的計算機視覺問題，評價我們搭建的模型的標準是它是否能準確的對手寫數字圖片進行識別。　　

大資料學習之路95-SparkStreaming寫WordCount

程式如下： package com.test.sparkStreaming import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream} import org.apache.spark.streaming

WebService手寫簡單案例：客戶端與服務端的資料互動

本篇部落格是模擬服務端釋出服務，客戶端模擬接收服務端的返回資料的一個簡單案例（客戶端輸入姓名，服務端根據客戶端輸入的姓名模糊查詢身份證的案例）服務端釋出服務 1.專案準備工作：新建一個web專案，匯入mysql的jar包放入工程，寫好jdbc連線，寫好實體類，寫dao，不同的

MapReduce實戰 - 根據文章記錄獲取時段內發帖頻率

MapReduce簡介 MapReduce是一種分散式計算模型，是Google提出的，主要用於搜尋領域，解決海量資料的計算問題。 MR有兩個階段組成：Map和Reduce，使用者只需實現map()和reduce()兩個函式，即可實現分散式計算。例子資料來源結構首先檢視資料來源結構:

Spark Streaming整合Spark SQL之wordcount案例

完整原始碼地址： https://github.com/apache/spark/blob/v2.3.2/examples/src/main/scala/org/apache/spark/examples/streaming/SqlNetworkWordCount.scala 案例原

大資料學習——MapReduce學習——字元統計WordCount

操作背景 jdk的版本為1.8以上 ubuntu12 hadoop2.5偽分佈安裝 Hadoop-Eclipse-Plugin 要在 Eclipse 上編譯和執行 MapReduce 程式，需要安裝 hadoop-eclipse-plugin，可下載 Github 上的 hadoop2x

學習筆記:從0開始學習大資料-9. MapReduce讀並寫Hbase資料

上節的MapReduce計算WordCount例子是從hdfs讀輸入檔案，計算結果也寫入hdfs MapReduce分散式計算的輸入輸出可以根據需要從hdfs或hbase讀取或寫入，如 A.讀hdfs-->寫hdfs B.讀hdfs-->寫hbase C.讀hbase--

Python3資料分析入門實戰_01 寫在開頭 +Numpy 入門

Python3資料科學入門與實戰寫在開頭，關於Python，我所瞭解的只是基礎語法和一些簡單類庫的使用，此次開篇教程學習目的是為了去了解關於資料分析、相關類庫的學習使用。多說一句，關於使用Python進行資料分析是不是需要對Python程式設計語法非常精通的問題。我想說：精通

mapreduce 實戰

從一堆單詞中找出，擁有相同字元的單詞。比如：輸入： &n

mapreduce的join演算法程式設計案例

mapreduce程式設計案例 map端的join演算法 1、原理闡述適用於關聯表中有小表的情形，可以將小表傳送到所有的map節點，這樣map節點就可以在本地對自己讀到的大表資料進行join並輸出最終結果，可以大大提高join操作的併發度，加快處理速度 2、例項：兩表

Flutter實戰2 --- 寫一個天氣查詢的APP

程式碼github地址：github.com/koudle/GDG_… 前面一篇文章Flutter實戰1 --- 寫一個天氣查詢的APP ,實現了一個顯示城市、溫度、天氣、溼度的介面，但是這個介面只有一個顯示的功能，沒有任何可互動的地方，本篇文章繼續完善查詢天氣的APP的功能。增加兩個功能：新

MapReduce實戰一手寫WordCount案例

需求： 在一堆給定的文字檔案中統計輸出每一個單詞出現的總次數 如下圖所示為MapReduce統計WordCount的分析圖：

程式碼如下：

準備如下檔案：

一 本地方法測試結果如下：

二 Hadoop叢集上執行如下:

相關推薦

需求：在一堆給定的文字檔案中統計輸出每一個單詞出現的總次數如下圖所示為MapReduce統計WordCount的分析圖：

一本地方法測試結果如下：