在hadoop上進行編寫mapreduce程式，統計關鍵詞在text出現次數

阿新 • • 發佈：2019-02-12

mapreduce的處理過程分為2個階段，map階段，和reduce階段。在要求統計指定檔案中的所有單詞的出現次數時，
map階段把每個關鍵詞寫到一行上以逗號進行分隔，並初始化數量為1（相同的單詞hadoop中的map會自動放到一行中）
reduce階段是把每個單詞出現的頻率統計出來重新寫回去。

如程式碼：

package com.clq.hadoop2;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

public class MyMapper extends Mapper<LongWritable, Text, Text, IntWritable> {
	final Text key2 = new Text();
	// value2 表示單詞在該行中的出現次數
	final IntWritable value2 = new IntWritable(1);
	// key 表示文字行的起始位置
	// value 表示文字行
	protected void map(LongWritable key, Text value, Context context)
			throws java.io.IOException, InterruptedException {
		final String[] splited = value.toString().split(",");
		for (String word : splited) {
			key2.set(word);
			// 把key2、value2寫入到context中
			context.write(key2, value2);
		}
	}
}

package com.clq.hadoop2;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class MyReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
	// value3表示單詞出現的總次數
	final IntWritable value3 = new IntWritable(0);
	/**
	 * key 表示單詞 values 表示map方法輸出的1的集合 context 上下文物件
	 */
	protected void reduce(Text key, java.lang.Iterable<IntWritable> values,
			Context context) throws java.io.IOException, InterruptedException {
		int sum = 0;
		for (IntWritable count : values) {
			sum += count.get();
		}
		// 執行到這裡，sum表示該單詞出現的總次數
		// key3表示單詞，是最後輸出的key
		final Text key3 = key;
		// value3表示單詞出現的總次數，是最後輸出的value
		value3.set(sum);
		context.write(key3, value3);
	}
}

package com.clq.hadoop2;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapred.lib.HashPartitioner;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class MapperReducer {

	public static void main(String[] args) throws IOException,
			InterruptedException, ClassNotFoundException {
	        //指定輸入和輸出路徑
		final String INPUT_PATH = "hdfs://ubuntu:9000/Input";
		final String OUTPUT_PATH = "hdfs://ubuntu:9000/output";
		//建立一個job物件封裝執行時所需要的資訊
		final Job job = new Job(new Configuration(),"MapperReducer");
		//打成jar執行
		job.setJarByClass(MapperReducer.class);
		FileInputFormat.setInputPaths(job, INPUT_PATH);
		FileOutputFormat.setOutputPath(job, new Path(OUTPUT_PATH));
		//指定自己自定義的mapper類
		job.setMapperClass(MyMapper.class);
		//指定執行mapper型別
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(IntWritable.class);
		//指定自己定義的reducer類
		job.setReducerClass(MyReducer.class);
		//指定reducer的key和value型別
		job.setInputFormatClass(TextInputFormat.class);
		job.setOutputFormatClass(TextOutputFormat.class);
		job.waitForCompletion(true);
		
		 
	}
}

在hadoop上進行編寫mapreduce程式，統計關鍵詞在text出現次數

mapreduce的處理過程分為2個階段，map階段，和reduce階段。在要求統計指定檔案中的所有單詞的出現次數時， map階段把每個關鍵詞寫到一行上以逗號進行分隔，並初始化數量為1（相同的單詞ha

windows下idea編寫WordCount程式，並打jar包上傳到hadoop叢集執行（傻瓜版）

通常會在IDE中編制程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。一、生成WordCount的jar包 1. 開啟IDEA，File→New→Project→Maven→Next→填寫Groupld和Artifactld→Ne

編寫一個程式，啟動三個執行緒，三個執行緒的名稱分別是 A，B，C；每個執行緒將自己的名稱在螢幕上列印5遍，列印順序是ABCABC...

設定標誌位flag 當flag==1時，列印A 當flag==2時，列印B 當flag==3時，列印C 用count控制列印的次數，題目要求列印5遍，即15個字元這裡的用notifyAll()的原因：是要把其餘兩個全都喚醒，因為如果用notify

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式

Hadoop學習3-Macbook環境在IDEA中編寫MapReduce程式新建一個Maven專案不用說了，普通的Maven專案就行。加入Hadoop依賴其中的${hadoop.version}對應自己使用的Hadoop版本 hadoop-client

編寫一個程式，開啟3個執行緒，這3個執行緒的ID分別為A、B、C，每個執行緒將自己的ID在螢幕上列印10遍

#include <stdio.h> #include <stdlib.h> #include <pthread.h> #include <unistd.h> #include <string.h> //#define DEBUG 1 #d

編寫一個程式，實現從命令列引數輸入一字串，統計該字串中字元輸入字元的出現的次數。

package pro1214test; import java.util.Scanner; public class eCiShu { public static void main(String[] args) { Scanner s = new Scanner(System.

編寫一個程式，開啟3個執行緒，這3個執行緒的ID分別為A、B、C，每個執行緒將自己的ID在螢幕上列印10遍，要求輸出結果必須按ABC的順序顯示；如：ABCABC….依次遞推。

#include <stdio.h> #include <pthread.h> #include <stdlib.h> #define NUM 10 pthread_mutex_t mutex; pthread_cond_t cond

P51.2編寫一個程式，對使用者錄入的產品資訊進行格式化。

編寫一個程式，對使用者錄入的產品資訊進行格式化。 #include<stdio.h> int main(void) { int mm, dd, yyyy, a; double b; printf("Enter item num

編寫一個程式，輸入一行字元，以回車結束，分別統計出其中的英文字母、空格、數字和其他字元的數

#include <stdio.h> int main() { int letter=0,space=0,digit=0,others=0; //宣告英文字母，空格，數字和其他字元的計數變數初始化為0 char c; //宣告接收字串的變數 wh

編寫一個程式，開啟3個執行緒，這3個執行緒的ID分別為A、B、C，每個執行緒將自己的ID在螢幕上列印10遍，要求輸出結果必須按ABC的順序顯示；如：ABCABC

package test1; import java.util.concurrent.locks.Condition; import java.util.concurrent.locks.Lock; import java.util.concurrent.locks.R

Java 檔案統計：編寫程式，統計英文文字檔案中的字元數目和單詞數目。程式執行時，輸入要統計的檔案的名稱，程式處理後輸出字元數目和單詞數目

package text6; import java.util.*; import java.io.File; import java.io.FileReader; import javax.sw

P68——編寫一個程式，讀取一個浮點數，先列印成再列印成如果系統......

#include <stdio.h> int main(void) { float a; printf("enter a floating-point value:"); scanf("%f",&a); printf("fixed-point notation:

P68——編寫一個程式，發出一聲警報，然後列印下面的文字

要列印的文字內容： Startled by the sudden sound,sally shouted, "By the great pumkin,wahat was that!" 程式程式碼如下： #include <stdio.h> int main(void) {

P68——編寫一個程式，要求提示輸入一個ASCII碼值（如66），然後列印輸入的字元

錯誤程式碼如下：錯在定義了錯誤的輸入物件型別，使用者輸入時也弄錯了輸入型別，更改後正確程式碼如下： #include <stdio.h> int main(void) { int a; printf("please enter a ASCII ma:");

山科java實驗4-1 編寫一個程式，使用者可以從鍵盤錄入若干個學生的姓名和分數（程式每次提示使用者輸入“Y”或“N”決定是否繼續錄入學生資訊，如果使用者輸入“N”則使用者輸入完畢。輸入的“Y”、“N”不區分

編寫一個程式，使用者可以從鍵盤錄入若干個學生的姓名和分數（程式每次提示使用者輸入“Y”或“N”決定是否繼續錄入學生資訊，如果使用者輸入“N”則使用者輸入完畢。輸入的“Y”、“N”不區分大小寫）。使用者錄入完畢後，程式按成績由高到低的順序輸出學生的姓名和分數（姓名和分數之間用一個空格分割）。【說明

啟動YARN，並執行MapReduce程式，歷史伺服器，日誌聚集

目錄啟動YARN，並執行MapReduce程式配置歷史伺服器配置日誌聚集啟動YARN，並執行MapReduce程式 [[email protected] hadoop]$ pwd /opt/module/hadoop-2.7.2/etc/hadoop

c語言編寫一個程式，輸入a b c三個值，輸出其中最大者

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

用指標方法編寫一個程式，輸入3個整數，將它們按由小到大的順序輸出

#include <stdio.h> void swap(int *pa,int *pb) { int temp; temp = *pa; *pa = *pb; *pb = temp; } void main() { int

python投票統計程式，統計序列中各個數值的份數，字典的應用。

這裡可能會用到字典的知識，字典主要是用來儲存最後的統計結果。字典的用法：http://www.runoob.com/python/python-dictionary.html 　　　　　　https://www.cnblogs.com/RENQIWEI1995/p/7931374.html &nb

編寫一個程式，指定一個資料夾，能自動計算出其總容量

package filetest;import java.io.File;import java.io.IOException; public class FileEdit { double size=0.0; //計算檔案或資料夾的大小，單位MB public double getSize(File fi

在hadoop上進行編寫mapreduce程式，統計關鍵詞在text出現次數

相關推薦