第一個Hadoop程式——WordCount

阿新 • • 發佈：2019-01-24

概述：

通過前面兩篇部落格的學習，我們學習了Hadoop的偽分散式部署和完全分散式部署。這一篇文章就來介紹一下Hadoop的第一個程式WordCount。以及在執行程式碼的過程中遇到的問題。

筆者開發環境：

Linux: CentOS 6.6(Final) x64

Windows: Win7 64位

JDK: java version "1.7.0_75"
OpenJDK Runtime Environment (rhel-2.5.4.0.el6_6-x86_64 u75-b13)
OpenJDK 64-Bit Server VM (build 24.75-b04, mixed mode)

SSH: OpenSSH_5.3p1, OpenSSL 1.0.1e-fips 11 Feb 2013

Hadoop: hadoop-1.2.1

Eclipse: Release 4.2.0

這邊使用Linux和Window兩個系統來開發的目的在於，我的Cygwin還沒安裝好。。。而Linux上的Hadoop安裝和部署很方便，又感覺Winows上Eclipse比Linux上的Eclipse用著舒服。

下面的程式碼和一些遇到的問題，以及對於這上問題的解決方案。

主程式碼(WordCount.java)：

public class WordCount {

	public static class TokenizerMapper

	extends Mapper<Object, Text, Text, IntWritable> {

		private final static IntWritable one = new IntWritable(1);
		private Text word = new Text();
		public void map(Object key, Text value, Context context)
		throws IOException, InterruptedException {
			StringTokenizer itr = new StringTokenizer(value.toString());
			while (itr.hasMoreTokens()) {
				word.set(itr.nextToken());
				context.write(word, one);
			}
		}
	}

	public static class IntSumReducer

	extends Reducer<Text, IntWritable, Text, IntWritable> {

		private IntWritable result = new IntWritable();
		public void reduce(Text key, Iterable<IntWritable> values,
				Context context)
		throws IOException, InterruptedException {
			int sum = 0;
			for (IntWritable val : values) {
				sum += val.get();
			}
			result.set(sum);
			context.write(key, result);
		}
	}

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();
		String[] otherArgs = new GenericOptionsParser(conf, args).getRemainingArgs();

		if (otherArgs.length != 2) {
			System.err.println("Usage: wordcount <in> <out>");
			System.exit(2);
		}

		Job job = new Job(conf, "word count");
		job.setJarByClass(WordCount1.class);
		job.setMapperClass(TokenizerMapper.class);
		job.setCombinerClass(IntSumReducer.class);
		job.setReducerClass(IntSumReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);
		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
		System.exit(job.waitForCompletion(true) ? 0 : 1);
	}
}

執行過程及說明：

1.將我們在Windows上開發的Java程式打成jar包，上傳到Linux上。

2.執行命令java -jar wordcount1.jar /home/moon/coding/tmp/wordcount /home/moon/coding/tmp/wordres

3.正常執行的情況下，會出現如下輸出：

4.進行輸出目錄，檢視結果：

5.輸出檔案的結果資訊：

遇到的問題：

1.各種ClassNotFound異常

這裡對於ClassNotFound的異常比較好解決。只要匯入一些相應的jar包就可以了。我在Eclipse中匯入的jar如下：

這些在你下載的Hadoop-x.x.x-bin的資料夾中都是有的。

2.Unable to load native-hadoop library for your platform

經過一各種ClassNotFound異常的解決之後，出現了上面的這個異常。這個異常不是缺少jar包引起的。而是我們的系統環境沒有把我們的jar和之前部署的Hadoop目錄結合起來，只要在系統中配置一下hadoop的本地庫的實際路徑即可。如下：

Hadoop本地庫的實際路徑：$HADOOP_HOME/lib/native/Linux-amd64-64/
解決方法一：
在啟動JVM時，在java命令中新增java.library.path屬性即可，如下：
-Djava.library.path=$HADOOP_HOME/lib/native/Linux-amd64-64/

解決方法二：
使用LD_LIBRARY_PATH系統變數也能解決此問題，如下：

export HADOOP_HOME = /home/moon/hadoop-1.2.1
export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native/Linux-amd64-64/

第一個Hadoop程式——WordCount

概述：

筆者開發環境：

主程式碼(WordCount.java)：

執行過程及說明：

遇到的問題：

1.各種ClassNotFound異常

2.Unable to load native-hadoop library for your platform

IDEA+Maven開發第一個Hadoop程式WordCount

第一個Hadoop程式——WordCount

第一個hadoop程式：WordCount

Spark 執行第一個Scala程式WordCount

編寫第一個Spark程式WordCount

第一個hadoop程式（java程式訪問hadoop的hdfs檔案系統中的檔案）

三大框架（ssh）學習——第一個Struts2程式

第一個PWA程式-聊天室

00005第一個java程式

00006第一個java程式的總結和提升

Java Netty 學習(七) - 第一個Netty程式

java基礎（1）-----編寫並執行第一個java程式

第一個SpringMVC程式詳解

vs2017 開始自己的第一個C++程式

我的第一個Hibernate程式

python 第三課第一個python程式

第一個Ribbon程式Cannot access com.netflix.client.ClientFactory 編譯報錯

我的第一個Golang程式

執行第一個Spark程式

Java基礎之第一個Java程式HelloWorld及註釋

第一個Hadoop程式——WordCount

概述：

筆者開發環境：

主程式碼(WordCount.java)：

執行過程及說明：

遇到的問題：

1.各種ClassNotFound異常

2.Unable to load native-hadoop library for your platform

相關推薦