大資料（十）Hadoop-第一次使用eclipse&java&hadoop分析簡單資料

阿新 • • 發佈：2019-01-24

一、開啟eclipse

二、新建java專案mapreducer

三、專案下新建lib資料夾，匯入hadoop相關jar，jar在原始碼中有

四、專案下建包，寫如下三個類

1、WorldCountMapper.java

package com.zjt.mapreducer.data;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.util.StringUtils;

/**
 * 執行統計單詞數量的map程式
 * @author ZhangJintao
 * 		Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT>
 * 			KEYIN ----   輸入資料的鍵
 * 			VALUEIN ----  輸入資料的值
 * 			KEYOUT ---- 輸出資料的鍵
 * 			VALUEOUT ----  輸出資料的值
 */
public class WorldCounteMapper extends Mapper<LongWritable, Text, Text, IntWritable>{
	@Override
	/**
	 * 父類的map方法，迴圈呼叫
	 * 從split碎片段中每行呼叫一次
	 * 把該行所在下標為key，該行的值為value
	 * 【功能：將單詞以map輸出】
	 */
	protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, IntWritable>.Context context)
			throws IOException, InterruptedException {
		String[] words = StringUtils.split(value.toString(), ' ');
		for (String w : words) {
			context.write(new Text(w), new IntWritable(1));
		}
	}
}

2、WorldCountReducer.java

package com.zjt.mapreducer.data;

import java.io.IOException;

import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

public class WorldCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
	@Override
	/**
	 * 迴圈呼叫
	 * 洗牌完畢分好組後，每組呼叫一次
	 * 【功能：計算單詞出現次數】
	 */
	protected void reduce(Text arg0, Iterable<IntWritable> arg1,
			Reducer<Text, IntWritable, Text, IntWritable>.Context arg2) throws IOException, InterruptedException {
		int sum = 0 ;
		for(IntWritable i : arg1){
			sum += i.get();
		}
		arg2.write(arg0, new IntWritable(sum));
	}
}

3、RunJob.java

package com.zjt.mapreducer.data;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

/**
 * 執行方法
 * @author ZhangJintao
 */
public class RunJob {
	public static void main(String[] args) {
		Configuration config = new Configuration();
		try {
			FileSystem fs = FileSystem.get(config);
			
			Job job = Job.getInstance();
			//執行mapreducer任務
			job.setJarByClass(RunJob.class);
			job.setJobName("data");
			
			job.setMapperClass(WorldCounteMapper.class);
			job.setReducerClass(WorldCountReducer.class);
			
			job.setMapOutputKeyClass(Text.class);
			job.setMapOutputValueClass(IntWritable.class);
			
			FileInputFormat.addInputPath(job, new Path("/usr/input/"));
			Path outpath  = new Path("/usr/input/data");
			if (fs.exists(outpath)) {
				fs.delete(outpath, true);
			}
			FileOutputFormat.setOutputPath(job, outpath);
			
			boolean f = job.waitForCompletion(true);
			
			if (f) {
				System.out.println("JOB 執行成功");
			}
		} catch (Exception e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
	}
}

五、打jar包

六、上傳測試資料

其中data.txt內容如下

hadoop hello world
hello hadoop
hbase zookeeper

六、執行程式

將我們打的jar上傳至任何一臺節點主機，遠端登入節點主機，進入jar包所在目錄，執行如下命令

    hadoop jar wc.jar com.zjt.mapreducer.data.RunJob

執行後，我們可以看到控制檯會提示資訊。

我們進入網頁http://192.168.1.201:8088/cluster/apps後點擊 Applications可以看到下圖所示

執行完畢之後，在此進入eclipse

重新整理後會發現多瞭如下幾個資料夾和檔案

通過結果檔案可知，她幫我們統計出了data.txt中hadoop單詞有兩個、hbase有一個、hello有兩個、world有一個、zookeeper有一個

大資料（十）Hadoop-第一次使用eclipse&java&hadoop分析簡單資料

一、開啟eclipse 二、新建java專案mapreducer 三、專案下新建lib資料夾，匯入hadoop相關jar，jar在原始碼中有四、專案下建包，寫如下三個類 1、WorldCountMapper.java package com.zjt.mapreduce

大資料（十）：MapTask工作機制與Shuffle機制（partitioner輸出分割槽、WritableComparable排序）

一、MapTask工作機制 Read階段：MapTask通過使用者編寫的RecordReader，從輸入InputSplit中解析出一個個key/value Map階段：該節點主要是將解析出的key/value交給使用者編寫map()函式處理，併產生一系列

面經（一）人生第一次面試—一首涼涼送給自己

因為錯過秋招，現在才開始找工作，對自身的定位也不足，不知道到底可以做什麼。瞎投了一通簡歷，下載了一堆求職app。某app上，某遊戲公司hr小姐姐找上了我，問我要了簡歷，一開始我是想找C++開發崗的，後來據說有U3D的崗位就想去試試看。真正接觸U3D的時間大概就兩個月吧。聊的

大資料（十五）：Hadoop資料壓縮與壓縮/解壓縮例項

一、資料壓縮 1.概論壓縮技術能夠有效減少低層儲存系統（HDFS）讀寫位元組。壓縮提高了網路頻寬和磁碟空間的效率。在Hadoop下，尤其是資料規模很大和工作負載密集的情況下。使用資料壓縮閒的非常重要。在這種情況下，I/O操作

大資料（十四）：多job串聯與ReduceTask工作機制

一、多job串聯例項（倒索引排序） 1.需求查詢每個單詞分別在每個檔案中出現的個數預期第一次輸出(表示單詞分別在個個檔案中出現的次數) apple--a.txt 3 apple--b.txt 1 apple--c.txt 1 grape--a.txt

大資料（十二）：自定義OutputFormat與ReduceJoin合併（資料傾斜）

一、OutputFormat介面 OutputFormat是MapReduce輸出的基類，所有實現MapReduce輸出都實現了OutputFormat介面。 1.文字輸出TextOutPutFormat &n

大資料（十八）：Hive元資料配置、常見屬性配置、資料型別與資料轉換

一、Hive元資料配置到MySQL當中為什麼要把Hive的元資料配置到MySql中？我們可以使用多個客戶端連線linux系統並且都嘗試啟動Hive，可以發現在啟動第二個Hive客戶端的時候發生報錯了。

大資料（十七）：Hive簡介、安裝與基本操作

一、簡介 Hive由Facebook開源用於解決海量結構化日誌的資料統計。Hive是基於Hadoop的一個數據倉庫工具，可以將結構化的資料檔案對映為一張表，並提供類Sql查詢的功能。 hive本質是將HQL轉化為MapRedu

大資料（十六）：Yarn的工作機制、資源排程器、任務的推測執行機制

一、Yarn概述 Yarn是一個資源排程平臺，負責為運算程式提供伺服器運算資源，相當於一個分散式的作業系統平臺，而MapReduce等運算程式則相當於運行於操作程式上的應用程式。二、Yarn基本架

大資料之（1）Centos7上搭建全分散式Hadoop叢集

本文介紹搭建一個Namenode兩個DataNode的Hadoop全分散式叢集的全部步驟及方法。具體環境如下：一、環境準備 3個Centos7虛擬機器或者3個在一個區域網內的實際Centos7機器，機器上已安裝JDK1.8，至於不會安裝Centos7或者JDK1.8的同

10小時入門大資料（二）------初識Hadoop

10小時入門大資料（二）——初識Hadoop 1、Hadoop介紹開源、分散式儲存+分散式計算平臺 2、Hadoop能做什麼搭建大型資料倉庫、PB級資料儲存、處理、分析、統計等搜尋引擎、日誌分析、商業智慧、資料探勘 3、核心元件之分散式檔案系統

大資料應用於教育行業的十大案例（國內外）

聯網資訊科技行業的流行詞彙，教育逐漸被認為是大資料可以大有作為的一個重要應用領域，本文盤點了近年來大資料應用於國內外教育行業的十大案例近年來，隨著大資料成為網際網路資訊科技行業的流行詞彙，教育逐漸被認為是大資料可以大有作為的一個重要應用領域，有人大膽地預測大資料將

大資料（十九）：hive資料庫基本操作與表分類

一、建立資料庫 1.建立一個數據，資料庫在HDFS上的預設儲存路徑是/user/hive/warehouse/*.db create database db_hive; 2.避免建立的資料庫已經存在，增加if not exists create database

資料探勘十大演算法（一）：決策樹演算法 python和sklearn實現

學完到第三章——決策樹，python程式碼實現的僅是ID3演算法，sklearn為優化過的C4.5，這裡做一個詳細的總結包括（原理、程式碼、視覺化、scikit-learn實現），皆為親自實踐後的感悟。以下進入正文。早前簡單瞭解了決策樹的原理，然後為了儘快使用便沒有深究直

資料探勘十大演算法（九）：樸素貝葉斯 python和sklearn實現

第三個演算法終於算是稍有了解了，其實當你結合資料瞭解了它的實現原理後，你會發現確實很樸素。這裡對樸素貝葉斯演算法做一個介紹和總結，包括（原理、一個程式碼示例、sklearn實現），皆為親自實踐後的感悟，下面進入正文。原理：首先我們需要了解概率論的一些簡單知識：

大資料基礎（五）從零開始安裝配置Hadoop 2.7.2+Spark 2.0.0到Ubuntu 16.04

raw to spark 0 install ubuntu 14.04.01 desktop x64 1 system基礎配置《以下都是root模式》 1.3 root password sudo passwd root 1.5 root登入選項 a.在terminal下

資料探勘十大演算法（五）：EM(Expectation Maximum)演算法原理與Python實現

參考：一、一個簡單的概率問題實驗：現在有A和B兩個硬幣，我們從這兩個硬幣中，隨機選取5次，做5組實驗，每組實驗內容是：丟擲所選的硬幣，記錄正反面。實驗資料如下：目標：根據所得到的實驗資料，分別求出硬幣A和B丟擲後正面向上的概率。根據古典概率的原

資料探勘十大演算法（九）：樸素貝葉斯原理、例項與Python實現

一、條件概率的定義與貝葉斯公式二、樸素貝葉斯分類演算法樸素貝葉斯是一種有監督的分類演算法，可以進行二分類，或者多分類。一個數據集例項如下圖所示：現在有一個新的樣本， X = (年齡：<=30, 收入：中，是否學生：是，信譽：中)，目標是利用樸素貝

Linux之大資料技術（十）：修改主機名稱

大資料技術之修改主機名稱 5.3.2 修改主機名稱 1）修改linux的主機對映檔案（hosts檔案）（1）進入Linux系統檢視本機的主機名。通過hostname命令檢視 [[email protected] 桌面]# hostname hadoo

Hadoop（十）Hadoop IO之數據完整性

掌握 @override pub out logs pac 開始 stat reat 前言　　上一篇我分享了Hadoop的壓縮和編解碼器，在我們開發的過程中其實是經常會用到的，所以一定要去掌握。這一篇給大家介紹的是Hadoop的數據完整性！　　Hadoop用戶在使用

大資料 （十）Hadoop-第一次使用eclipse&java&hadoop分析簡單資料

相關推薦

大資料（十）Hadoop-第一次使用eclipse&java&hadoop分析簡單資料