Atitit hadoop使用總結目錄 1.1. 下載300m ，解壓後800M 1 1.2. 二：需要的jar包 1 2. Demo code 2 2.1. WCMapper 2 2.2. WC

阿新 • • 發佈：2018-10-31

Atitit hadoop使用總結

1.1. 下載300m ，解壓後800M 1

1.2. 二：需要的jar包 1

3. Run 設定Hadoop HADOOP_HOME 6

3.1. Input txt 6

3.2. Run output console 6

3.3. Result output .txt 7

4. 四：操作流程 jar mode 7

5. Ref 7

1. 下載300m ，解壓後800M

HDFS是Hadoop大資料平臺中的分散式檔案系統,為上層應用或其他大資料元件提供資料儲存,如Hive,Mapreduce,Spark,HBase等。

1. 二：需要的jar包

hadoop-2.4.1\share\hadoop\common\hadoop-common-2.4.1.jar

hadoop-2.4.1\share\hadoop\common\lib\所有jar包

hadoop-2.4.1\share\hadoop\mapreduce\lib\所有jar包

---------------------

Demo code
1. WCMapper

package hadoopDemo;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

// public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {

public class WCMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

// 1.mapper階段，切片

// 1).mapper類首先要繼承自mapper類，指定輸入的key型別，輸入的value型別

// 2).指定輸出的key型別，輸出的value型別

// 3).重寫map方法

// 在map方法裡面獲取的是文字的行號，一行文字的內容，寫出的上下文物件

@Override

protected void map(LongWritable key, Text value_line, Context context) throws IOException, InterruptedException {

String line = value_line.toString();

String[] words = line.split(" ");

for (String word : words) {

Text key_Text = new Text();

IntWritable val_IntWritable = new IntWritable(1);

key_Text.set(word);

context.write(key_Text, val_IntWritable);

}

1. WCReduce

package hadoopDemo;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Reducer;

import com.alibaba.fastjson.JSON;

import com.google.common.collect.Maps;

import java.io.IOException;

import java.util.Map;

public class WCReduce extends Reducer<Text,IntWritable,Text,IntWritable> {

@Override

protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

int sum=0; //定義一個變數來統計單詞出現的次數

for (IntWritable num:values //遍歷這個迭代器，累計單詞出現的次數

) {

sum += num.get();

Map m=Maps.newConcurrentMap();

m.put("key",key );

m.put("num",num);

m.put("sum_curr",sum );

System.out.println(JSON.toJSONString(m));

}

context.write(key,new IntWritable(sum));

}

1. (3)實現執行驅動

執行驅動的目的就是在程式中指定使用者的Map類和Reduce類，並配置提交給Hadoop時的相關引數。例如實現一個詞頻統計的wordcount驅動類：MyWordCount.java，其核心程式碼如下：

package hadoopDemo;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WCDriver {

public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {

System.load("D:\\haddop\\hadoop-3.1.1\\bin\\hadoop.dll");

//建立Job作業

Job job = Job.getInstance(new Configuration());

//設定驅動類

job.setJarByClass(WCDriver.class);

//設定mapper類、reduce類

job.setMapperClass(WCMapper.class);

job.setReducerClass(WCReduce.class);

//設定map階段輸出的key型別、value型別

job.setMapOutputKeyClass(Text.class);

job.setMapOutputValueClass(IntWritable.class);

//設定reduce階段輸出key型別、value型別

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

//設定讀取檔案路徑、輸出檔案路徑

String path_ipt ="D:\\workspace\\hadoopDemo\\ipt.txt";

FileInputFormat.setInputPaths(job, new Path(path_ipt));

String path_out = "D:\\workspace\\hadoopDemo\\out.txt";

FileOutputFormat.setOutputPath(job, new Path(path_out));

//等待提交作業

boolean result = job.waitForCompletion(true);

System.out.println(result);

while(true)

{

Thread.sleep(5000);

System.out.println("..");

}

// System.exit(result ? 0 : 1);

}

import org.apache.hadoop.conf.Conf?iguration;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

public class MyWordCount {

public static void main(String[] args) throws Exception {

Conf?iguration conf = new Conf?iguration();

Job job = new Job(conf, "word count");

job.setJarByClass(MyWordCount.class);

job.setMapperClass(WordcountMapper.class);

job.setCombinerClass(WordcountReducer.class);

job.setReducerClass(WordcountReducer.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(IntWritable.class);

FileInputFormat.addInputPath(job, new Path(args[0]));

FileOutputFormat.setOutputPath(job, new Path(args[1]));

System.exit(job.waitForCompletion(true) ? 0 : 1);

}

從上述核心程式碼中可以看出，需要在main函式中設定輸入/輸出路徑的引數，同時為了提交作業，需要job物件，並在job物件中指定作業名稱、Map類、Reduce類，以及鍵值的型別等引數。來源：CUUG官網

Run 設定Hadoop HADOOP_HOME

可以通過附加下面的命令到 ~/.bashrc 檔案中設定 Hadoop 環境變數。

export HADOOP_HOME=/usr/local/hadoop

Eclipse envi only can cfg in run cfg ..

1. Input txt

aaa bbb ccc aaa

1. Run output console

{"num":{},"sum_curr":1,"key":{"bytes":"YWFh","length":3}}

{"num":{},"sum_curr":2,"key":{"bytes":"YWFh","length":3}}

{"num":{},"sum_curr":1,"key":{"bytes":"YmJi","length":3}}

{"num":{},"sum_curr":1,"key":{"bytes":"Y2Nj","length":3}}

1. Result output .txt

D:\workspace\hadoopDemo\out.txt\part-r-00000 file

aaa 2

bbb 1

ccc 1

四：操作流程 jar mode

1、將專案打成jar包上傳到虛擬機器上 if use jar mode

執行jar檔案

Ref

Mapreduce例項---統計單詞個數（wordcount） - Tyshawn的部落格 - CSDN部落格.html

MapperReduce入門Wordcount案例 - 小劉的部落格 - CSDN部落格.html

Atitit hadoop使用總結目錄 1.1. 下載300m ，解壓後800M 1 1.2. 二：需要的jar包 1 2. Demo code 2 2.1. WCMapper 2 2.2. WC

Atitit hadoop使用總結目錄 1.1. 下載300m ，解壓後800M 1 1.2. 二：需要的jar包 1 2. Demo code 2 2.1. WCMapper 2 2.2. WC

linux下載jdk，解壓報錯的一個解決辦法

zookeeper 入坑二： Opening socket connection to server localhost/127.0.0.1:2181. Will not attempt to aut

apache24解壓版如何正確在windows安裝和apache2.4服務無法啟動發生服務特定錯誤:1

ubuntu 網易雲音樂版本 1.1 不能執行，sudo執行後不能輸入中文

通過調用支付寶查詢對賬單接口返回bill_download_url下載zip，解壓縮

Git系列文章（二）：從github上下載專案，本地修改後提交至github

64位java8，jdk8下載，解壓版

32位java8，jdk8下載，解壓版

golang zip壓縮，解壓(含目錄檔案)

Jenkins自動部署：本地jar包無法下載{{1009}}

Atitit mybatis3 註解模式使用總結目錄 1. mybatisdemo 1 1.1. /ormMybatis3demo/src/db.properties 1 1.2. /ormMyb

Atitit 儲存方法大總結目錄 1. 儲存方式分類 2 1.1. 按照資料分類為結構化半結構化非結構化 2 1.2. 按照內外部可分類內部儲存和外部儲存持久化 2 1.3. 按照本地遠

Atitit hibernste5 註解方式開發總結目錄 1. 映入hb5的jar 建立專案 1 1.1. 建表tab1 ，這裡使用了sqlite資料庫 1 1.2. 建立對映實體類tab1

Atitit Persistence API永續性標準化法總結目錄 1. 永續性對於大多數企業應用程式都非常要害 1 2. 持久化api內容 2 2.1. 一種宣告式地執行O-R對映的方式。 2

Atitit 檔案儲存標準化api 總結目錄 1. 作業系統，進行操作 1 1.1. FileUtils類的應用 1 1.2. 各大api 比較 2 2. Java。Io用apache的commo

Atittit HDFS hadoop 大資料檔案系統java使用總結目錄 1. 作業系統，進行操作 1 2. Hdfs 類似nfs ftp遠端分散式檔案服務 2 3. 啟動hdfs服務start

Atitit 面試技術點最小化問題法總結目錄 1. Web 前端 1 1.1. Jq 常用操作哪些？？ 1 1.2. 查詢後如何繫結後端資料到表格 2 1.3. 提交後怎麼接受表單資料 2 2.

Atitit 提升記憶效率有失真壓縮原理總結目錄 1. 常見方法 1 1.1. 抽象化提升一層概念化 1 1.2. 骨架，目錄化大綱化歸納整理 1 1.3. 提取關鍵詞，摘要，

Atitit 定時器timer 總結目錄 1.1. Js定時器 window.setInterval 1 2. Java定時器 timer 1 1.1.Js定時器 window.setInter

Atitit hadoop使用總結 目錄 1.1. 下載300m ，解壓後800M 1 1.2. 二：需要的jar包 1 2. Demo code 2 2.1. WCMapper 2 2.2. WC

相關推薦

Atitit hadoop使用總結目錄 1.1. 下載300m ，解壓後800M 1 1.2. 二：需要的jar包 1 2. Demo code 2 2.1. WCMapper 2 2.2. WC