Hadoop之——命令列執行時指定引數

阿新 • • 發佈：2019-02-18

本文旨在提供一個Hadoop在執行的時候從命令列輸入要統計的檔案路徑和統計結果的輸出路徑，不多說直接上程式碼

1、Mapper類的實現

        /**
	 * KEYIN	即k1		表示行的偏移量
	 * VALUEIN	即v1		表示行文字內容
	 * KEYOUT	即k2		表示行中出現的單詞
	 * VALUEOUT	即v2		表示行中出現的單詞的次數，固定值1
	 */
	static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
		protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException {
			final String[] splited = v1.toString().split("\t");
			for (String word : splited) {
				context.write(new Text(word), new LongWritable(1));
			}
		};
	}

2、Reducer類的實現

	/**
	 * KEYIN	即k2		表示行中出現的單詞
	 * VALUEIN	即v2		表示行中出現的單詞的次數
	 * KEYOUT	即k3		表示文字中出現的不同單詞
	 * VALUEOUT	即v3		表示文字中出現的不同單詞的總次數
	 *
	 */
	static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
		protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s, Context ctx) throws java.io.IOException ,InterruptedException {
			long times = 0L;
			for (LongWritable count : v2s) {
				times += count.get();
			}
			ctx.write(k2, new LongWritable(times));
		};
	}

3、run方法的實現

       @Override
	public int run(String[] args) throws Exception {
		//接收命令列引數
		INPUT_PATH = args[0];
		OUT_PATH = args[1];
		Configuration conf = new Configuration();
		final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);
		final Path outPath = new Path(OUT_PATH);
		//如果已經存在輸出檔案，則先刪除已存在的輸出檔案
		if(fileSystem.exists(outPath)){
			fileSystem.delete(outPath, true);
		}
		
		final Job job = new Job(conf , WordCount.class.getSimpleName());
		//*******打包執行必須執行的方法*******
		job.setJarByClass(WordCount.class);
		
		//1.1指定讀取的檔案位於哪裡
		FileInputFormat.setInputPaths(job, INPUT_PATH);
		//指定如何對輸入檔案進行格式化，把輸入檔案每一行解析成鍵值對
		job.setInputFormatClass(TextInputFormat.class);
		
		//1.2 指定自定義的map類
		job.setMapperClass(MyMapper.class);
		//map輸出的<k,v>型別。如果<k3,v3>的型別與<k2,v2>型別一致，下面兩行程式碼可以省略
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);
		
		//1.3 分割槽
		job.setPartitionerClass(HashPartitioner.class);
		//有一個reduce任務執行
		job.setNumReduceTasks(1);
		
		//1.4 TODO 排序、分組
		
		//1.5 TODO 規約
		
		//2.2 指定自定義reduce類
		job.setReducerClass(MyReducer.class);
		//指定reduce的輸出型別
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		
		//2.3 指定寫出到哪裡
		FileOutputFormat.setOutputPath(job, outPath);
		//指定輸出檔案的格式化類
		job.setOutputFormatClass(TextOutputFormat.class);
		
		//把job提交給JobTracker執行
		job.waitForCompletion(true);
		return 0;
	}

4、程式入口main

//程式入口Main方法
public static void main(String[] args) throws Exception {
      ToolRunner.run(new WordCount(), args);
}

5、完整程式程式碼

package com.lyz.hadoop.count;

import java.net.URI;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
/**
 * 利用Hadoop MapReduce統計文字中每個單詞的數量
 * @author liuyazhuang
 */
public class WordCount extends Configured implements Tool{
	//要統計的檔案位置
	static String INPUT_PATH = "";
	//統計結果輸出的位置
	static String OUT_PATH = "";

	@Override
	public int run(String[] args) throws Exception {
		//接收命令列引數
		INPUT_PATH = args[0];
		OUT_PATH = args[1];
		Configuration conf = new Configuration();
		final FileSystem fileSystem = FileSystem.get(new URI(INPUT_PATH), conf);
		final Path outPath = new Path(OUT_PATH);
		//如果已經存在輸出檔案，則先刪除已存在的輸出檔案
		if(fileSystem.exists(outPath)){
			fileSystem.delete(outPath, true);
		}
		
		final Job job = new Job(conf , WordCount.class.getSimpleName());
		//*******打包執行必須執行的方法*******
		job.setJarByClass(WordCount.class);
		
		//1.1指定讀取的檔案位於哪裡
		FileInputFormat.setInputPaths(job, INPUT_PATH);
		//指定如何對輸入檔案進行格式化，把輸入檔案每一行解析成鍵值對
		job.setInputFormatClass(TextInputFormat.class);
		
		//1.2 指定自定義的map類
		job.setMapperClass(MyMapper.class);
		//map輸出的<k,v>型別。如果<k3,v3>的型別與<k2,v2>型別一致，下面兩行程式碼可以省略
		job.setMapOutputKeyClass(Text.class);
		job.setMapOutputValueClass(LongWritable.class);
		
		//1.3 分割槽
		job.setPartitionerClass(HashPartitioner.class);
		//有一個reduce任務執行
		job.setNumReduceTasks(1);
		
		//1.4 TODO 排序、分組
		
		//1.5 TODO 規約
		
		//2.2 指定自定義reduce類
		job.setReducerClass(MyReducer.class);
		//指定reduce的輸出型別
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(LongWritable.class);
		
		//2.3 指定寫出到哪裡
		FileOutputFormat.setOutputPath(job, outPath);
		//指定輸出檔案的格式化類
		job.setOutputFormatClass(TextOutputFormat.class);
		
		//把job提交給JobTracker執行
		job.waitForCompletion(true);
		return 0;
	}
	//程式入口Main方法
	public static void main(String[] args) throws Exception {
		ToolRunner.run(new WordCount(), args);
	}
	
	/**
	 * KEYIN	即k1		表示行的偏移量
	 * VALUEIN	即v1		表示行文字內容
	 * KEYOUT	即k2		表示行中出現的單詞
	 * VALUEOUT	即v2		表示行中出現的單詞的次數，固定值1
	 */
	static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{
		protected void map(LongWritable k1, Text v1, Context context) throws java.io.IOException ,InterruptedException {
			final String[] splited = v1.toString().split("\t");
			for (String word : splited) {
				context.write(new Text(word), new LongWritable(1));
			}
		};
	}
	
	/**
	 * KEYIN	即k2		表示行中出現的單詞
	 * VALUEIN	即v2		表示行中出現的單詞的次數
	 * KEYOUT	即k3		表示文字中出現的不同單詞
	 * VALUEOUT	即v3		表示文字中出現的不同單詞的總次數
	 *
	 */
	static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{
		protected void reduce(Text k2, java.lang.Iterable<LongWritable> v2s, Context ctx) throws java.io.IOException ,InterruptedException {
			long times = 0L;
			for (LongWritable count : v2s) {
				times += count.get();
			}
			ctx.write(k2, new LongWritable(times));
		};
	}

}

Hadoop之——命令列執行時指定引數

本文旨在提供一個Hadoop在執行的時候從命令列輸入要統計的檔案路徑和統計結果的輸出路徑，不多說直接上程式碼 1、Mapper類的實現 /** * KEYIN 即k1 表示行的偏移量 * VALUEIN 即v1 表示行文字內容 * KEY

IntelliJ 執行程式前設定執行引數，類似於用命令列執行時輸入執行引數

問題需求： 1.寫了一個方法，是把小寫字母轉換為大寫字母。程式執行前沒有設定要轉換的引數，執行時隨使用者輸入資料，輸出。程式如下所示： 2.找到Edit Configurations。兩種方法，如下圖所示： 3.在Program arguments 裡輸入你想輸入

命令列執行Python指令碼時傳入引數的三種方式

三種常用的方式如果在執行python指令碼時需要傳入一些引數，例如gpus與batch_size，可以使用如下三種方式。 python script.py 0,1,2 10 python script.py -gpus=0,1,2 --batch-size=10 p

命令列執行PHP檔案時如何傳遞引數？

Get,post,request可以接收到請求資料，如何在命令列執行php時，獲得傳遞到php指令碼的資料呢？在命令列下傳遞資料時已經沒有了Get和Post的概念，在指令碼內，使用$argc, $ar

【Python】讀取命令列引數、在PyDev中設定Python執行時的引數

有時候，我們寫的命令列程式需要批次執行，這裡可以讓Python程式讀取命令列引數，再編寫一個命令列批次執行指令碼.bat，實際上就是一個充滿命令的、改了字尾名的文字檔案，在多個測試用例扔進Python程式中是非常有用的。例如，如下圖，有一個cmdArgs.py程式，當在p

Python 命令列執行指令碼時，提示匯入的包找不到

在Pydev能正常執行的指令碼，在匯出後在命令列執行，通常會報自己寫的包匯入時找不到。一：報錯原因在PyDev中，test.py 中匯入TestUserCase裡面的py檔案時，會寫： from TestUserCase.Test import Test 這在命Pydev中沒錯，

Go語言學習筆記(十七)之命令列引數

24.1命令列引數 os.Args命令列引數的切片 1: func main() { 2: name := "Alice" 3: fmt.Println("Good Morning", name) 4: // 說明使用者傳入了引數 5: if len(os.Args) >

命令列執行hadoop例項wordcount程式

需要說明的有以下幾點。 1.如果wordcount程式不含層次，即沒有package 那麼使用如下命令： hadoop jar wordcount.jar WordCount2 /home/hadoop/input/20418.txt /home/hadoop/outp

ffmpeg 原始碼學習 -- 之命令列引數解析

ffmpeg 原始碼學習 -- 之ffmpeg命令列引數解析大家通過git在安裝好cygwin之後，下載原始碼到（cygwin）home目錄，通過./configure ...... ，可以新增一堆引數選項，執行可以生成config.mk等編譯使用的檔案，通過命令對工

java之命令列引數

命令列 public class Test { public static void main(String[] args) { for ( int i = 0; i < args.length; i++ ) { System.o

命令列執行java程式，將控制檯日誌儲存到指定檔案

有個程式。命令列啟動命令為 java -verbose sample.DesktopApp在控制檯看到列印日誌。將日誌按照日期儲存到指定檔案中，以備查驗。關鍵點在於 2>&1 ，把控制檯異常重定向到標準輸出中。完整批處理如下： #!/bin/bash

springboot原始碼分析5-springboot之命令列引數以及原理

摘要：本文我們重點分析一下Springboot框架中的命令列引數的使用以及框架內部處理的命令列引數的原理。眾所周知，springboot專案可以有兩種方式啟動，第一種使用jar包；第二種使用war包。在使用jar方式的時候，我們可以在啟動jar包的時候設定一些命令引數。1.1

Java命令列執行引數說明大全(轉載）

6. -verbose[:class|gc|jni] 在輸出裝置上顯示虛擬機器執行資訊。 verbose和verbose:class含義相同，輸出虛擬機器裝入的類的資訊，顯示的資訊格式如下： [Loaded java.io.FilePermission$1 from shared objects fi

mac 下命令列執行 emulator -avd 命令時提示/emulator/qemu/darwin-x86_64/qemu-system-x86_64 沒有該命令或者目錄

ERROR:./android/qt/qt_setup.cpp:28:Qt library not found ../emulator/qemu/darwin-x86_64/qemu-system-x86_64 沒有該命令或者目錄其實之前一直是好的,只是剛剛升級as後就

TensorFlow 之命令列引數

TensorFlow專案例子中經常出現tf.app.flags，這個好像和tf.flags是一樣，加不加中間的app沒區別（要是不是這樣還請大家指出錯誤之處），它支援應用從命令列接受引數，可以用來指定叢集配置等。 import tensorflow as tf

scala學習-Linux命令列執行jar包傳入main方法引數

1。eclipse寫了一個程式，直接打包成jav普通jar包，然後無法選擇主類，但是執行的時候，可以指定引數，（引數在程式裡用 args(i)引用，注意是括號） 2。執行的時候，引數跟在jar包後面，

命令列執行Java程式載入指定目錄中的Jar檔案

經常遇到需要新增第三方jar檔案的情況。在命令列狀態下要載入外部的jar檔案非常麻煩，很不好搞，在網上折騰了很久終於搞定了，在這裡做個筆記：編譯：javac -Djava.ext.dirs=./lib Test.java執行：java -Djava.ext.dirs=./

命令列執行robotframework 遇到 AutoItLibrary . Run執行exe上傳指令碼失敗記錄

我在公司做自動化指令碼選擇的是robotframework 最近公司領導要求把做的頁面自動化成果展示在jenkins上，那就需要把寫好的指令碼放到Windows環境上，從jenkins上啟動指令碼使用的是最簡單粗暴的方式：命令列執行pybot D:\robotframe\web\ 當時使用在

java 命令列執行時報錯:找不到或無法載入主類

原始碼如下: 路徑目錄(...\src\object) 1 //: ch1.10/Command.java 2 /**@author feilong 3 * @version 1.0 4 */ 5 package object; 6 import java.util.*; 7 8

nginx安裝時指定引數的意義

看見一篇講解安裝nginx指定配置引數的意義的文章，特意轉載過來。防止以後找不到。 1.nginx安裝時新增引數with和without 凡是./configure指令後只能使用without選項的功能或者模組，其預設不明確指定時即為with即啟用狀態或者支援某功能的狀態。只能使用wit

Hadoop之——命令列執行時指定引數

相關推薦