【Mapreduce】從程式碼上解決Output directory already exists錯誤，避免每次除錯都要手動刪除輸出資料夾

阿新 • • 發佈：2019-01-22

Mapreduce除錯很蛋疼的，它不會覆蓋上一次輸出的結果，如果發現輸出資料夾已經存在，比如我的除錯輸出資料夾是hdfs://192.168.230.129:9000/output，它會直接給你報如下錯誤：

Exception in thread "main" org.apache.hadoop.mapred.FileAlreadyExistsException: Output directory hdfs://192.168.230.129:9000/output already exists
	at org.apache.hadoop.mapreduce.lib.output.FileOutputFormat.checkOutputSpecs(FileOutputFormat.java:123)
	at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:770)
	at org.apache.hadoop.mapreduce.Job.submit(Job.java:432)
	at org.apache.hadoop.mapreduce.Job.waitForCompletion(Job.java:447)
	at MyMapReduce.main(MyMapReduce.java:65)

如下圖所示：

當然，錯誤很明瞭，就是輸出資料夾已存在。

不過網上有寫很坑爹的教程，表示解決這個錯誤，要自己手動刪除輸出資料夾。

這很蛋疼，無論你這次除錯成功還是報錯與否，都要先重新整理HDFS，再刪除，再執行程式：

這是何其地蛋疼啊！其實可以在程式碼上利用hdfs的檔案操作，解決這個問題。思想就是在程式碼執行之前，也就是提交作業之前，判斷output資料夾是否存在，如果存在則刪除。具體程式碼如下：

import java.io.IOException;
import java.util.StringTokenizer;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;

public class MyMapReduce {

	public static class MyMapper extends
			Mapper<Object, Text, Text, IntWritable> {
		private final static IntWritable one = new IntWritable(1);
		private Text word = new Text();

		public void map(Object key, Text value, Context context)
				throws IOException, InterruptedException {
			StringTokenizer itr = new StringTokenizer(value.toString());
			while (itr.hasMoreTokens()) {
				word.set(itr.nextToken());
				context.write(word, one);
			}
		}
	}

	public static class MyReducer extends
			Reducer<Text, IntWritable, Text, IntWritable> {
		private IntWritable result = new IntWritable();

		public void reduce(Text key, Iterable<IntWritable> values,
				Context context) throws IOException, InterruptedException {
			int sum = 0;
			for (IntWritable val : values) {
				sum += val.get();
			}
			result.set(sum);
			context.write(key, result);
		}
	}

	public static void main(String[] args) throws Exception {
		Configuration conf = new Configuration();

		String[] otherArgs = new GenericOptionsParser(conf, args)
				.getRemainingArgs();
		if (otherArgs.length != 2) {
			System.err.println("Usage: wordcount <in> <out>");
			System.exit(2);
		}
		Job job = new Job(conf);
		job.setMapperClass(MyMapper.class);
		job.setReducerClass(MyReducer.class);
		job.setOutputKeyClass(Text.class);
		job.setOutputValueClass(IntWritable.class);

		// 判斷output資料夾是否存在，如果存在則刪除
		Path path = new Path(otherArgs[1]);// 取第1個表示輸出目錄引數（第0個引數是輸入目錄）
		FileSystem fileSystem = path.getFileSystem(conf);// 根據path找到這個檔案
		if (fileSystem.exists(path)) {
			fileSystem.delete(path, true);// true的意思是，就算output有東西，也一帶刪除
		}

		FileInputFormat.addInputPath(job, new Path(otherArgs[0]));
		FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
		System.exit(job.waitForCompletion(true) ? 0 : 1);
	}

}

關鍵就是如下這4行：

// 判斷output資料夾是否存在，如果存在則刪除
Path path = new Path(otherArgs[1]);// 取第1個表示輸出目錄引數（第0個引數是輸入目錄）
FileSystem fileSystem = path.getFileSystem(conf);// 根據path找到這個檔案
if (fileSystem.exists(path)) {
	fileSystem.delete(path, true);// true的意思是，就算output有東西，也一帶刪除
}

教會Mapreduce這SB覆蓋上一次執行結果，別隻會在這報錯！

【Mapreduce】從程式碼上解決Output directory already exists錯誤，避免每次除錯都要手動刪除輸出資料夾

Mapreduce除錯很蛋疼的，它不會覆蓋上一次輸出的結果，如果發現輸出資料夾已經存在，比如我的除錯輸出資料夾是hdfs://192.168.230.129:9000/output，它會直接給你報如下錯誤： Exception in thread "main" org.ap

【Git】從本地上傳到github的文章顯示圖片的方法

雖然這段時間一直在git上上傳程式碼或者是文章，但是還沒有試過在github上面上傳圖片，前兩天寫了一篇部落格，裡面有很多插圖，就想著是不是可以一塊上傳到github上面去呢？中間失敗的各種方法就不贅述，下面說一下成功的兩種方法：方法一：將圖片單獨

【原創】從零開始搭建Electron+Vue+Webpack專案框架，一套程式碼，同時構建客戶端、web端（二）

導航：（一）Electron跑起來（二）從零搭建Vue全家桶+webpack專案框架（三）Electron+Vue+Webpack，聯合除錯整個專案（未完待續）（四）Electron配置潤色（未完待續）（五）預載入及自動更新（未完待續）（六）構建、釋出整個專案（包括client和web）（未完待續）摘要：

【Apache】從Apache官網下載windows版apache伺服器，並用AB進行壓力測試

1、下載穩定版2.2.31 http://httpd.apache.org/ 2.2.*和2.4.*區別？ httpd-2.2.x(prefork) httpd-2.4.x(event) 編譯時可以使用--with-mpm=prefork手動指定

從程式碼上看程式生死週期(生死迴圈，生命週期)（轉）

C語言程式的C執行時庫，C++語言程式的C++執行時庫（如上圖所示）等，這些執行時庫需要提前安裝在系統中，系統才會在分析到一個對應的程式時去啟動這個執行時庫，否則就無法執行這個程式。比如說你的系統沒有安裝C++執行時庫，而你的程式又沒有自己帶上這個庫，那麼系

將jar包上傳到Hadoop伺服器並執行jar包的方法--引數不對應導致報錯output directory already exists

ERROR security.UserGroupInformation: PriviledgedActionException as:root cause:org.apache.hadoop.mapred.FileAlreadyExistsException:Outpu

【實習】從ubuntu遷移過來的代碼，在centos上編譯問題的解決匯總

進行 libc 腳本 entos 行集升級版本不兼容 ubuntu 實習目前自己的開發環境(同將來線上環境)是centos 7。我這裏主要實現服務端。需要組裏其他同學提供一個接口(視頻編輯)。公司內部自己開發環境通常是臺式ubuntu16.04。所以提供視頻處理接口

【轉】從JVM模型談十種記憶體溢位的解決方法

原帖地址：https://www.jianshu.com/p/666f0ddb475c 導言：對於java程式設計師來說，在虛擬機器自動記憶體管理機制的幫助下，不需要自己實現釋放記憶體，不容易出現記憶體洩漏和記憶體溢位的問題，由虛擬機器管理記憶體這一切看起來非常美好，但是一旦出現記憶體溢位或者

【精】從入門到高深，史上最全的Spark綜合帖

http://dataunion.org/2824.html 什麼是Spark Spark是UC Berkeley AMP lab所開源的類Hadoop MapReduce的通用的平行計算框架，Spark基於map reduce演算法實現的分散式計算，擁有Hadoop M

【matlab】從圖片中擷取矩形區域（手工選取/標記在原圖上/擷取矩形區域並儲存）

%第一步：從圖片中選取矩形框區域 I = imread('o.png'); [A,rect] = imcrop(I); imshow(A); rect %第二步：根據rect確定：在原圖中繪製的矩形的座標，注意rect的格式[m n l k]->[(m,n) (m+l

【springboot】spring-boot上傳檔案MultiPartFile獲取不到檔案問題解決

1.現象是在spring-boot里加入commons-fileupload jar並且配置了mutilPart的bean，在upload的POST請求後，發現multipartRequest.getFiles=null，有點奇怪，查了文件資料才解決。

【Stimulsoft Reports Flex教程】從程式碼渲染報表

下載Stimulsoft Reports Flex最新版本此示例顯示如何從程式碼呈現報表模板。首先，您需要載入報表檔案，例如將其分配給 reportString變數。然後，您需要建立StiReport物件並使用loadReportFromString（）方法從此字串變數載入報表。完成這些操作後

劍指offer題解C++【22】從上往下列印二叉樹

題目描述從上往下打印出二叉樹的每個節點，同層節點從左至右列印。解題思路二叉樹的層次遍歷，藉助一個佇列實現。建立一個佇列，其中元素的型別為二叉樹的節點；按照“根-左-右”的順序依次將二

【1】從零開始做第三方支付開發-----初步了解概念

用例深入 hub 編寫不知道了解程序員系列 bsp 這是第三方支付開發的第一篇. 目前很多公司在做海外支付, 但是不知道怎麽開始. 本人公司就是做海外產品, 涉及到paypal和stripe支付, 有比較多的經驗, 希望可以幫助需要的朋友. 我是做Java開發,

BZOJ 2754 【SCOI2012】喵星球上的點名

iostream 節點 php string namespace mat blog void 關鍵字排序題目鏈接：喵星球上的點名　　首先可以發現姓和名兩個串就是逗你玩的。在兩個串中間插入一個\(10001\)，當成一個串做就可以了。　　於是我們的問題轉化為了：　　有

【Zabbix】在CentOS7上安裝Zabbix3.0

led spl clas connector 不同數據庫自由 sel 做了之前 Zabbix安裝　　首先說明一下，本文主要參考了【http://www.linuxidc.com/Linux/2016-11/137030.htm】和【http://www.cnblog

【Caffe】Ubuntu16.04上配置安裝caffe(Only CPU)

nts dia 使用 word sci oos evel 成功 eve 一、首先看看自己的系統，Ubuntu16.04，cpu，沒有Nvidia，沒有opencv 二、安裝依賴包安裝protobuf,leveldb,snappy,OpenCV,hdf5, protob

【POI】對於POI無法處理超大xls等文件，官方解決方法【未研究，待定】

構造 bsp .com similar miss 列數 xtra div iter 本次使用POI處理xlsx文件，莫名的遇到了一個無法逾越的問題。總共71個xlsx文件，單個文件最大達到50M以上，71個xls文件擺在那裏就有3-4G的大小。在起始處理的時候，發現原

【轉載】Remote System Explorer Operation總是運行後臺服務，卡死eclipse解決辦法

free ons down 地址 log system ack star rdquo 原來是eclipse後臺進程在遠程操作，就是右下角顯示的“Remote System Explorer Operation”。折騰了半天，在Stack Overfl

【bzoj1041】[HAOI2008]圓上的整點數論

個數描述 cst scan images 多少 family pri microsoft 題目描述求一個給定的圓(x^2+y^2=r^2)，在圓周上有多少個點的坐標是整數。輸入只有一個正整數n,n<=2000 000 000 輸出整點個數樣例輸

【Mapreduce】從程式碼上解決Output directory already exists錯誤，避免每次除錯都要手動刪除輸出資料夾

相關推薦