Maven打包Java版的spark程式到jar包，本地Windows測試，上傳到叢集中執行

阿新 • • 發佈：2018-12-25

作者：翁鬆秀

Maven打包Java版的spark程式到jar包，本地Windows測試，上傳到叢集中執行

文章目錄

Maven打包Java版的spark程式到jar包，本地Windows測試，上傳到叢集中執行

Step1：Maven打包Jar包
Step2：本地測試spark程式
Step3：Jar包上傳到叢集
Step4：叢集上提交Jar包

學習spark的路漫漫啊~前面搭建好了本地環境，用eclipse跑了幾個spark自帶的程式，現在想用maven將程式打包成jar包，然後在本地測試，再上傳到伺服器叢集中提交。

Windows本地搭建Spark開發環境

路漫漫其修遠兮，吾將上下而求索。

Step1：Maven打包Jar包

windows本地測試版JavaWordCount程式碼：

package code.demo.spark;
import scala.Tuple2;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import java.util.Arrays;
import java.util.List;
import java.util.regex.Pattern;
public final class JavaWordCount {
	private static final Pattern SPACE = Pattern.compile(" ");
	public static void main(String[] args) throws Exception {
	
		//將hadoop路徑對映為本地的hadoop路徑
		
		System.setProperty("hadoop.home.dir", "F:\\home\\hadoop");
		SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount").setMaster("local");
		JavaSparkContext ctx = new JavaSparkContext(sparkConf);
		
		//從本地磁碟中讀取待統計的檔案
		
		JavaRDD<String> lines = ctx.textFile("F:/home/spark/README.md");
		JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
			private static final long serialVersionUID = 1L;
			
			@Override
			public Iterable<String> call(String s) {
				return Arrays.asList(SPACE.split(s));
			}
		});
		JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {

			private static final long serialVersionUID = 1L;

			@Override
			public Tuple2<String, Integer> call(String s) {
				return new Tuple2<String, Integer>(s, 1);
			}
		});
		JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {
			private static final long serialVersionUID = 1L;

			@Override
			public Integer call(Integer i1, Integer i2) {
				return i1 + i2;
			}
		});

		List<Tuple2<String, Integer>> output = counts.collect();
		for (Tuple2<?, ?> tuple : output) {
			System.out.println(tuple._1() + ": " + tuple._2());
		}
		ctx.stop();
		ctx.close();
	}
}

win + R 開啟執行視窗輸入cmd開啟命令列視窗，切換到程式所在目錄，我的目錄是：

E:\code\JavaWorkspace\SparkDemo

編譯程式

mvn compile

這裡寫圖片描述
打包程式

mvn package

這裡寫圖片描述
如果程式沒有特殊情況，比如缺胳膊少腿，打包完後回看到“BUILD SUCCESS”，說明打包成功，這時在maven工程的target資料夾中就可以看到打包好的jar包。

Step2：本地測試spark程式

開啟命令列視窗進入spark安裝目錄的bin目錄底下，我的spark安裝路徑是

F:\home\spark-1.6.3-bin-hadoop2.6

為了提交方便，我把打包好的jar包放到了F盤的根目錄

F:\ExampleSpark-1.0-SNAPSHOT.jar

然後執行命令

spark-submit --class code.demo.spark.JavaWordCount --master local F:\\ExampleSpark-1.0-SNAPSHOT.jar

這裡寫圖片描述

Step3：Jar包上傳到叢集

準備工作：因為WordCount程式需要讀取檔案，為了方便起見，所以我們將程式中要統計的檔案word.txt上傳到HDFS
命令格式：hadoop fs -put 本地路徑 HDFS路徑
命令如下：

hadoop fs -put /home/hmaster/word.txt hdfs://hadoop-mn01:9000/user/hmaster/word.txt

檢視是否上傳成功：

hadoop fs -ls hdfs://hadoop-mn01:9000/user/hmaster

如果看到word.txt說明成功，沒有則失敗。上傳失敗的原因可能hdfs上面路徑不存在，比如說hmaster資料夾不存在，在hdfs的user目錄下建立hmaster資料夾：

hadoop fs -mkdir /user/hmaster

叢集版程式碼：直接從HDFS讀取要統計單詞的檔案word.txt


package code.demo.spark;

import scala.Tuple2;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.api.java.function.Function2;
import org.apache.spark.api.java.function.PairFunction;
import java.util.Arrays;
import java.util.List;
import java.util.regex.Pattern;

public final class JavaWordCount {
	private static final Pattern SPACE = Pattern.compile(" ");
	public static void main(String[] args) throws Exception {
		SparkConf sparkConf = new SparkConf().setAppName("JavaWordCount");
		JavaSparkContext ctx = new JavaSparkContext(sparkConf);
		
		//從hdfs中讀取word.txt進行單詞統計
		
		JavaRDD<String> lines = ctx.textFile("hdfs://hadoop-mn01:9000/user/hmaster/word.txt");
		JavaRDD<String> words = lines.flatMap(new FlatMapFunction<String, String>() {
			private static final long serialVersionUID = 1L;
			@Override
			public Iterable<String> call(String s) {
				return Arrays.asList(SPACE.split(s));
			}
		});
		JavaPairRDD<String, Integer> ones = words.mapToPair(new PairFunction<String, String, Integer>() {
			private static final long serialVersionUID = 1L;
			@Override
			public Tuple2<String, Integer> call(String s) {
				return new Tuple2<String, Integer>(s, 1);
			}
		});
		JavaPairRDD<String, Integer> counts = ones.reduceByKey(new Function2<Integer, Integer, Integer>() {
			private static final long serialVersionUID = 1L;
			@Override
			public Integer call(Integer i1, Integer i2) {
				return i1 + i2;
			}
		});
		List<Tuple2<String, Integer>> output = counts.collect();
		for (Tuple2<?, ?> tuple : output) {
			System.out.println(tuple._1() + ": " + tuple._2());
		}
		ctx.stop();
		ctx.close();
	}
}

從本地windows上傳jar包到linux伺服器的叢集裡，我用的是WinSCP，除了WinSCP還有其他的方法，不一一例舉。
這裡寫圖片描述

Step4：叢集上提交Jar包

開啟spark主節點伺服器的終端，進入spark的安裝目錄，執行提交命令：

.bin/spark-submit --class code.demo.spark.JavaWordCount --master spark://hadoop-mn01:7077 /home/hmaster/WordCount.jar

命令解釋：
.bin/spark-submit ：提交命令，提交應用程式
–class code.demo.spark.JavaWordCount：應用程式的主類
–master spark://hadoop-mn01:7077 ：執行的master，跟本地測試local不一樣
/home/hmaster/WordCount.jar：jar包所在路徑
提交之後程式執行完後就能看到統計的結果：
這裡寫圖片描述
Hello WordCount！

Maven打包Java版的spark程式到jar包，本地Windows測試，上傳到叢集中執行

作者：翁鬆秀 Maven打包Java版的spark程式到jar包，本地Windows測試，上傳到叢集中執行文章目錄 Maven打包Java版的spark程式到jar包，本地Windows測試，上傳到叢集中執行 Step1

pvuv的程式碼開發及提交spark程式jar包執行讀取資料來源並將結果寫入MySQL中

目錄 PvUvToMysql類 ConnectionUtils類 jdbc.properties檔案在IDEA中打jar包的兩種方式 IDEA打jar包 IDEA中maven方式打jar包提交spark程式ja

maven打包排除指定檔案（jar包）

在使用maven打包時，有些時候需要排除某些檔案或者排除某些jar，不把這個檔案和jar打入到war包裡面一、在專案的pom.xml檔案裡面新增如下配置：  <plugin> <groupId>org.apa

配置maven環境變量並安裝jar包到本地倉庫

mave checksum 查看 img 下載 mage net 解壓 nbsp 1.下載maven安裝包，解壓，解壓目錄如下： 2.配置M2_HOME變量為上一步的路徑： 3.配置PATH變量，添加%M2_HOME%\bin; 查看是否配置成功 mvn -v :

使用Java Service Wrapper將jar包安裝成Windows服務

部署 detect cap xxx face port exception script 參考在windows上運行jar包，需要在工作目錄下使用命令行運行jar包，這樣會出現一個命令行窗口。而且這個命令行窗口有可能會不小心被關閉，且服務器啟動後需要人為去點擊開啟。對於

Maven 的Android專案裡面的jar包（本地）、library及libs目錄下so檔案如何引用

一.jar包引用（本地） 1.普通eclipse結構專案下的如下圖直接放入libs目錄下不做詳解 2.maven 結構下 jar包引用方式在cmd下用mvn命令把jar安裝到本地repository中（mvn環境已經配置好必須）這句話： mvn inst

Maven的assembly外掛實現自定義打包部署（包含依賴jar包）

微服務必備優點：　　1、可以直接匯入依賴jar包　　2、可以新增外掛啟動 .sh 檔案　　3、外掛的配置以及微服務的統一打包方式 1.首先我們需要在pom.xml中配置maven的assembly外掛 <build> <plugins

eclipse maven 打包的時候總是會自己去下載jar包，這些jar包在本地倉庫裡面有

問題描述：eclipse maven 打包的時候總是會自己去下載jar包，其實這些jar包在本地倉庫裡面有，不用下載，每次都重新下載感覺太耗費時加；解決辦法：在elipse中開啟maven的配置檔案：檢查原來是自己把本地的倉庫個註釋掉了，引起的，重新開啟配置: <

java 定時器打jar 包執行小程式

專案結構最近專案中需要定時跑資料，所以剛接觸到了定時器目前我所接觸到的有3種方式，一種是jdk自帶的Timer 類，一種是spring自帶的定時，第三種是開源的quartz，這裡用舉例子用到的是JDk中的Timer先看jdK 1.6文件是這麼描述主要方法有實現定時執行某項任務

springboot打包jar包找不到jsp檔案以及在linux永久執行java -jar以及springboot的多環境配置

因為springboot打包jar包執行jsp和在linux永久執行java -jar以及springboot的多環境配置都是springboot的就放在一起說了先說打包jar 不能找到jsp問題：打包成jar的時候會找不到jsp檔案只需要在pom.xm

使用idea和maven開發和打包scala和spark程式

使用idea構建maven管理的scala和spark程式，預設已經裝好了idea、scala並在idea中安裝了scala外掛。一、新建Maven專案開啟idea，點選File—New—Project，彈出如下介面，選擇Maven專案，檢視是否是正確的JDK配置項正常來說這

maven手動導入jar包到本地倉庫

jar包 maven color art style maven安裝操作 packaging 路徑 1、使用cmd進入maven安裝目錄下的bin 2、運行mvn install:install-file -Dfile=jar包的路徑 -DgroupId=gruopId

maven安裝第三方jar包到本地倉庫

color packaging 需要 pid 生成 art 倉庫 span jar下載　　添加項目依賴的時候,有些jar下載不下來,只有手動下載或安裝到本地倉庫了首先下載所需要的jar,放到指定的文件夾然後執行如下命令: mvn install:in

Java使用comms-net jar包完成ftp文件上傳進度的檢測功能

.get 核心 util logs 後臺 pan 設置 ftp文件 ets 本文章只講述大致的思路與本次功能對應的一些開發環境，具體實現請結合自己的開發情況，僅供參考，如果有不對的地方，歡迎大家指出！準備環境：JDK1.7 OR 1.8、eclipse、ftp服務器（可自

spark提交jar包時出現unsupported major.minor version 52.0錯誤的解決方案

模式 classname jdk版本 images pil 編譯器就會 home spark 一、問題：　　　　最近在spark集群上做一個項目，打包提交jar包時，出現了unsupported major.minor version 52.0的報錯，而在local模式

添加jar包到本地Maven倉庫

代碼 image mage eight logs 缺點 edi 中間安裝jar 在使用Maven的過程中，經常碰到有些jar包在中央倉庫沒有的情況。如果公司有私服，那麽就把jar包安裝到私服上。如果沒有私服，那就把jar包安裝到本地Maven倉庫。今天

nexus搭建maven私服及私服jar包上傳和下載

ive 校驗 public 我們賬號依賴 detail 接下來 triangle nexus搭建maven私服及私服jar包上傳和下載標簽： nexus管理maven庫snapshot 2017-06-28 13:02 844人閱讀評論(0) 收

SpringBoot idea maven打包war及運行war包

boot build 分享。。使用雙擊包名 scope frame pom.xml修改打包類型pom改為war <artifactId>Test02</artifactId> <packaging>war</packa

Java使用POM一JAR包的形式管理JavaScript文件-WebJars

org end 器）形勢 www. you 資源以及拷貝說明：原來JS框架還可以使用POM進行管理的。WebJars是一個很神奇的東西，可以讓大家以JAR包的形式來使用前端的各種框架、組件。什麽是WebJars 什麽是WebJars？WebJars是將客戶端（

Maven 手動添加 JAR 包到本地倉庫

還可以吧 -c pub 1.0 兩個很多 eight -s 安裝到本地倉庫 Maven 確確實實是個好東西，用來管理項目顯得很方便，但是如果是通過 Maven 來遠程下載 JAR 包的話，我宿舍的帶寬是4兆的，4個人共用，有時候用 Maven 來遠程下載 JAR 包會顯得

Maven打包Java版的spark程式到jar包，本地Windows測試，上傳到叢集中執行