本地Spark程式提交到hadoop叢集執行流程

阿新 • • 發佈：2019-01-02

1.本地環境準備

本文是將eclipse開發環境下的maven+Spark+scala程式移植到叢集環境上執行過程，寫的很粗糙，見諒。

本地用eclipse編寫Spark小程式，完成從txt檔案讀取資料操作。

本地maven+Spark+scala環境就不多說了，如果配置出問題，就下載最新的eclipse然後從商店裝外掛吧。

注意在maven的配置檔案pom.xml中插入Spark引用：

		<dependency>
			<groupId>org.apache.spark</groupId>
			<artifactId>spark-core_2.10</artifactId>
			<version>1.2.0</version>
		</dependency>

2.編寫測試程式碼

本地資料檔案放在data資料夾下，資料檔案格式是“性別”,“姓名”。scala程式碼如下，程式碼中註釋掉的是本地檔案讀取，替換為HDFS上的路徑，程式碼中制定local不需要修改，會在後面的執行指令碼中被覆蓋。“*”表示伺服器IP，埠為預設埠。

package com.******.scalaprogram

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.rdd.RDD
import scala.collection.mutable.LinkedList

object TestScala {
  def main(args: Array[String]): Unit = {
    val sc = new SparkContext("local[2]", "Pations Data Analysis")
//    val peopledata = sc.textFile("data/aaaaaa.txt")
    val peopledata = sc.textFile("hdfs://*.*.*.*:8020/user/mydir/aaaaaa.txt")
    val peoplelines = peopledata.collect()
    def parse(line:String) = {
      val pieces = line.split(",")
      val sex = pieces(0).toString()
      val name = pieces(1).toString()
      (sex,name)
    }    
    var sexLinkedList = LinkedList[String]("sex")
    var nameLinkedList = LinkedList[String]("name")
    for (i<-0 to (peoplelines.length-1)){
         var peoplerowcollectline = parse(peoplelines(i))
         val parse_1 = peoplerowcollectline._1
         val parse_2 = peoplerowcollectline._2
         sexLinkedList.append(LinkedList(parse_1))
         nameLinkedList.append(LinkedList(parse_2))
    }
    val sexList:List[String] = sexLinkedList.toList
    val nameList:List[String] = nameLinkedList.toList
    val peopleList : List[(String,String)] = sexList.zip(nameList).tail
    val rdd2 = sc.parallelize(peopleList)
    val combinByKeyRDD2 = rdd2.combineByKey(
        (x :String)=>(List(x),1),          
        (peo:(List[String],Int),x:String)=>(x::peo._1,peo._2+1),
        (sex1:(List[String],Int),sex2:(List[String],Int)) => (sex1._1:::sex2._1,sex1._2+sex2._2))
    combinByKeyRDD2.foreach(println)

    
  }
}

3.資料檔案上傳

將資料檔案上傳到伺服器，這裡用的是Xftp。上傳完畢後緊接著上傳到HDFS，注意要與上面程式碼中的路徑一致。

[[email protected]***** spark_dir]#hadoop fs -put aaaaaa.txt /user/mydir/aaaaaa.txt

4.程式打包和上傳

這裡使用maven打包檔案，打包方式有多種，這裡選擇：在工程包位置右擊 -> Run as -> Maven install，之後會在下圖中位置出現jar包。

將jar包拷貝到伺服器。

5.叢集執行程式

編寫執行指令碼，這個網上一大堆，我也是參考的。注意其中spark的路徑和程式的class路徑

最後執行指令碼：./combinbykey.sh >>spark.log得到結果

由於涉及公司等個人資訊，為了避免麻煩，做了處理導致圖片有點難看，將就下哈哈。整個程式很簡單，細心就可以了。

本地Spark程式提交到hadoop叢集執行流程

1.本地環境準備本文是將eclipse開發環境下的maven+Spark+scala程式移植到叢集環境上執行過程，寫的很粗糙，見諒。本地用eclipse編寫Spark小程式，完成從txt檔案讀取資料操作。本地maven+Spark+scala環境就不多說了，如果配置出

MR程式本地除錯，提交到叢集執行

在本地除錯，提交到叢集上執行。在本地程式中的Configuration中新增如下配置： Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://192.168.136.128:9000"); Sys

Spark（六）Spark任務提交方式和執行流程

sla handles 解析 nod 就會 clust 它的管理機 nag 一、Spark中的基本概念（1）Application：表示你的應用程序（2）Driver：表示main()函數，創建SparkContext。由SparkContext負責與Cluste

Spark任務提交方式和執行流程

ref www. ack app cnblogs driver tex src tor 轉自：http://www.cnblogs.com/frankdeng/p/9301485.html 一、Spark中的基本概念（1）Application：表示你的應用程序（

提交Spark程式到YARN叢集上面執行

在YARN群集上執行示例wordcount.py程式以計算知識資料集中單詞的頻率： $ spark-submit --master yarn-client wordcount.py /loudacre/kb/*

windows下idea編寫WordCount程式，並打jar包上傳到hadoop叢集執行（傻瓜版）

通常會在IDE中編制程式，然後打成jar包，然後提交到叢集，最常用的是建立一個Maven專案，利用Maven來管理jar包的依賴。一、生成WordCount的jar包 1. 開啟IDEA，File→New→Project→Maven→Next→填寫Groupld和Artifactld→Ne

spark程式提交叢集和監控

執行模式 Spark 應用在叢集上作為獨立的程序組來執行，在 main 程式中通過 SparkContext 來協調（稱之為 driver 程式） 1.每個應用獲取到它自己的 Executor 程序，它們會保持在整個應用的生命週期中並且在多個執行緒中執行 Task

Flink 程式碼方式提交程式到遠端叢集執行

在學習Flink時候，看到如下方法，可以獲取到遠端叢集上的一個ExecutionEnvironment例項，便嘗試使用一下，將本地IDE作業提交到叢集執行，程式碼如下： def createRemoteEnvironment(host: String, port:

MapReduce程式在yarn叢集上流程分析

yarn本身也是一個叢集，這個叢集的老大是resourcemanager，其他的小弟是nodemanager。 yarn 是一個資源排程平臺，負責為運算程式提供伺服器運算資源，相當於一個分散式的作業系統平臺，而MapReduce等運算程式則相當於是運行於作業系統之上的應用程式。運算資源

hadoop叢集執行jar包報錯（eclipse導jar）

報錯日誌： Exception in thread "main" java.lang.UnsupportedClassVersionError: com/hdfs/wordcount/WordcountDriver has been compiled by a more recent v

Spark原理框架和作業執行流程

@Author : Spinach | GHB @Link : http://blog.csdn.net/bocai8058 0 Hadoop與Spark的對比關係 Google 在 2003 年和 2004 年先後發表了 Google 檔案系統

通過spark-submit提交hadoop配置的方法

通過spark提交的spark開頭的配置在程式啟動後會新增到SparkConf中，但是hadoop相關的配置非spark開頭會被過濾掉，但是隻要在這些配置的key前面新增spark.hadoop.字首，則該key就不會被過濾，會被放置到SparkConf中；最終會儲存在Configuration

【資源排程總綱】Yarn原始碼剖析（零） --- spark任務提交到yarn的流程

前言本系列的目的在於試圖剖析spark任務提交至hadoop yarn上的整個過程，從yarn的啟動，以及spark-submit提交任務到yarn上，和在yarn中啟動任務包括yarn元件之間的通訊，用以提升自身知識儲備，記錄學習的過程為目的，由於個人能力有限文章中或許

Spark on Yarn解密及執行流程

一、Hadoop Yarn解析 1，Yarn是Hadoop推出整個分散式（大資料）叢集的資源管理器，負責資源的管理和分配，基於Yarn我們可以在同一個大資料叢集上同時執行多個計算框架，例如Spark、MapReduce、Storm等； 2，Yarn基本工作

intellij idea本地配置連線遠端hadoop叢集開發

自己研究大資料一年多了，雖然技術上有很多提高，但是有個問題就是一直沒法使用本地聯調叢集，每次都是寫完打包放到叢集執行。最近發現可以本地直接連線遠端聯調，大大提高了開發效率，分享一下。 1、下載hadoop，配置到本地環境變數中，路徑中最好不要有空格或下劃線環境

Ambari學習筆記：以本地倉庫自動搭建hadoop叢集環境

測試平臺：Ubuntu_server_16.04_x64 準備好一臺虛擬機器，安裝vmtool以設定共享資料夾： sudo mkdir /mnt/cdrom mount -tro iso9660 /dev/cdrom /mnt/cdrom sudo ta

Maven打包Java版的spark程式到jar包，本地Windows測試，上傳到叢集中執行

作者：翁鬆秀 Maven打包Java版的spark程式到jar包，本地Windows測試，上傳到叢集中執行文章目錄 Maven打包Java版的spark程式到jar包，本地Windows測試，上傳到叢集中執行 Step1

編寫Spark程式並提交到叢集上執行

編寫Spark應用程式使用SCALA IDE，新建一個SCALA PROJECT，在專案下新建一個lib的資料夾，把spark的JAR包放進去，並且build path裡新增一下JAR包引用，然後新增一個SCALA類SparkRowCount，這個Spark

scala編寫的Spark程式遠端提交到伺服器叢集上執行

一.需要的軟體： eclipse 相應版本的scalaIDE 與叢集一樣的spark安裝包，主要是要用到spark中的jar包與叢集一樣的hadoop安裝包與hadoop版本對應的winutil.exe，hadoop.dll（只要版本差距不大不一樣也沒關

Spark:本地連線叢集執行Saprk程式

本地連線叢集執行Saprk程式兩種方式目錄 1）通過Maven（簡單一些，建議用這種） 2）下載Saprk環境 1）通過Maven 備註：java是1.8版本，scala是2.1

本地Spark程式提交到hadoop叢集執行流程

1.本地環境準備

2.編寫測試程式碼

3.資料檔案上傳

4.程式打包和上傳

5.叢集執行程式

相關推薦