spark 提交任務到yarn上執行

阿新 • • 發佈：2018-12-22

1、在idea上先寫好，自己的程式碼並進行測試，這裡貼一個很簡單的統計單詞個數的程式碼

package spark

import org.apache.spark.rdd.RDD
import org.apache.spark.{SparkConf, SparkContext}

object WordCount {
  def main(args: Array[String]) {
    //1/建立sparkconf和spark上下文
    /**
      *
    A master URL must be set in your configuration
        An application name must be set in your configuration
        所有的配置檔案資訊，其實都是在sparkconf當中載入的，所以如果你要設定
        配置檔案的資訊的話，conf.set("key","value")
      */
    val conf = new SparkConf()
      //本地模式，* 會在執行期間檢查當前環境下還剩下多少cpu核心，佔滿
      //.setMaster("local[*]")
      //.setAppName("idea_start_wc")

    val sc = new SparkContext(conf)

    val coalesceNum = Integer.parseInt(conf.get("spark.app.coalesce"))

    val resultRdd: RDD[(String, Int)] = sc.textFile("hdfs://192.168.89.77:8020/spark/datas/test.txt")
      .flatMap(_.split(" ")).map((_,1)).reduceByKey(_ + _) //到這一步已經實現wc
      .map(t=>(-t._2,t._1)).sortByKey().map(t=>(t._2,-t._1)) //這一步做排序
      //repartition   
	  //coalesce
      //以上這兩個重分割槽的api有什麼區別？
      .coalesce(coalesceNum)

    //儲存
    resultRdd.saveAsTextFile(s"hdfs://192.168.89.77:8020/spark/sparkrdd_idea/wordcount_res${System.currentTimeMillis()}")

    //呼叫執行緒等待，為了方便去頁面上看結果資訊
    //程式終止（通過正常手段關閉程式）
    sc.stop()

  }
}

2、在本地測試無誤後，將程式碼打包，這裡有兩種打包方式，1是胖包，2是瘦包，如果石胖包則是將所有的依賴包，都打進這個包裡，有可能會報錯，則將META-INF下的幾個檔案刪除

==> zip -d <你的jar包名稱.jar> META-INF/*.RSA META-INF/*.DSA META-INF/*.SF 這個是對壓縮包裡的檔案進行刪除的命令

3、編寫，匯入的指令碼檔案我的配置有限如下

#!/usr/bin/env bash


bin/spark-submit \  
--master yarn \         你的master平臺
--name wordcount \       你的任務名稱
--deploy-mode client \    deploy-mode模式設定，不知道的百度下
--class spark.WordCount \  你編寫的類所在的位置
--driver-memory   1G  \     driver的記憶體分配
--driver-cores 1 \          driver的核心數
--executor-memory 1G \       每個executor的記憶體
--executor-cores 1 \         executor的核心數
--num-executors 1  \         executor個數
--conf spark.app.coalesce=2 \   我們程式碼裡面穿的引數的名字，也就是分割槽數
/opt/cdh/spark/datas/word_count.jar    我們jar包所在的位置

4、對此指令碼程式進行提交bin/spark-submit 命令提交，可以在yarn平臺看到我們提交的任務，以及我麼你的結果

這裡可以我麼那可以看到，是兩個檔案，雖然有一個為空檔案，但確實是我們傳進來的引數2，得到了兩個分割槽

以上

spark 提交任務到yarn上執行

1、在idea上先寫好，自己的程式碼並進行測試，這裡貼一個很簡單的統計單詞個數的程式碼 package spark import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkConte

在Yarn上執行spark-shell和spark-sql命令列

spark-shell On Yarn 如果你已經有一個正常執行的Hadoop Yarn環境，那麼只需要下載相應版本的Spark，解壓之後做為Spark客戶端即可。需要配置Yarn的配置檔案目錄，export HADOOP_CONF_DIR=/etc/hadoop/conf &n

經驗分享（6）Oozie如何檢視提交到Yarn上的任務日誌

通過oozie job id可以檢視流程詳細資訊，命令如下： oozie job -info 0012077-180830142722522-oozie-hado-W 流程詳細資訊如下： Job ID : 0012077-180830142722522

在YARN上執行Spark API

啟動命令格式： $ ./bin/spark-submit --class path.to.your.Class --master yarn --deploy-mode cluster [options] <app jar> [app options] 例

spark streaming應用提交到yarn上一直處於ACCEPTED狀態，也未報錯

原因已經找到，這裡做個記錄，防止下次再犯類似的錯誤。實際上是因為程式碼中將執行模式設定為本地模式，在提交到yarn上後driver端的程式碼正常執行，並且也正常運行了很多批次。但由於是本地模式，所以driver不會向resourcemanager申請資源，所以也就不會向rm註

《Spark官方文件》在YARN上執行Spark

原文連結 Spark在 0.6.0版本後支援在YARN（hadoop NextGen）上執行，並且在後續版本中不斷改進。在YARN上啟動Spark 首先，確認 HADOOP_CONF_DIR或YARN_CONF_DIR指向的包含了Hadoop叢集的配置檔案。這些配置用於操作HDFS和連線Y

《Spark 官方文件》在YARN上執行Spark

在YARN上執行Spark 對 YARN (Hadoop NextGen) 的支援是從Spark-0.6.0開始的，後續的版本也一直持續在改進。在YARN上啟動首先確保 HADOOP_CONF_DIR 或者 YARN_CONF_DIR 變數指向一個包含Hadoop叢集客戶端配置檔案的目錄。這些配置用於

spark提交任務的模式—— standalone模式與yarn模式、資源排程與任務排程

standalone模式在客戶端提交Application，Driver在客戶端啟動；客戶端向Master申請資源，Master返回Worker節點； Driver向Worker節點發送task，監控task執行，回收結果。在客戶端提交App

Spark提交任務到YARN cluster中，提示An error occurred while calling z:org.apache.spark.api.python.PythonRDD

報錯日誌擷取部分如下： XXXXXXXXXX ERROR YarnSchedulerBackend$YarnSchedulerEndpoint:91 - Sending RequestExecutors(0,0,Map(),Set()) to AM was unsuccessful java.i

在 YARN 上執行 Spark

翻譯中...Running Spark on YARNSupport for running on YARN (Hadoop NextGen) was added to Spark in version 0.6.0, and improved in subsequent re

編寫Spark程式並提交到叢集上執行

編寫Spark應用程式使用SCALA IDE，新建一個SCALA PROJECT，在專案下新建一個lib的資料夾，把spark的JAR包放進去，並且build path裡新增一下JAR包引用，然後新增一個SCALA類SparkRowCount，這個Spark

在hadoop yarn上執行spark報錯

[email protected]:/usr/local/hadoop/etc/hadoop$ HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop/ pyspark --master yarn --deploy-m

spark 提交任務方式（spark-yarn和spark-client）

yarn-cluster和yarn-client方式的區別： yarn-cluster的ApplicationMaster在任一一臺NodeManager上啟動，申請啟動的Executor反向註冊到AM所在的NodeManager，而yarn-client

sqoop接入kerberos安全認證後，本地執行正常，但提交到yarn上連線hive報錯： Unable to obtain password from user

日誌資訊： 2018-09-17 11:31:30,774 INFO [OutputFormatLoader-consumer] com.chinacreator.sqoop.connector.hive.HiveExecutor: 連線hive失敗java.io.IOExc

RDD的緩存，依賴，spark提交任務流程

持久化存儲技術分享 alt 重要 depend 任務 cache 但是 1.RDD的緩存 Spark速度非常快的原因之一，就是在不同操作中可以在內存中持久化或緩存個數據集。當持久化某個RDD後，每一個節點都將把計算的分片結果保存在內存中，並在對此RDD或衍生出的RDD進

MapReduce2提交到yarn上工作流程

先來一副圖展示MapReduce2作業提交到yarn上的流程。 1.使用者向yarn的RM提交應用程式，其中包括Application Master程式啟動ApplicationMaster命令等。 2.RM首先為該app分配一個container，並與對應的nm通訊，要求nm在這個

spark提交任務的三種的方法

在學習Spark過程中，資料中介紹的提交Spark Job的方式主要有三種：第一種: 通過命令列的方式提交Job,使用spark 自帶的spark-submit工具提交，官網和大多數參考資料都是已這種方式提交的，提交命令示例如下：./spark-submit --class c

偽分散式的搭建（YARN上執行MapReduce 程式）

偽分散式的搭建（YARN上執行MapReduce 程式） 1.啟動叢集 1.1在當前目錄下 1.2確保NameNode和DataNode已經啟動 1.3啟動ResourceManager 1.4啟動NodeManager

spark提交任務以及資源分配問題

使用spark-submit命令提交Spark應用(注意引數的順序) spark-submit --master spark://hadoop01:7077 --class cn.edu360.spa

idea打包spark程式在叢集上執行過程(1)

第一步：第二步：第三步：第四步：第五步： spark-submit --master yarn --deploy-mode cluster --driver-memory 4G --executor-memory 5g --num

spark 提交任務到yarn上執行

相關推薦