Spark jobServer搭建+提交作業執行

阿新 • • 發佈：2018-12-25

安裝scala

根據spark版本，在官網下載對應的unix版tar檔案
配置環境變數

export PATH="$PATH:/usr/scala-2.10.6/bin"

立即生效命令

source /etc/profile

部署sbt

配置環境變數

export PATH="$PATH:/usr/sbt/"

建立啟動sbt的指令碼檔案
在sbt目錄下，建立sbt檔案

#!/bin/bash
SBT_OPTS="-Xms512M -Xmx1536M -Xss1M -XX:+CMSClassUnloadingEnabled -XX:MaxPermSize=256M"
java $SBT_OPTS 
 -jar /usr/sbt/bin/sbt-launch.jar "[email protected]"

檢視sbt版本，第一次啟動會自動下載檔案

sbt sbt-version

搭建jobServer

在github上下載對應spark版本的jobServer原始碼
在config目錄下，重新命名template（模板）檔案，local.conf 和 local.sh
修改local.sh中的配置
（INSTALL_DIR： jobServer安裝路徑）
這裡寫圖片描述

bin目錄下執行

./server_package.sh local

編譯需要較長時間，編譯成功後，在生成的job-server目錄下啟動

./server_start.sh

在8090埠檢視

這裡寫圖片描述

打包wordcount並提交執行

在原始碼目錄下，打包job-server-tests

sbt job-server-tests/package

上傳jar包，作為一個app，名為test

curl --data-binary @/usr/spark-jobserver-0.6.2/job-server-tests/target/scala-2.10/job-server-tests_2.10-0.6.2.jar master:8090/jars/test

臨時context方式（作業執行完成後刪除context）

非同步方式提交任務
jobserver會建立自己的SparkContext，會返回一個jobID供隨後的查詢

# curl -d "input.string = a b c a b see" 'localhost:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample'
{
  "status": "STARTED",
  "result": {
    "jobId": "2e943174-63e3-41f2-bf4e-e56ff85169a9",
    "context": "6d262fce-spark.jobserver.WordCountExample"
  }
}

通過jobid查詢結果

# curl master:8090/jobs/2e943174-63e3-41f2-bf4e-e56ff85169a9
{
  "duration": "0.278 secs",
  "classPath": "spark.jobserver.WordCountExample",
  "startTime": "2017-07-19T01:05:12.863-04:00",
  "context": "6d262fce-spark.jobserver.WordCountExample",
  "result": {
    "a": 2,
    "b": 2,
    "see": 1,
    "c": 1
  },
  "status": "FINISHED",
  "jobId": "2e943174-63e3-41f2-bf4e-e56ff85169a9"
}

同步方式提交任務(新增sync引數，值為true)

curl -d "input.string = a b c a b see" 'master:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample&sync=true'

{
  "result": {
    "a": 2,
    "b": 2,
    "see": 1,
    "c": 1
  }
}

常駐context方式

建立一個常駐context，叢集為其分配資源，一直處於執行狀態（jobserver重啟會終止context，釋放資源）

curl -d "" 'master:8090/contexts/test-context?num-cpu-cores=4&memory-per-node=512m'

在context中執行任務（同步）

curl -d "input.string = a b c a b see" "localhost:8090/jobs?appName=test&classPath=spark.jobserver.WordCountExample&context=test-context&sync=true"

Spark jobServer搭建+提交作業執行

安裝scala 根據spark版本，在官網下載對應的unix版tar檔案配置環境變數 export PATH="$PATH:/usr/scala-2.10.6/bin" 立即生效命令 source /etc/profile 部署sbt

Spark原理框架和作業執行流程

@Author : Spinach | GHB @Link : http://blog.csdn.net/bocai8058 0 Hadoop與Spark的對比關係 Google 在 2003 年和 2004 年先後發表了 Google 檔案系統

大資料之Spark（一）--- Spark簡介，模組，安裝，使用，一句話實現WorldCount，API，scala程式設計，提交作業到spark叢集，指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

spark on yarn作業執行流程

Spark是一個分散式資料快速分析專案。它的核心技術是彈性分散式資料集（Resilient Distributed Datasets），提供了比MapReduce豐富的模型，可以快速在記憶體中對資料集進行多次迭代，來支援複雜的資料探勘演算法和圖形計算演算法。 Spark

一 spark on yarn cluster模式提交作業，一直處於ACCEPTED狀態，改了Client模式後就正常了

1. 提交spark作業到yarn，採用client模式的時候作業可以執行，但是採用cluster模式的時候作業會一直初一accept狀態。背景：這個測試環境的資源比較小，提交作業後一直處於accept狀態，所以把作業的配置也設定的小。 submit 語句： spark

spark 作業執行原理原始碼閱讀(三)

概述作業（Job）排程階段（stage）任務（Task） DAGScheduler：面向排程階段的任務調節器，負責接收spark應用提交的作業，根據RDD的依賴關係（根據寬依賴劃分）劃分排程階段，並提交stage給TaskScheduler。 TaskScheduler：面

Spark on YARN cluster & client 模式作業執行全過程分析

原文連結列表如下，致謝： https://www.iteblog.com/archives/1223.html https://www.iteblog.com/archives/1189.html https://www.iteblog.com/archives/1191.html

Spark on YARN client模式作業執行全過程分析

在前篇文章中我介紹了Spark on YARN叢集模式（yarn-cluster）作業從提交到執行整個過程的情況（詳情見《Spark on YARN叢集模式作業執行全過程分析》），我們知道Spark on yarn有兩種模式：yarn-cluster和yarn-client。這兩種模式作業雖然都是

Spark（三）————作業提交流程

1、Spark核心API [SparkContext] 連線到spark叢集,入口點. [RDD] 它是一個分割槽的集合. 彈性分散式資料集. 不可變的資料分割槽集合. 基本操作(map filter , persist) 分割槽列表

hadoop2 作業執行過程之作業提交

hadoop任務的提交常用的兩種，一種是測試常用的IDE遠端提交，另一種就是生產上用的客戶端命令列提交通用的任務程式提交步驟為： 1.將程式打成jar包； 2.將jar包上傳到HDFS上； 3.用命令列提交HDFS上的任務程式。跟著提交步驟從命令列提交開始最簡單的提

編寫Spark程式並提交到叢集上執行

編寫Spark應用程式使用SCALA IDE，新建一個SCALA PROJECT，在專案下新建一個lib的資料夾，把spark的JAR包放進去，並且build path裡新增一下JAR包引用，然後新增一個SCALA類SparkRowCount，這個Spark

Spark提交作業找不到jar

楔子 Spark 提交作業找不到jar ERROR ClientEndpoint:70 - Exception from cluster was: java.nio.file.NoSuchFileException 出錯提示 [[email prote

scala編寫的Spark程式遠端提交到伺服器叢集上執行

一.需要的軟體： eclipse 相應版本的scalaIDE 與叢集一樣的spark安裝包，主要是要用到spark中的jar包與叢集一樣的hadoop安裝包與hadoop版本對應的winutil.exe，hadoop.dll（只要版本差距不大不一樣也沒關

spark叢集搭建與叢集上執行wordcount程式

Spark 配置 1、master 機器 Spark 配置進入 Spark 安裝目錄下的 conf 目錄，拷貝 spark-env.sh.template 到 spark-env.sh。 cp spark-env.sh.template spark-e

Spark on yarn--幾種提交叢集執行spark程式的方式

今天看了spark的yarn配置，本來想著spark在hadoop叢集上啟動之後，還需要配置spark才能讓yarn來管理和排程spark的資源，原來啟動master和worker之後就會讓yarn來

Spark基礎入門（三）--------作業執行方式

（一）SparkContext 代表對叢集的一個連線驅動程式通過sparkContext連線spark叢集每個JVM只允許啟動一個SparkContext，一個sparkContext連線代表一個application，每個application中可能有多個job（jo

spark on yarn作業執行的jar包快取優化

原文地址參考自下文這幾天一直在追查spark on yarn的作業執行中的jar包分發，以及執行後的jar包刪除的問題。從一開始的毫無頭緒，到後來逐漸清晰，到後來通過hadoop的兩個很簡單的引數配置解決了問題。不得不說，雖然問題不大，對某些大牛們來說也

Spark作業執行流程原始碼解析

目錄相關概念概述原始碼解析作業提交劃分&提交排程階段提交任務執行任務結果處理 Refe

Spark Job具體的物理執行

oca rds 物理 cer mapper shu cal compute 並發即使采用pipeline的方式，函數f對依賴的RDD中的數據集合的操作也會有兩種方式： 1.f(record)，f作用於集合的每一條記錄，每次只作用於一條記錄 2.f(records)，f一次

Spark環境搭建（四）-----------數據倉庫Hive環境搭建

apr 程序版本擴展 arch 表名數據集 .tar.gz 自定義 Hive產生背景 1）MapReduce的編程不便，需通過Java語言等編寫程序 2） HDFS上的文缺失Schema(在數據庫中的表名列名等)，方便開發者通過SQL的方式處理結構化的數據，而不需

Spark jobServer搭建+提交作業執行

安裝scala

部署sbt

搭建jobServer

打包wordcount並提交執行

臨時context方式（作業執行完成後刪除context）

常駐context方式

相關推薦