1. 程式人生 > >IDEAJ中Scala打包提交Spark叢集執行

IDEAJ中Scala打包提交Spark叢集執行

最簡單一個demo
//讀取hdfs,然後寫入hdfs

package com.spark.FirstApp
import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

object WordCountTest {
  def main(args: Array[String]) {
    val inputFile =  "hdfs://192.168.1.105:9000/word.txt"
    val conf = new SparkConf().setAppName("WordCount111").setMaster
("spark://centos701:7077") val sc = new SparkContext(conf) val textFile = sc.textFile(inputFile,1) textFile.saveAsTextFile("hdfs://192.168.1.105:9000/test/hello.txt") } }

IDEAJ中Build->BuidProject->Build Artifacts->Build,然後找到jar包。

在客戶機中提交
./spark-submit –class com.spark.FirstApp.WordCountTest /Users/liuchao/Desktop/20171211.jar

然後檢視hdfs發現檔案成功寫入

相關推薦

IDEAJScala打包提交Spark叢集執行

最簡單一個demo //讀取hdfs,然後寫入hdfs package com.spark.FirstApp import org.apache.spark.SparkContext import org.apache.spark.SparkConf ob

IDEA 打jar,提交spark叢集執行

1、idea開啟file,選擇projectstructure,點選Artifacts,如下圖 選擇add JAREmpty 然後點選OK 2、選擇bulid Artifacts 點選bulid 就會打成jar 3、通過winSCP把jar上傳到伺服器/var/

使用scala編寫一個簡單例項到spark叢集執行

實際工作上很少在虛擬機器上直接使用spark-shell去編寫程式,更多的是在IDEA等編輯器上將寫好的程式打包,使用spark-submit提交到叢集上去執行。 我們使用scala去編寫程式,不會的自己百度學下,不解釋。 1,安裝jdk    因為scala也是執行在

idea打spark jar包並提交spark叢集執行

打包打包檔案:File-->>ProjectStructure -->點選Artificats-->>點選綠色加號 --> 點選JAR-->>選擇 From module with dependices  點選Output La

MR程式本地除錯,提交叢集執行

在本地除錯,提交到叢集上執行。 在本地程式中的Configuration中新增如下配置: Configuration conf = new Configuration(); conf.set("fs.defaultFS", "hdfs://192.168.136.128:9000"); Sys

jupyter使用pyspark連線spark叢集

目標:此文在jupyter中配置pyspark,並非配置pyspark的核心,而是希望在python3的核心下,使用pyspark連線spark叢集. 準備:spark單機版 , jupyter no

spark 叢集執行python作業

今天嘗試用剛搭建好的spark叢集執行python作業,遇到了一些問題,解決了一些坑的同時也對spark叢集的運作和配置方式有了一些比較淺的認識,不像之前那麼沒有概念了,記錄如下,之後還要繼續更多的對Hadoop生態圈和spark平行計算框架的探究。 首先說下

關於SSH專案a標籤提交action後執行兩次的問題

             首先簡述一下問題,專案時SSH框架搭的,是一個小例子,什麼樣式都沒有,只是使用<s:iterator>將值棧中的資料遍歷出來,使用<a>標籤來提交修改和刪除,但是遇到了action執行兩次的問題。通過debug除錯。fire

ambari叢集中spark叢集執行jar踩的坑

公司三臺測試伺服器,測試spark的叢集模式是否正常執行遇到的問題: 1.spark執行spark任務遇到的, SparkContext did not initialize after waiting for 100000 ms. Please check e

scala編寫的Spark程式遠端提交到伺服器叢集執行

一.需要的軟體: eclipse 相應版本的scalaIDE 與叢集一樣的spark安裝包,主要是要用到spark中的jar包 與叢集一樣的hadoop安裝包 與hadoop版本對應的winutil.exe,hadoop.dll(只要版本差距不大不一樣也沒關

大資料之Spark(一)--- Spark簡介,模組,安裝,使用,一句話實現WorldCount,API,scala程式設計,提交作業到spark叢集,指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

pvuv的程式碼開發及提交spark程式jar包執行讀取資料來源並將結果寫入MySQL

目錄 PvUvToMysql類 ConnectionUtils類 jdbc.properties檔案 在IDEA中打jar包的兩種方式 IDEA打jar包 IDEA中maven方式打jar包 提交spark程式ja

spark叢集執行程式遇到的一些問題

使用的是yarn模式,所以執行程式之前需要先將所用資料集傳到hdfs上 //檢視hdfs的目錄 ./hdfs dfs -ls //新建一個data資料夾 ./hdfs dfs -mkdir /data //將檔案上傳到data資料夾下 ./hdfs dfs -p

提交Spark程式到YARN叢集上面執行

在YARN群集上執行示例wordcount.py程式以計算知識資料集中單詞的頻率: $ spark-submit --master yarn-client wordcount.py /loudacre/kb/*

spark過程Scala執行緒小問題

這次更改ThriftServer原始碼,加了些業務,中間遇到這樣一個問題,非同步提交任務的時候想做成多執行緒,剛開始是使用的scala的Actor,傳遞了SQLContext和sql,發現每次sparkSessionId在一直變化,每次提交和觸發Action之後產生的sessionId都不一致,

本地Spark程式提交到hadoop叢集執行流程

1.本地環境準備 本文是將eclipse開發環境下的maven+Spark+scala程式移植到叢集環境上執行過程,寫的很粗糙,見諒。 本地用eclipse編寫Spark小程式,完成從txt檔案讀取資料操作。 本地maven+Spark+scala環境就不多說了,如果配置出

提交第一個spark作業到叢集執行

寫在前面 接觸spark有一段時間了,但是一直都沒有真正意義上的在叢集上面跑自己編寫的程式碼。今天在本地使用scala編寫一個簡單的WordCount程式。然後,打包提交到叢集上面跑一下… 在本地使用idea開發,由於這個程式比較簡單,我這裡就直接給出程式碼

蝸龍徒行-Spark學習筆記【四】Spark叢集使用spark-submit提交jar任務包實戰經驗

一、所遇問題        由於在IDEA下可以方便快捷地執行scala程式,所以先前並沒有在終端下使用spark-submit提交打包好的jar任務包的習慣,但是其只能在local模式下執行,在網上搜了好多帖子設定VM引數都不能啟動spark叢集,由於實驗任務緊急只能暫時

編寫Spark程式並提交叢集執行

編寫Spark應用程式 使用SCALA IDE,新建一個SCALA PROJECT,在專案下新建一個lib的資料夾,把spark的JAR包放進去,並且build path裡新增一下JAR包引用,然後新增一個SCALA類SparkRowCount,這個Spark

蝸龍徒行-Spark學習筆記【五】IDEA叢集執行模式的配置

問題現象 在IDEA中執行sparkPI,報錯: Exception in thread “main” org.apache.spark.SparkException: A master URL must be set in your configurati