Spark本地開發與遠端除錯環境搭建

阿新 • • 發佈：2019-02-04

先決條件

遠端除錯環境搭建過程詳述

開啟Intellij IDEA，File->New ->Project
選擇Scala，然後next
配置好JDK、Scala版本，填入專案名稱，然後Finish

這裡寫圖片描述

4.匯入spark-assembly-1.5.0-hadoop2.4.0.jar

File->Prject Structure->Library
這裡寫圖片描述

這裡寫圖片描述

點”+”號->選擇JAVA
這裡寫圖片描述
找到spark-1.5.0安裝目錄，選擇spark-assembly-1.5.0-hadoop2.4.0.jar，我的機器上jar包目錄為
/hadoopLearning/spark-1.5.0-bin-hadoop2.4/lib/spark-assembly-1.5.0-hadoop2.4.0.jar，然後Finish

這裡寫圖片描述
最後點選“OK”完成匯入

5.關聯spark-1.5.0原始碼
在Extended Library中展開spark-assembly-1.5.0-hadoop2.4.0.jar
這裡寫圖片描述
找到org->apache->spark

點開下面包中的任意原始檔，我在本機上選擇”SparkContext.class”檔案，預設情況下Intellij IDEA會為我們反編譯.class檔案，但原始碼裡面沒有註釋，可以選擇右上角的”Attach Sources”

選擇原始碼檔案目錄，我的機器上原始碼解壓在/hadoopLearning/spark-1.5.0目錄，完成後“OK”
這裡寫圖片描述
完成後會提示根目錄

全部選擇後點擊“OK”，此時顯示的不是反編譯後的程式碼，而是關聯原始碼後的程式碼，你會發現多了很多註釋

至此原始碼閱讀環境構建完畢。

6.啟動spark-1.5.0叢集
[email protected]:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/sbin# ./start-all.sh
這裡寫圖片描述

7.修改spark-class指令碼
本機器上的spark-class指令碼位於/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin目錄
將指令碼中的內容

done < <("$RUNNER" -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main "[email protected] 
")

修改為

done < <("$RUNNER" -cp "$LAUNCH_CLASSPATH" org.apache.spark.launcher.Main $JAVA_OPTS "[email protected]")

這裡寫圖片描述

然後在命令列中執行下列語句
export JAVA_OPTS="$JAVA_OPTS -Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=5005"

這裡寫圖片描述

建立用於測試的Spark應用程式
選擇專案中的src檔案，然後右鍵 New->Scala Class

然後選擇Object

命名為SparkWordCount，然後點選OK，輸入如下內容

import org.apache.spark.SparkContext._
import org.apache.spark.{SparkConf, SparkContext}

object SparkWordCount{
  def main(args: Array[String]) {
    if (args.length == 0) {
      System.err.println("Usage: SparkWordCount <inputfile> <outputfile>")
      System.exit(1)
    }

    val conf = new SparkConf().setAppName("SparkWordCount")
    val sc = new SparkContext(conf)

    val file=sc.textFile("file:///hadoopLearning/spark-1.5.1-bin-hadoop2.4/README.md")
    val counts=file.flatMap(line=>line.split(" "))
      .map(word=>(word,1))
      .reduceByKey(_+_)
    counts.saveAsTextFile("file:///hadoopLearning/spark-1.5.1-bin-hadoop2.4/countReslut.txt")

  }
}

9 將Spark應用程式打包
選擇專案，File->Project Structure
這裡寫圖片描述
選擇 Artifacts

點選“+”號，然後選擇”Jar”->”From modules with dependencies”

選擇SparkWordCount作為MainClass
這裡寫圖片描述

這裡寫圖片描述

Spark應用程式在執行是會自動載入spark-assembly-1.5.0-hadoop2.4.0.jar等jar包，為減少後期Jar包的體積，可以將spark-assembly-1.5.0-hadoop2.4.0.jar等jar包刪除，這樣打包時不會被打包進去。
這裡寫圖片描述
完成後點選”OK”

再選擇”Build”->”Build Artifacts”
這裡寫圖片描述
Action中選擇“Build”

編譯後在對應目錄中可以看到生成的jar包檔案，本機器上的目錄是：
/root/IdeaProjects/SparkRemoteDebugPeoject/out/artifacts/SparkRemoteDebugPeoject_jar

這裡寫圖片描述

10 將程式碼利用spark-submit提交到叢集

root@sparkmaster:/hadoopLearning/spark-1.5.0-bin-hadoop2.4/bin# ./spark-submit --master spark://sparkmaster:7077 --class SparkWordCount --executor-memory 1g /root/IdeaProjects/SparkRemoteDebugPeoject/out/artifacts/SparkRemoteDebugPeoject_jar hdfs://ns1/README.md hdfs://ns1/SparkWordCountResult
//注意這一行語句
Listening for transport dt_socket at address: 5005

這裡寫圖片描述

11 Intellij IDEA中配置遠端除錯
Run->Edit Configuration
這裡寫圖片描述
找到Remote

點選”+“號，命名為Spark_Remote_Debug，其它配置預設，Intellij IDEA已為我們預設配置

完成後，點選OK

12 正式啟動遠端除錯
在原始碼中設定斷點，本例中選擇在SparkSubmit.scala檔案中設定斷點
這裡寫圖片描述

然後按 F9
這裡寫圖片描述
選擇Spark_Remote_Debug
Spark控制檯出現：Connected to the target VM, address: ‘localhost:5005’, transport: ‘socket’，如下圖

在Debugger上可以看到

程式在執行SparkSubmit原始碼中設定斷點處

至此，遠端除錯正式開始，請暢遊Spark原始碼吧

-Xdebug -Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=5005
引數說明：
-Xdebug 啟用除錯特性
-Xrunjdwp 啟用JDWP實現，包含若干子選項：
transport=dt_socket JPDA front-end和back-end之間的傳輸方法。dt_socket表示使用套接字傳輸。
address=5005 JVM在5005埠上監聽請求，這個設定為一個不衝突的埠即可。
server=y y表示啟動的JVM是被除錯者。如果為n，則表示啟動的JVM是偵錯程式。
suspend=y y表示啟動的JVM會暫停等待，直到偵錯程式連線上才繼續執行。suspend=n，則JVM不會暫停等待。

Spark本地開發與遠端除錯環境搭建

先決條件

遠端除錯環境搭建過程詳述

Spark本地開發與遠端除錯環境搭建

PhpStorm Xdebug遠端除錯環境搭建原理分析及問題排查

VS2008 遠端除錯環境搭建

Spark本地開發環境搭建與遠端debug設定

Phpstorm+XAMPP+Xdebug搭建斷點除錯環境搭建php除錯開發環境

Spark本地開發環境配置(windows/Intellij IDEA 篇)

iOS開發之runtime（一）：runtime除錯環境搭建

ESP8266與NodeMCU開發（一）環境搭建

Kettle 外掛開發除錯環境搭建（上）

嵌入式開發交叉除錯環境搭建

windows下的基於Eclipse的STM32開發除錯環境搭建

Firefly-RK3288開發板Android編譯環境搭建開荒

Spark筆記整理（三）：Spark WC開發與應用部署

最詳細的JavaWeb開發基礎之java環境搭建(Windows版)

最詳細的JavaWeb開發基礎之java環境搭建(Mac版)

Hyperledger Fabric 開發和運行環境搭建

Spring原始碼分析——除錯環境搭建（可能是最省事的構建方法）

BIM開發------BIMServer伺服器（環境搭建）

Fluent使用UDF以及採用visual studio 開發編譯udf的環境搭建2

Fluent使用UDF以及採用visual studio 開發編譯udf的環境搭建

Spark本地開發與遠端除錯環境搭建

先決條件

遠端除錯環境搭建過程詳述

相關推薦