【Spark核心原始碼】解析“spark-shell”（一）

阿新 • • 發佈：2018-12-03

指令碼分析

遠端監控

之前使用spark-shell，編寫了一個word count程程式【初探Spark核心】Word Count程式的簡單分析，spark-shell究竟都為我們做了些什麼，下面就好好分析一下。

指令碼分析

當我們輸入指令“spark-shell”的時候，我們是呼叫了SPARK_HOME/bin/spark-shell指令碼。這個指令碼大致的呼叫過程是這樣的：

spark-shell指令碼中設定了main方法，做了一些準備工作後，這個方法執行了${SPARK_HOME}"/bin/spark-submit指令碼：

spark-shell指令碼的最後執行了main方法

spark-submit指令碼中執行了${SPARK_HOME}"/bin/spark-class指令碼，並傳遞了引數“org.apache.spark.deploy.SparkSubmit”：

spark-class指令碼中幹了首先要找到JAVA_HOME：

其次引用了spark的相關jar包：

接著載入了hadoop和yarn的相關配置：

最後設定並啟動JVM執行org.apache.spark.deploy.SparkSubmit：

由此可見，org.apache.spark.deploy.SparkSubmit是spark任務提交的主要程序。

遠端監控

在SPARK_SUBMIT_OPTS="$SPARK_SUBMIT_OPTS -Dscala.usejavacp=true"追加如下內容：

-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.port=10207 -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false

執行spark-shell指令碼後，在本地機器上開啟“jvisualvm.exe”，並配置遠端監控，增加JMX連結，連結的埠號跟上面配置的要保持一致

線上程中找到"main"執行緒，並點選【執行緒Dump】按鈕

進入此頁面：

main的執行緒呼叫資訊最開始也就是“[email protected]”的資訊如下：

可以看出main執行緒呼叫順序如下：

原始碼細節，後面再看吧。

【Spark核心原始碼】解析“spark-shell”（二）

接著【初探Spark核心】解析“spark-shell”（一）來看根據main的執行日誌來看，我們直接看一下org.apache.spark.repl.Main.main方法： main方法中建立了SparkILoop物件，作為引數傳遞給了doMain方法，並呼叫了doMain

【Spark核心原始碼】解析“spark-shell”（一）

目錄指令碼分析遠端監控之前使用spark-shell，編寫了一個word count程程式【初探Spark核心】Word Count程式的簡單分析，spark-shell究竟都為我們做了些什麼，下面就好好分析一下。指令碼分析當我們輸入指令“spark-shell”

spark mllib原始碼分析之L-BFGS（一）

1. 使用 spark給出的example中涉及到LBFGS有兩個，分別是LBFGSExample.scala和LogisticRegressionWithLBFGSExample.scala，第一個是直接使用LBFGS直接訓練，需要指定一系列優化引數，優

【Linux Nginx實戰】之初識Nginx（一）

Nginx LNMP 實戰 1.Nginx是什麽？ nginx是一款高性能的HTTP和反向代理服務器軟件，第一個開源版本誕生於2004年,雖然誕生較晚但經過十多年的發展,已經成為非常流行的web服務器軟件，下圖是w3techs公布的全球網站服務器軟件統計報告 2.Nginx為什麽流行? 首先，ng

【林軒田】機器學習基石（一）

接觸機器學習一年多，並沒有真正的理解其中的原理，突然決定從頭開始，做一些簡單的記錄督促自己學習。關注了一個博主，因為他寫的太好了，簡潔兒深刻結構清晰，從中學習很多，大部分內容從中摘抄，學習內容總結方式邏輯結構，感激博主分享https://blog.csdn.net/sjz_h

【C++學習筆記】虛基類（一）

1.為什麼要引入虛基類？在類的繼承中，如果我們遇到這種情況： “B和C同時繼承A，而B和C都被D繼承” 在此時，假如A中有一個函式fun（）當然同時被B和C繼承，而D按理說繼承了B和C，同時也應該能呼叫fun()函式。這一呼叫就有問題了，到底是要呼叫B中的fun（）函式還是呼叫C中的f

【深入Java基礎】HashMap高階用法（一）：排序

HashMap高階用法（一）：排序根據key排序 HashMap是無序的，我們可以根據key進行升序或降序。 1.利用List和Collections來實現排序先獲取HashMap的keySet，然後將keySet放入List，在由Collectio

[WebKit核心] JavaScriptCore深度解析--基礎篇（一）位元組碼生成及語法樹的構建詳情分析

看到HorkeyChen寫的文章《[WebKit] JavaScriptCore解析--基礎篇(三)從指令碼程式碼到JIT編譯的程式碼實現》，寫的很好，深受啟發。想補充一些Horkey沒有寫到的細節比如位元組碼是如何生成的等等，為此成文。 JS

【Go語言繪圖】圖片新增文字（一）

前一篇講解了利用gg包來進行圖片旋轉的操作，這一篇我們來看看怎麼在圖片上新增文字。 ## 繪製純色背景首先，我們先繪製一個純白色的背景，作為新增文字的背景板。 ```go package main import "github.com/fogleman/gg" func main() { con

【Spark核心原始碼】SparkContext一些方法的解讀

目錄建立SchedulerBackend的TaskScheduler方法設定並啟動事件匯流排釋出環境更新的方法釋出應用程式系統的方法在【Spark核心原始碼】SparkContext中的元件和初始化已經介紹了Spark初始化時是如何執行的，都建立了哪些元件。這些元

【Spark核心原始碼】SparkContext中的元件和初始化

目錄 SparkContext概述 SparkContext元件概述 SparkContext初始化過程第一步：確保當前執行緒中沒有SparkContext在執行第二步：版本反饋第三步：真正的初始化第四步：確認啟動成功 SparkContext概述在

【Spark核心原始碼】事件匯流排ListenerBus

目錄訊息匯流排ListenerBus 非同步事件處理LiveListenerBus 增加事件 listenerThread處理事件訊息匯流排ListenerBus org.apache.spark.util.ListenerBus處理來自DAGScheduler、Sp

【Spark核心原始碼】內建的RPC框架，Spark的通訊兵（二）

目錄 RPC管道處理TransportChannelHandler RPC服務端處理RpcHandler 載入程式Bootstrap RPC客戶端TransportClient 總結接著【Spark核心原始碼】內建的RPC框架，Spark的通訊兵（一）接著分析 R

【Spark核心原始碼】內建的RPC框架，Spark的通訊兵（一）

目錄 RPC上下文TransportContext RPC配置TransportConf RPC客戶端工廠TransprotClientFactory RPC服務端TransportServer 作為一個分散式計算引擎，既然是分散式，那麼網路通訊是肯定少不了的，在Spark中

【Spark核心原始碼】SparkConf，Spark的配置管控

目錄概述從系統中獲取並設定配置資訊使用SparkConf提供的方法設定配置資訊通過克隆的方式設定配置資訊總結概述 SparkConf，以KEY-VALUE對的形式設定Spark的配置引數。我們編寫Spark應用程式時，也會先建立SparkCon

【Spark核心原始碼】Spark基本概念及特點

目錄 Hadoop MapReduce的不足 Spark的基本概念 RDD DAG Partition NarrowDependency ShuffleDependency Job Stage Task Shuffle Spark的基本元件 Clu

【Spark核心原始碼】Spark原始碼環境搭建

目錄準備條件下載spark原始碼，並解壓開啟spark原始碼下的pom.xml檔案，修改對應的java和intellij裡的maven版本開啟intellij，Inport Project，將原始碼匯入intellij中問題總結（十分重要） Maven編譯打包前的準

【Spark核心原始碼】Word Count程式的簡單分析

目錄啟動Spark Shell 日誌級別的設定解析word count程式第0步：設定日誌級別（“可選”）第1步：讀取檔案第2步：將每行的內容根據空格進行拆分成單詞第3步：設定每一個單詞的計數為1 第4步：單詞根據Key進行計數值累加聚合第5步：輸出

【搜尋那些事】細談lucene（三）lucene核心API簡介

經過前面的簡單理論介紹，相信大家對搜尋引擎lucene有個簡單的瞭解。前面我們也提到過在lucene中主要包括索引和搜尋這兩大方面的元件。今天我們我們就通過一個簡單的例項來看一下lucene給我們提供的有關這兩個元件的簡單用法。一：建立索引在用lucene搜尋之前，我們首先要做的

【原始碼】主成分分析（PCA）與獨立分量分析（ICA）MATLAB工具箱

本MATLAB工具箱包含PCA和ICA實現的多個函式，並且包括多個演示示例。在主成分分析中，多維資料被投影到最大奇異值相對應的奇異向量上，該操作有效地將輸入訊號分解成在資料中最大方差方向上的正交分量。因此，PCA常用於維數降低的應用中，通過執行PCA產生資料的低維表示，同時，該低維表

【Spark核心原始碼】解析“spark-shell”（一）

指令碼分析

遠端監控

相關推薦