Spark執行狀態的監控

阿新 • • 發佈：2019-01-23

強力推薦，相見恨晚的文件，建議先看

關於Spark監控，推薦一個講的非常好的PPT：monitoring-spark-applications，簡練、全面的講解了Spark監控的必要性、方法、缺點及改進方法。

下面是我自己的一些總結

Spark UI監控，有三個維度

對Spark執行時的狀態進行監控可以對執行時間較長的大型任務執行過程心中有數，明白時間花費在什麼地方，看任務在什麼地方發生異常。首先說明Spark的一個application的劃分規則。

job :job是application的組成單位。 A job is triggered by an action, like count() or saveAsTextFile(). Click on a job to see information about the stages of tasks inside it. 一個 job，就是由一個 rdd 的 action 觸發的動作，可以簡單的理解為，當你需要執行一個 rdd 的 action 的時候，會生成一個 job.

stage : stage 是 job 的組成單位，就是說，一個 job 會被切分成 1 個或 1 個以上的 stage，然後各個 stage 會按照執行順序依次執行。job 根據Spark的shuffle過程來切分 stage，如某stage有2個shuffle過程，它就被切分成3個stage.
task : A unit of work within a stage, corresponding to one RDD partition。即 stage 下的一個任務執行單元。“一般來說，一個 rdd 有多少個 partition，就會有多少個 task，因為每一個 task 只是處理一個 partition 上的資料。”

對Spark的監控需求，可以按需劃分為針對job的監控、針對stage的監控和針對task的監控，Spark UI提供了以下三種監控介面：

針對job的監控：每次查詢都是一個Job，下圖顯示一個已經完成的查詢任務和一個正在進行的查詢任務，每一個任務的具體進度在行末展示
針對stage的監控：一個job裡所有的stage列表
針對task的監控：一個stage裡所有的task列表

每一種監控方式都能展示其每一步消耗的時間，可以通過Event Timeline的方式只管的看時間消耗。針對某一消耗時長異常的步驟進行檢查或者調優。
這種監控方式的優點是直觀易懂，而且大部分的表格可以用json的形式提供給其他應用

，缺點是圖形化的工具不易在其他介面上整合。

值得注意的是，Spark UI監控的埠有配置有些小trick，spark預設配置和CDH配置有所不同：

For the history server, they would typically be accessible at http://:18080/api/v1, and for a running application, at http://localhost:4040/api/v1.

Spark 日誌監控，詳細但不直觀

此外，Spark日誌也可以列印Spark的執行狀態，節選一個task從啟動到結束的日誌：

18/07/05 18:18:24 INFO executor.CoarseGrainedExecutorBackend: Got assigned task 1242
18/07/05 18:18:24 INFO executor.Executor: Running task 32.0 in stage 18.0 (TID 1242)
18/07/05 18:18:24 INFO rdd.HadoopRDD: Input split: hdfs://sdg/user/hive/warehouse/transfer.db/mobile_reg_info_mid_orc/part_date=2016-10-31/part-00003-bd8e8e72-7946-45c4-b995-badead467bab.c000:268435456+69819839
18/07/05 18:18:24 INFO orc.OrcRawRecordMerger: min key = {originalTxn: 0, bucket: -1, row: 15099999}, max key = null
18/07/05 18:18:24 INFO orc.ReaderImpl: Reading ORC rows from hdfs://sdg/user/hive/warehouse/transfer.db/mobile_reg_info_mid_orc/part_date=2016-10-31/part-00003-bd8e8e72-7946-45c4-b995-badead467bab.c000 with {include: [true, false, false, false, false, false, false, false], offset: 268435456, length: 9223372036854775807}
18/07/05 18:18:25 INFO executor.Executor: Finished task 32.0 in stage 18.0 (TID 1242). 1510 bytes result sent to driver

這種方式較優點是易於輸出、易於在其他工具上整合，缺點是不直觀。

對於互動式查詢場景的監控

每次查詢都是一個Job，可以展示所有已經完成的查詢任務和正在進行的查詢任務
如果只想大概瞭解程式執行的進度（類比MR過程中map和reduce的百分比），建議展示所有stage的執行進度，如上圖“針對job的監控”所示。自己實現該監控可以通過呼叫Spark REST API獲取已完成任務數和總任務數，兩者相除得到。
如果想了解執行程式過程中，具體到哪一步卡住了，建議展示“針對stage的監控：一個job裡所有的stage列表”，檢視該內容並排查錯誤需要對Spark的執行機制有一定的瞭解。
“針對task的監控：一個stage裡所有的task列表”具體到了程式碼行的層面，需要對Spark很瞭解才能理解，需要專業的開發人員解讀。

Spark執行狀態的監控

強力推薦，相見恨晚的文件，建議先看關於Spark監控，推薦一個講的非常好的PPT：monitoring-spark-applications，簡練、全面的講解了Spark監控的必要性、方法、缺點及改進方法。下面是我自己的一些總結 Spark

cronmon 定時任務執行狀態監控

cronmon是一個計劃任務（定時任務）監控系統，可以對迴圈執行的程式和指令碼進行監控告警，當其未按照預期執行時，傳送郵件到對應郵箱進行通知。同時可以將監控任務劃分到不同業務下面，每個業務可以分配不同的通知人，建立業務、通知人和監控任務的多層級關係。&nb

SpringBoot專案啟執行狀態監控Actuator

1. 在專案pom中加入Actuator依賴 <?xml version="1.0" encoding="UTF-8"?> <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:x

mysql 架構篇系列 3 複製執行狀態監控與選項引數說明

一. 概述　　在上一篇中，搭建了一主一從的複製架構，這篇通過一些診斷方法來了解複製的執行狀態和一些選項引數說明。上次mysql主從服務關機,今天在開啟mysql服務，出現了錯誤資訊。　　1.首先啟動主從mysql服務　　2.在從庫上執行START SLAVE，開始複製。　　3.在從庫上執行SHOW

執行狀態監控使用 Actuator

springboot2.0 的配置 #actuator埠 management.server.port: 9001 #修改訪問路徑 2.0之前預設是/ 2.0預設是 /actuator 可以通過這個屬性值修改 management.endpoints.web.base-path: /

Springboot2（16）執行狀態監控使用Actuator

原始碼地址文章目錄新增依賴 springboot2.0 的配置可配置端點個別介面講解 health 編寫自定義HealthIndicat

Tomcat學習--tomcat執行狀態監控

上一篇部落格Tomcat學習--war服務相關狀態資訊監控中我們已經瞭解了一下對war包的啟動、停止、執行狀態、過載和解除安裝操作的實現機制，接下來我們用這篇部落格瞭解一下tomcat執行過程中伺服器，作業系統，jvm和war的一些狀態資訊。目前tomcat將

springboot 2.0 執行狀態監控使用 Actuator

　　springboot的Actuator提供了執行狀態監控的功能，可以通過REST、遠端Shell和JMX方式來檢視。　　　　使用時倒入spring-boot-starter-actuator的依賴即可。　　這裡說下springboot2.0的配置

通過Spark Rest 服務監控Spark任務執行情況

com 理想 ask cin *** lib add pan etime 1、Rest服務　　Spark源為了方便用戶對任務做監控，從1.4版本啟用Rest服務，用戶可以通過訪問地址，得到application的運行狀態。　　Spark的REST API返回的信息是JS

利用superlance監控supervisor執行狀態

此文已由作者張家裕授權網易雲社群釋出。歡迎訪問網易雲社群，瞭解更多網易技術產品運營經驗。最近開發問到supervisor管理下的程序重啟了，有無辦法做到主動通知，樓主最先想到的是supervisor自帶的eventlistener，於是找到了下面的解決方法。 supervisor與superlance簡

Linux Centos7通過shell指令碼來監控mysql的執行狀態

vim checkmysql.sh #!/bin/sh #create by mingongge at 2018-10-10 port=`netstat -lnt|grep 3306|wc -l` if [ $post -ne 1 ] ;then now

jProfiler遠端連線Linux監控jvm、tomcat執行狀態(很詳細)

第一步、下載軟體第二步、安裝 1、下載好後把tar包上傳的linux伺服器，解壓。 / 2、修改tomcat的bin/catalina.sh檔案 jprofiler的安裝路徑和埠，我配的埠是10001 3、再重啟tomcat 我們可以看看

MongoDB 執行狀態、效能監控，分析

mongostat詳解 mongostat是mongdb自帶的狀態檢測工具，在命令列下使用。它會間隔固定時間獲取mongodb的當前執行狀態，並輸出。如果你發現數據庫突然變慢或者有其他問題的話，你第一手的操作就考慮採用mongostat來檢視mong

jProfiler遠端連線Linux監控jvm1執行狀態

隨風迎第一步：下載軟體官網地址：https://www.ej-technologies.com/download/jprofiler/files，下載一個linux服務端，一個windows客戶端 GUI介面第二步：安裝 1、下載好後把tar包上傳的lin

java多執行緒學習之一——執行緒的狀態、上下文切換和執行緒監控

多執行緒執行緒的狀態 1. NEW（圖中初始狀態）：一個剛建立而未啟動的執行緒處於該狀態。由於一個執行緒例項只能被啟動一次，因此一個執行緒只可能有一次處於該狀態。 2. 可執行（RUNNABLE）：表示處於改狀態的執行緒可以被JVM的執行緒排程器（scheduler）進

檢視spark程序執行狀態以及安裝spark

6、移動命令 #hadoop dfs –mv /user/test.txt /user/test/ 7、拷貝命令 #hadoop dfs –copytolocal /user/test.txt /opt/ 檢視spark上面的執行情況； htt

乾貨：教你如何監控 Java 執行緒池執行狀態

之前寫過一篇 Java 執行緒池的使用介紹文章《執行緒池全面解析》，全面介紹了什麼是執行緒池、執行緒池核心類、執行緒池工作流程、執行緒池分類、拒絕策略、及如何提交與關閉執行緒池等。但在實際開發過程中，線上程池使用過程中可能會遇到各方面的故障，如執行緒池阻塞，

MySQL系統執行狀態實時監控(python版本)

昨天的文章，用shell寫了一個簡單的MySQL系統執行狀態實時監控的模版，《MySQL系統執行狀態實時監控(shell版本)》，對於這種操作，任何語言都可以完成，今兒就用python寫一下，寫的不優雅

使用 pm2-web 監控 pm2 服務執行狀態

pm2-web 是一款 pm2 服務狀態監控程式，基於 web 。安裝 $ npm install -g pm2-web 執行(預設是在8080埠) $ pm2-web 配置 pm2-web 將會載入預設的配置檔案（如果存在）

使用 monitor command 監控 QEMU 執行狀態

在虛擬化的研究領域，QEMU 有著舉足輕重的地位。2007 年 2 月釋出的 Linux 2.6.20 核心中，集成了 KVM 作為其虛擬化的具體實現。而 KVM 是基於 QEMU 並且利用 CPU 的輔助虛擬化特性而略加修改而成的。自此以後，QEMU 專案引起 Linu

Spark執行狀態的監控

強力推薦，相見恨晚的文件，建議先看

下面是我自己的一些總結

Spark UI監控，有三個維度

Spark 日誌監控，詳細但不直觀

對於互動式查詢場景的監控

相關推薦