spark基礎之排程器執行機制簡述

阿新 • • 發佈：2019-01-23

一概述

驅動程式在啟動的時候，首先會初始化SparkContext,初始化SparkContext的時候，就會建立DAGScheduler、TaskScheduler、SchedulerBackend等，同時還會向Master註冊程式；如果註冊沒有問題。Master通過叢集管理器（cluster manager）會給這個程式分配資源，然後SparkContext根據action觸發job。

Job裡面有一系列RDD， DAGScheduler從後往前推若發現是寬依賴的話，就劃分不同的Stage。

Stage劃分完後，Stage提交給底層的排程器TaskScheduler，TaskScheduler拿到這個Task的集合，因為Stage內部都是計算邏輯完全一樣的任務，只是資料不一樣而已。TaskScheduler就會根據資料本底性，將任務分配到Executor上執行。

Executor在任務執行完畢或者出狀況時，肯定要向Driver彙報

最後執行完畢，關閉SparkContext，同時建立的那些物件也被關掉。

二什麼是Spark Driver 程式

Driver程式就是執行應用程式的main函式，它會建立SparkContext，準備應用程式的執行環境（初始化各個元件，比如DAGScheduler等），

然後應用程式由SparkContext負責和叢集通訊，資源的申請以及任務的分配和監控等。當Worker節點的Executor執行完Task之後，Driver同時負責將SparkContext關閉。

三 SparkContext

SparkContext是使用者和Spark叢集進行互動的唯一入口，可以用來在Spark叢集中建立RDD，累加器Accumulator和廣播變數; 它也是驅動程式至關重要的物件，由它提供應用程式所需要的執行環境。

SparkContext的核心作用就是準備應用程式執行環境，所以在初始化的時候會構造一系列物件DAGScheduler, TaskScheduler等，同時負責向Master註冊應用程式

只可以有一個SparkContext例項執行在一個JVM中，所以在建立SparkContext的時候之前，確保之前的SparkContext已經關閉了，即呼叫stop方法停止當前JVM中唯一執行的SparkContext

四 Spark Job的觸發

# 每一個final RDD的action操作會觸發一個job,比如count,collect，saveAsTextFile，forEach等都會觸發job。這就意味著應用程式如果有多個action操作 .

# 每一個Job根據寬依賴來劃分Stage，每一個job可能有一個或者多個Stage,比如reduceByKey，groupByKey等運算元，每一個Stage生成一個Task

# 所有的Stage會形成一個DAG（有向無環圖），由於RDD的Lazy特性，導致Stage也是Lazy級別的，只有遇到了Action才會真正發生作業的執行，在Action之前，Spark框架只是將要進行的計算記錄下來，並沒有真的執行。

# 一個作業可能有ResultStage和ShuffleMapStage組成：一個作業如果shuffle操作，那麼就只有一個ResultStage;如果有shuffle操作，那麼，則存在一個ResultStage和至少一個ShuffleMapStage

五 DAGScheduler

# DAG：Direct Acyclic Graph，spark主要用於RDD關係建模，描述RDD之間的依賴關係，主要用於構建RDD的資料流，即RDD的各個分割槽資料是從哪裡來的和構建基於資料流之上的操作運算元流，即RDD各個分割槽資料總共會經過哪些transformation和action的這兩種型別的一系列的操作的排程執行

# DAGScheduler需要解析DAG.它是一個面向stage的高層排程器，它把DAG拆分成很多個Task，每一組task都是一個stage,解析的時候，每當遇到shuffle操作的時候就會產生新的stage,然後以一個個TaskSet的形式提交給底層的排程器TaskScheduler.

# DAGScheduler需要記錄哪些RDD需要寫入磁碟

# DAGScheduler 需要尋求Task的最優排程，比如stage內部資料的本地性等

# DAGScheduler 需要監視因為shuffle跨節點輸出可能導致的失敗，如果發現stage失敗，可能需要重新提交stage

Job、Stage、TaskSet、Task含義和關係：

Job: 一個action操作就會觸發一個job,如果有多個action操作就會有多個job.

Stage: 一個Job會被DAGScheduler拆分成多組任務，每一組任務就是由一個Stage封裝，stage之間也有依賴關係。如果RDD之間沒有shuffle操作那麼就只有一個ResultStage；如果有shuffle操作，那麼就有一個ResultStage和至少一個ShuffleMapStage

TaskSet：一組任務就是一個TaskSet，對應著一個Stage，所以也可以理解為一個Stage就是一個TaskSet

Task：一個獨立的工作單元，由驅動程式傳送到Executor上去執行。通常情況下，一個Task處理一個RDD的分割槽的資料，根據返回型別不同，又分為ResultTask和ShuffleMapTask

六 TaskScheduler

TaskScheduler主要是提交TaskSet到叢集運算並彙報結果

# 為TaskSet建立和維護一個TaskSetManager，並追蹤任務本地性及錯誤資訊

# 遇到一些迷路的任務(straggle)會放在其他節點重試

# 向DAGScheduler彙報執行情況，包括shuffle輸出丟失時報告fetch failed錯誤

七 SchedulerBackend

排程器的通訊終端，以SparkDeploySchedulerBackend在啟動時，構造了AppClient例項，並在該例項start時啟動ClientEndpoint訊息迴圈體，ClientEndpoint在啟動時會向Master註冊當前程式。

SparkDeploySchedulerBackend的父類CoarseGrainedSchedulerBackend在start時會例項化型別為DriverEndPoint訊息迴圈體，SparkDeploySchedulerBackend專門負責收集Worker上資源資訊，當ExecutorBackend啟動時會發送RegisteredExecutor資訊向DriverPoint註冊，此時SparkDeploySchedulerBackend就掌握了當前應用程式所擁有的計算資源。

spark基礎之排程器執行機制簡述

一概述驅動程式在啟動的時候，首先會初始化SparkContext,初始化SparkContext的時候，就會建立DAGScheduler、TaskScheduler、SchedulerBacken

spark基礎之shuffle機制和原理分析

一概述 Shuffle就是對資料進行重組，由於分散式計算的特性和要求，在實現細節上更加繁瑣和複雜在MapReduce框架，Shuffle是連線Map和Reduce之間的橋樑，Map階段通過shuf

python裝飾器執行機制

abc print 前沿 spl ini self. color ret instance 前沿：首先是看到了單例模型，想不明白 outer中的參數為什麽能像 global的參數一樣屹立不倒。 #單例模型 def single_model(cls): in

Python成長之路【第五篇】：Python基礎之裝飾器

brush urn 新功能 clas 現在 hide rom 接收調用一、什麽是裝飾器裝飾：裝飾既修飾，意指為其他函數添加新功能器：器既函數裝飾器定義：本質就是函數，功能是為其他函數添加新功能二、裝飾器需要遵循的原則 1、不能修改裝飾器的源代碼（開放封閉原則）

《Python學習之路 -- Python基礎之裝飾器》

接收學習之路代碼內部 AS OS 如果 col PE 　　裝飾器，本質上是一個函數，更加直觀的說，裝飾器就是等於高階函數 + 函數嵌套 + 閉包，裝飾器是具有某個基礎功能的函數，這種功能可以加成到其他函數上，使得其他函數的功能更加強大。除此以外，裝飾器還有兩個重要

Linux高效能網路：協程系列08-協程實現之排程器

目錄 Linux高效能網路：協程系列01-前言 Linux高效能網路：協程系列02-協程的起源 Linux高效能網路：協程系列03-協程的案例 Linux高效能網路：協程系列04-協程實現之工作原理 Linux高效能網路：協程系列05-協程實現之原語操作 Linux高效能網路：協程

flask基礎之請求處理核心機制(五)

sta while listen oca tp服務器參數調用 corn adapt hasattr 前言總結一下flask框架的請求處理流程。系列文章 flask基礎之安裝和使用入門(一) flask基礎之jijia2模板使用基礎（二） flask基礎之jijia2

python基礎之裝飾器

裝飾器的本質是一個閉合函式，該閉合函式的自由變數是一個函式，可以使程式碼的重要性與擴充套件性大大加強。通過@後新增裝飾器函式能夠接收任何引數的通用引數裝飾器 # def checkParams(fn): # """只接受字串的裝飾器""" # def wrapper(

Python基礎之(裝飾器，迭代器、生成器)

一、裝飾器 1.1、什麼是裝飾器？裝飾器本質上就是一個python函式，他可以讓其他函式在不需要做任何程式碼變動的前提下，增加額外的功能，裝飾器的返回值也是一個函式物件。 1.2、裝飾器的原則不修改被裝飾物件的原始碼不修改被裝飾物件的呼叫方式 1.3、裝飾器的目標

js基礎之冒泡和捕獲機制

DOM事件所囊括的知識較為龐雜，本片文章總結一下冒泡和捕獲機制到底是怎麼運作的。事件流當我們點選頁面上的一個按鈕的時候，是按鈕最外層的父元素先收到事件並執行，還是這個被我們點選的按鈕先收到事件並執行？所以這兒引入了事件流的概念：事件流所描述的就是

排程器Quartz的簡述與使用總結

Quartz是一款效能強大的定時任務排程器。開發人員可以使用Quartz讓任務在特定時間特定階段進行執行。比如對特定型別新聞或股指期貨指數等內容的爬取，可以編寫爬蟲程式然後使用Quartz在後臺指定特定時間點對任務進行執行，來自動收集資訊。大型系統間資料的按

Android基礎之非同步訊息處理機制

今天講述一下Android的非同步訊息處理機制，說到非同步，我們肯定會想到繼承Thread，實現Runnable來處理耗時操作，然後再發訊息去處理對應的業務邏輯。相信大家對下面的程式碼非常熟悉。 public class MainActivity exte

spark基礎之基於yarn兩種提交模式分析

一介紹基於YARN的提交模式，總共有2種：一種是基於YARN的yarn-cluster模式；一種是基於YARN的yarn-client模式。需要將提交應用程式的spark-submit的指令碼

spark基礎之RDD和DataFrame的轉換方式

一通過定義Case Class,使用反射推斷Schema 定義Case Class，在RDD的轉換過程中使用Case Class可以隱式轉換成SchemaRDD,然後再註冊成表，然後就可以利用sql

Kubernetes K8S之排程器kube-scheduler詳解

Kubernetes K8S之排程器kube-scheduler概述與詳解 kube-scheduler排程概述在 Kubernetes 中，排程是指將 Pod 放置到合適的 Node 節點上，然後對應 Node 上的 Kubelet 才能夠執行這些 pod。排程器通過 k

大資料（十六）：Yarn的工作機制、資源排程器、任務的推測執行機制

一、Yarn概述 Yarn是一個資源排程平臺，負責為運算程式提供伺服器運算資源，相當於一個分散式的作業系統平臺，而MapReduce等運算程式則相當於運行於操作程式上的應用程式。二、Yarn基本架

Python中的多執行緒程式設計，執行緒安全與鎖(一) 聊聊Python中的GIL 聊聊Python中的GIL python基礎之多執行緒鎖機制 python--threading多執行緒總結 Python3入門之執行緒threading常用方法

1. 多執行緒程式設計與執行緒安全相關重要概念在我的上篇博文聊聊Python中的GIL 中，我們熟悉了幾個特別重要的概念：GIL，執行緒，程序，執行緒安全，原子操作。以下是簡單回顧，詳細介紹請直接看聊聊Python中的GIL GIL:&n

spark基礎之排程器執行機制簡述

spark基礎之排程器執行機制簡述

spark基礎之shuffle機制和原理分析

python裝飾器執行機制

Python成長之路【第五篇】：Python基礎之裝飾器

《Python學習之路 -- Python基礎之裝飾器》

Linux高效能網路：協程系列08-協程實現之排程器

flask基礎之請求處理核心機制(五)

python基礎之裝飾器

Python基礎之(裝飾器，迭代器、生成器)

js基礎之冒泡和捕獲機制

排程器Quartz的簡述與使用總結

Android基礎之非同步訊息處理機制

spark基礎之基於yarn兩種提交模式分析

spark基礎之RDD和DataFrame的轉換方式

Kubernetes K8S之排程器kube-scheduler詳解

大資料（十六）：Yarn的工作機制、資源排程器、任務的推測執行機制

Python中的多執行緒程式設計，執行緒安全與鎖(一) 聊聊Python中的GIL 聊聊Python中的GIL python基礎之多執行緒鎖機制 python--threading多執行緒總結 Python3入門之執行緒threading常用方法

python基礎之socket編程-------基於tcp的套接字實現遠程執行命令的操作

python基礎-函數之裝飾器、叠代器與生成器

spark快速開發之scala基礎之2控制流程

spark基礎之排程器執行機制簡述

相關推薦