Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（三） TaskScheduler : Executor 任務提交

阿新 • • 發佈：2019-01-10

架構圖：

程式碼提交時序圖

Standalone模式提交執行流程圖：

首先寫一個WordCount程式碼（這個程式碼，為了觀察多個stage操作，我寫了兩個reducebykey 函式）

原始碼：

直接執行程式碼，檢視spark執行程式時，將程式碼劃分stage生成的DAG流程圖

可知： WordCount 在stage劃分的時候，劃分為三個stage

即在程式碼中如下標識：

本文繼續說task提交：

接上文，本文講根據分配的資源啟動task

org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend#launchTasks

首先看一下，傳入的物件：TaskDescription

TaskDescription任務資訊：

   taskId: Long ：任務id
   attemptNumber: Int, 重試次數
   executorId: String ： executor的Id ，即task分配給具體哪個executor
   name: String, 任務名稱
   index: Int ：   任務在TaskSet中的索引
   addedFiles: Map[String, Long] ：任務依賴的檔案
   addedJars: Map[String, Long] ：任務依賴的jar包
   properties: Properties ：任務依賴的屬性
   serializedTask: ByteBuffer 序列化

executor 啟動task ，呼叫：org.apache.spark.executor.Executor#LaunchTask 方法

executorData.executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask)))

1.將task封裝成 TaskRunner

2.加入等待佇列 runningTasks

3.執行執行緒 TaskRunner

啟動  TaskRunner  。。。。。。。。。。。

org.apache.spark.executor.Executor.TaskRunner # run

org.apache.spark.scheduler.Task#run

執行這個類中的run方法

執行task中的run方法
//TODO ShuffleMapTask
//TODO ResultTask

org.apache.spark.ShuffleMapTask#ResultTask

org.apache.spark.scheduler#ResultTask

其他的就是將task中的一些執行資訊直接返回，傳送給drver、bolckmanager 等等，有興趣的去關注一下。。。。。。。。

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（三） TaskScheduler : Executor 任務提交

架構圖：程式碼提交時序圖 Standalone模式提交執行流程圖：首先寫一個WordCount程式碼（這個程式碼，為了觀察多個stage操作，我寫了兩個reducebykey

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（二） TaskScheduler : 本地化計算

架構圖： Standalone模式提交執行流程圖：首先寫一個WordCount程式碼（這個程式碼，為了觀察多個stage操作，我寫了兩個reducebykey 函式）原始碼：

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（一） DAGScheduler 之 stage 提交

一個Spark Application分為stage級別和task級別的排程， task來源於stage，所有本文先從stage提交開始講解task任務提交。架構圖： Standalone模式提交執行流程圖：首先寫一個W

Spark2.3.2原始碼解析：9.排程系統 DAGScheduler 之 Stage 劃分原始碼詳解

Stage劃分的時候，大家應該都知道是從最後一個stage向根據寬窄依賴，遞迴進行stage劃分。但是程式碼裡面涉及的邏輯複雜。畢竟涉及到相互遞迴呼叫。讓人似懂非懂。反正我是炸毛了 o(╥﹏╥)o 本文專門用一篇文章詳細論述DAGScheduler 的 stage 劃分流程

Spark2.3.2原始碼解析： 6. SparkContext原始碼分析（一）： SparkEnv

SparkContext 是通往 Spark 叢集的唯一入口，可以用來在 Spark 叢集中建立 RDDs 、累加器（ Accumulators ）和廣播變數（ Broadcast Variables ）。 SparkContext 也是整個 Spark 應用程式（

Spark2.3.2原始碼解析： 5. RDD 依賴關係：寬依賴與窄依賴

Spark中RDD的高效與DAG（有向無環圖）有很大的關係，在DAG排程中需要對計算的過程劃分Stage，劃分的依據就是RDD之間的依賴關係。RDD之間的依賴關係分為兩種，寬依賴(wide dependency/shuffle dependency)和窄依賴（narrow

Spark2.3.2原始碼解析： 5. SparkConf原始碼分析

在執行程式碼的時候，首先要宣告：SparkConf，本文以SparkConf進行分析，逐步展開。 val conf = new SparkConf() 類中的方法（org.a

Spark2.3.2原始碼解析： 7. SparkContext原始碼分析（二）：TaskScheduler

程式碼部分：啟動指令碼 --name spark-test --class WordCount --master yarn --deploy-mode cluster /A/spark-test.jar /

Spark2.3.2原始碼解析： 8. RDD 原始碼解析（二） textFile 返回的RDD例項是什麼

本文主要目標是分析RDD的例項物件，到底放了什麼。從程式碼val textFile = sc.textFile(args(0)) 開始：直接看textFile 原始碼：你會發現呼叫的是hadoop的api，通過 hadoopFile 讀取資料，返回一個hadoop

Spark2.2.2原始碼解析： 3.啟動worker節點啟動流程分析

本文啟動worker節點啟動流程分析啟動命令： ${SPARK_HOME}/sbin/start-slave.sh spark://sysadmindeMacBook-Pro.local:7077 檢視start-slave.sh

Spark2.2.2原始碼解析： 2.啟動master節點流程分析

本文主要說明在啟動master節點的時候，程式碼的流程走向。授予檔案執行許可權 chmod755 兩個目錄裡的檔案： /workspace/spark-2.2.2/bin --所有檔案 /workspace/spark-2.2.2/sb

面向物件【day07】：類的例項化過程剖析（三）

本節內容 1、概述 2、類的語法 3、總結一、概述　　之前我們說關於python中的類，都一臉懵逼，都想說，類這麼牛逼到底是什麼，什麼才是類？下面我們就來講講，什麼是類？它具有哪些特性。二、類的語法 2.1 語法

面向物件【林老師版】：init定製自己獨有的特徵（三）

本節內容 1、是如何產生物件 2、例項化的步驟一、是如何產生物件？ __init__方法用來為物件定製物件自己獨有的特徵 1、stu1=LuffyStudent()呼叫報錯 1、程式碼 class LuffyStudent: school='luffycity' #

Centos6.10下Open-falcon學習記錄（三）——log監控外掛falcon-log-agent

這篇主要是記錄學習一個滴滴公司開發的日誌監控元件用於監控系統的日誌採集agent，可無縫對接open-falcon 1 安裝 go get安裝，肥腸簡單 go get github.com/didi/falcon-log-agent cd $GOPATH/src/github.com/d

【python】爬蟲篇：python使用psycopg2批量插入資料（三）

本人菜雞，有什麼錯誤，還望大家批評指出，最近在更新python的爬蟲系列，○( ＾皿＾)っHiahiahia… 該系列暫時總共有3篇文章，連線如下【python】爬蟲篇：python連線postgresql（一）：https://blog.csdn.net/lsr40/article/de

Android [Camera 原始碼] HAL 子系統(HAL Subsystem) Google官方文件（三）

Google原始碼網地址連結：https://source.android.com/devices/camera 該Google Camera的文件為系列文章，文章列表： overview Camera3 HAL Subsystem Metadata and Con

STM32開發筆記49：STM32F4+DP83848乙太網通訊指南系列（三）：中斷向量

本章為系列指南的第三章，這一章將會在正式進入乙太網的配置和使用之前，複習一下STM32的中斷以及中斷向量，因為我們以後要在中斷中響應乙太網收包。中斷—嵌入式中的多執行緒從51微控制器到ARM架構的32位微晶片，到樹莓派、Ardunio等單板機，中斷的概念對於這些晶片都非常重要。本人是純軟

windows 10 在docker下安裝elasticsearch（三）

ElasticSearch6.3版本中增加了elasticsearch sql, 最近為了研究elasticsearch sql，突發奇想的想在docker中安裝es。本文主要介紹的就是在windows 10環境下的docker中安裝elasticsearch。 D

Mybatis原始碼---重寫一個最簡單的Mybatis架構實現（三）

前兩篇文章裡，我們實現了一個簡單的Mybatis。只要願意，如果完善了後續的資料庫操作，我們完全可以用它來替換本來的Mybatis。在本篇文章裡，我們要做的是完成我們自定義Mybatis與Spring或SpringBoot整合時的自動配置。首先，我們在來熟悉一下在XML

寫程式學ML：Logistic迴歸演算法原理及實現（三）

2.2 利用Logistic演算法預測病馬死亡率由於採集資料是諸多原因，採集的資料有可能不完整。但有時候資料相當昂貴，扔掉和重新獲取都是不可取的，所以必須採用一些方法來解決這個問題。處理資料中缺失值的做法： 1> 使用可用特徵的均值來填補缺失值； 2&g

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交 （三） TaskScheduler : Executor 任務提交

接上文，本文講根據分配的資源啟動task

org.apache.spark.scheduler.cluster.CoarseGrainedSchedulerBackend#launchTasks

首先看一下，傳入的物件：TaskDescription

TaskDescription任務資訊：

executor 啟動task ， 呼叫：org.apache.spark.executor.Executor#LaunchTask 方法

executorData.executorEndpoint.send(LaunchTask(new SerializableBuffer(serializedTask)))

org.apache.spark.executor.Executor.TaskRunner # run

org.apache.spark.scheduler.Task#run

執行task中的run方法 //TODO ShuffleMapTask //TODO ResultTask

org.apache.spark.scheduler#ResultTask

相關推薦

Spark2.3.2原始碼解析： 10. 排程系統 Task任務提交（三） TaskScheduler : Executor 任務提交

executor 啟動task ，呼叫：org.apache.spark.executor.Executor#LaunchTask 方法

執行task中的run方法
//TODO ShuffleMapTask
//TODO ResultTask