Flink的Job啟動Driver端(原始碼分析)

阿新 • • 發佈：2019-08-27

整個Flink的Job啟動是通過在Driver端通過使用者的Envirement的execute()方法將使用者的運算元轉化成StreamGraph

然後得到JobGraph通過遠端RPC將這個JobGraph提交到JobManager對應的介面

JobManager轉化成executionGraph.deploy()，然後生成TDD發給TaskManager，然後整個Job就啟動起來了

這裡來看一下Driver端的實現從使用者的Envirement.execute()方法作為入口

這裡的Envirement分為

RemoteStreamEnvironment

LocalStreamEnvironment

因為local模式比較簡單這裡就不展開了，主要是看下RemoteStreamEnvironment的execute方法

可以看到這裡先獲取到了streamGraph,具體獲取的實現

這裡傳入了一個transformations其中就包含了我們使用者的所有operator

這個地方就是遍歷了使用者端所有的operator生成StreamGraph,遍歷的每一個運算元具體轉化成streamGraph的邏輯

1處會遞迴遍歷input直到input已經transfor，然後拿到了上游的ids

然後將operator加入到了streamGraph中呼叫addNode()方法將operator作為一個node，包含了一些資訊，上下游的型別，並行度，soltGroup

最後遍歷上游的ids，建立邊新增到streamGraph

到這裡streamGraph就建立完成了

回到最開始的地方，建立完streamGraph以後，會將streamGraph傳入executeRemotely(streamGraph, jarFiles)這個方法，這裡就是streamGraph轉化成jobgraph的邏輯

其中建立了一個RestClusterClient

可以看到這裡，通過getJobGraph方法將streamGraph轉換成了jobgraph

然後就submitJob將這個JobGraph提交Jobmanager了

先看一下streamGraph如何轉化成jobgraph的

通過getJobGraph方法然後

這個createJobGraph方法是主要的轉化邏輯

廣度優先遍歷為所有streamGraph的node 即operator生成hash雜湊值，為什麼要生成這個operator的hash？

因為這個hash需要作為每一個operator的唯一標示，標示每一個operator用於cp的恢復，當用戶程式碼沒有修改時，這個hash值是不會改變的

接下來

這裡會將flink中上下游的operator操作根據是否滿足chain條件鏈在一起，在createChian中

這個isChainable()方法就是是否可以chain的判斷條件

1.下游的輸入邊只有一條

2.下游操作operator不為空

3.上游操作operator不為空

4.上游必須有相同的solt組

5.下游chain策略為always

6.上游chain策略為head或上游chain策略為always

7.forwardpartition的邊

8.上下游並行度相同

9.使用者程式碼設定的operator是否可以chian

將可以chain的streamnode 鏈在一起以後就可以建立成為jobGraph的jobVertex了

然後通過RestClusterClient會將這個jobGraph往jobmanager的Dispatcher對應的RPC介面上面傳送

整個job的啟動Driver端的任務就結束了

總結：

　　在Driver端使用者的運算元會被建立成為streamGraph,其中包含了一些邊，角，上下游型別，並行度等一些資訊

　　然後將streamGraph通過一些chain條件將可以chain的頂點chain在了一起轉化成了JobGraph

　　streamEdge變成了jobEdge,chain在一起的streamnode變成了jobVertex

　　最後然後通過RPC將整個jobGraph向jobmanager提

Flink的Job啟動Driver端(原始碼分析)

整個Flink的Job啟動是通過在Driver端通過使用者的Envirement的execute()方法將使用者的運算元轉化成StreamGraph 然後得到JobGraph通過遠端RPC將這個JobGraph提交到JobManager對應的介面 JobManager轉化成executionGraph.dep

Flink的Job啟動JobManager端(原始碼分析)

通過前面的文章瞭解到 Driver將使用者程式碼轉換成streamGraph再轉換成Jobgraph後向Jobmanager端提交 JobManager啟動以後會在Dispatcher.java起來RPC方法submitJob(jobGraph),用於接收來自Driver轉化得到的JobGraph來啟動任務

Flink的Job啟動TaskManager端(原始碼分析)

前面說到了 Flink的TaskManager啟動(原始碼分析) 啟動了TaskManager 然後 Flink的Job啟動JobManager端(原始碼分析) 說到JobManager會將轉化得到的TDD傳送到TaskManager的RPC

Netty服務端啟動過程相關原始碼分析

1、Netty 是怎麼建立服務端Channel的呢？我們在使用ServerBootstrap.bind(埠)方法時，最終呼叫其父類AbstractBootstrap中的doBind方法，相關原始碼如下： private ChannelFuture doBind(final SocketAddress lo

MQTT再學習 -- MQTT 客戶端原始碼分析

MQTT 原始碼分析，搜尋了一下發現網路上講的很少，多是逍遙子的那幾篇。參看：逍遙子_mosquitto原始碼分析系列參看：MQTT libmosquitto原始碼分析參看：Mosquitto學習筆記一、目錄結構首先我們還是來看一下 mosquitto-1.4.14 的原始碼目錄結構

Activity的啟動過程（原始碼分析）

startActivity正常啟動分析通過startActivity(intent)來啟動活動，跟進原始碼看一下首先Activity類裡面過載了多個startActivity()方法，引數不同而已 @Override public void startAc

RabbitMQ客戶端原始碼分析之BlockingCell.md

RabbitMQ-java-client版本 com.rabbitmq:amqp-client:4.3.0 RabbitMQ版本宣告: 3.6.15 BlockingCell BlockingCell，程式碼文件註釋描述為”簡單的一次性IPC機制“，

RabbitMQ客戶端原始碼分析(三)之Command

RabbitMQ-java-client版本 com.rabbitmq:amqp-client:4.3.0 RabbitMQ版本宣告: 3.6.15 Command Command介面是AMQP方法-引數的容器介面，帶有可選的內容頭(content

RabbitMQ客戶端原始碼分析(五)之ConsumerWorkSerivce與WorkPool

RabbitMQ-java-client版本 com.rabbitmq:amqp-client:4.3.0 RabbitMQ版本宣告: 3.6.15 WorkPool WorkPool可以認

RabbitMQ客戶端原始碼分析(六)之IntAllocator

RabbitMQ-java-client版本 com.rabbitmq:amqp-client:4.3.0 RabbitMQ版本宣告: 3.6.15 IntAllocator 用於分配給定範

RabbitMQ客戶端原始碼分析(七)之Channel與ChannelManager

RabbitMQ-java-client版本 com.rabbitmq:amqp-client:4.3.0 RabbitMQ版本宣告: 3.6.15 Channel uml圖 tran

開源中國APP Android端原始碼分析系列（一）

簡述這篇文章是基於OSCHINA Android客戶端4.1.7版本的分析，之前很多人都分析過原始碼，但是都是幾年前的程式碼分析，隨著時間的推移，開源中國的原始碼也在變化，接下來的一段時間我將分享我通過學習開源中國的程式碼所獲得東西。啟動頁面研究一個A

RabbitMQ客戶端原始碼分析(九)之RPC請求響應

宣告 Queue宣告、exchange宣告、bind等，這些都是通過同步RPC呼叫 channel.queueDeclare(queueName, durable

Freescale i.MX6 Linux Ethernet Driver驅動原始碼分析（1）

最近需要在Freescale i.MX6上移植Ethernet AVB的核心patch，Ethernet AVB的Wiki：http://en.wikipedia.org/wiki/Audio_Video_Bridging，而Freescale原來已經在kernel 3.

shuffle的關鍵階段sort(Map端和Reduce端)原始碼分析

原始碼中有這樣一段程式碼 1. Map端排序獲取的比較器 public RawComparator getOutputKeyComparator() { // 獲取mapreduce.job.output.key.comparator.class，必須是RawComparator型別

Hadoop提交Job Client端原始碼分析

在之前分析了hadoop執行jar的流程分析（部落格連結http://blog.csdn.net/a822631129/article/details/50310903），分析到了執行使用者寫的mapreduce程式，本文分析mapreduce程式中hadoop clien

Zookeeper客戶端原始碼分析

1．從ZooKeeper構造方法開始： public ZooKeeper(String connectString, intsessionTimeout, Watcher watcher, long sessionId, byte[]ses

hbase客戶端原始碼分析--deletetable

–hbase 刪除表 HBaseAdmin admin = new HBaseAdmin(conf); 可以檢視原始碼，其實低層也是呼叫建立 HConnectionImplementation 物件進行連線管理的 admin.disableTable(t

Android系統程序Zygote啟動過程的原始碼分析

在Android系統中，所有的應用程式程序以及系統服務程序SystemServer都是由Zygote程序孕育（fork）出來的，這也許就是為什麼要把它稱為Zygote（受精卵）的原因吧。由於Zygote程序在Android系統中有著如此重要的地位，本文將詳細分

MogileFS啟動流程，原始碼分析

MogileFS啟動流程例項化MogileFS::Server並執行 my $server; # server singleton sub server { my ($pkg) = @_; return $server ||= bless {}, $pk

Flink的Job啟動Driver端(原始碼分析)

相關推薦