分散式任務排程框架 Azkaban —— Flow 2.0 的使用

一、Flow 2.0 簡介

1.1 Flow 2.0 的產生

Azkaban 目前同時支援 Flow 1.0 和 Flow2.0 ，但是官方文件上更推薦使用 Flow 2.0，因為 Flow 1.0 會在將來的版本被移除。Flow 2.0 的主要設計思想是提供 1.0 所沒有的流級定義。使用者可以將屬於給定流的所有 job / properties 檔案合併到單個流定義檔案中，其內容採用 YAML 語法進行定義，同時還支援在流中再定義流，稱為為嵌入流或子流。

1.2 基本結構

專案 zip 將包含多個流 YAML 檔案，一個專案 YAML 檔案以及可選庫和原始碼。Flow YAML 檔案的基本結構如下：

每個 Flow 都在單個 YAML 檔案中定義；

流檔案以流名稱命名，如：my-flow-name.flow；
包含 DAG 中的所有節點；
每個節點可以是作業或流程；
每個節點可以擁有 name, type, config, dependsOn 和 nodes sections 等屬性；
通過列出 dependsOn 列表中的父節點來指定節點依賴性；
包含與流相關的其他配置；
當前 properties 檔案中流的所有常見屬性都將遷移到每個流 YAML 檔案中的 config 部分。

官方提供了一個比較完善的配置樣例，如下：

config:
  user.to.proxy: azktest
  param.hadoopOutData: /tmp/wordcounthadoopout
  param.inData: /tmp/wordcountpigin
  param.outData: /tmp/wordcountpigout

# This section defines the list of jobs
# A node can be a job or a flow
# In this example, all nodes are jobs
nodes:
 # Job definition
 # The job definition is like a YAMLified version of properties file
 # with one major difference. All custom properties are now clubbed together
 # in a config section in the definition.
 # The first line describes the name of the job
 - name: AZTest
   type: noop
   # The dependsOn section contains the list of parent nodes the current
   # node depends on
   dependsOn:
     - hadoopWC1
     - NoOpTest1
     - hive2
     - java1
     - jobCommand2

 - name: pigWordCount1
   type: pig
   # The config section contains custom arguments or parameters which are
   # required by the job
   config:
     pig.script: src/main/pig/wordCountText.pig

 - name: hadoopWC1
   type: hadoopJava
   dependsOn:
     - pigWordCount1
   config:
     classpath: ./*
     force.output.overwrite: true
     input.path: ${param.inData}
     job.class: com.linkedin.wordcount.WordCount
     main.args: ${param.inData} ${param.hadoopOutData}
     output.path: ${param.hadoopOutData}

 - name: hive1
   type: hive
   config:
     hive.script: src/main/hive/showdb.q

 - name: NoOpTest1
   type: noop

 - name: hive2
   type: hive
   dependsOn:
     - hive1
   config:
     hive.script: src/main/hive/showTables.sql

 - name: java1
   type: javaprocess
   config:
     Xms: 96M
     java.class: com.linkedin.foo.HelloJavaProcessJob

 - name: jobCommand1
   type: command
   config:
     command: echo "hello world from job_command_1"

 - name: jobCommand2
   type: command
   dependsOn:
     - jobCommand1
   config:
     command: echo "hello world from job_command_2"

二、YAML語法

想要使用 Flow 2.0 進行工作流的配置，首先需要了解 YAML 。YAML 是一種簡潔的非標記語言，有著嚴格的格式要求的，如果你的格式配置失敗，上傳到 Azkaban 的時候就會丟擲解析異常。

2.1 基本規則

大小寫敏感；
使用縮排表示層級關係；
縮排長度沒有限制，只要元素對齊就表示這些元素屬於一個層級；
使用#表示註釋；
字串預設不用加單雙引號，但單引號和雙引號都可以使用，雙引號表示不需要對特殊字元進行轉義；
YAML 中提供了多種常量結構，包括：整數，浮點數，字串，NULL，日期，布林，時間。

2.2 物件的寫法

# value 與 ： 符號之間必須要有一個空格
key: value

2.3 map的寫法

# 寫法一 同一縮排的所有鍵值對屬於一個map
key: 
    key1: value1
    key2: value2

# 寫法二
{key1: value1, key2: value2}

2.3 陣列的寫法

# 寫法一 使用一個短橫線加一個空格代表一個數組項
- a
- b
- c

# 寫法二
[a,b,c]

2.5 單雙引號

支援單引號和雙引號，但雙引號不會對特殊字元進行轉義：

s1: '內容\n 字串'
s2: "內容\n 字串"

轉換後：
{ s1: '內容\\n 字串', s2: '內容\n 字串' }

2.6 特殊符號

一個 YAML 檔案中可以包括多個文件，使用 --- 進行分割。

2.7 配置引用

Flow 2.0 建議將公共引數定義在 config 下，並通過 ${} 進行引用。

三、簡單任務排程

3.1 任務配置

新建 flow 配置檔案：

nodes:
  - name: jobA
    type: command
    config:
      command: echo "Hello Azkaban Flow 2.0."

在當前的版本中，Azkaban 同時支援 Flow 1.0 和 Flow 2.0，如果你希望以 2.0 的方式執行，則需要新建一個 project 檔案，指明是使用的是 Flow 2.0：

azkaban-flow-version: 2.0

3.2 打包上傳

3.3 執行結果

由於在 1.0 版本中已經介紹過 Web UI 的使用，這裡就不再贅述。對於 1.0 和 2.0 版本，只有配置方式有所不同，其他上傳執行的方式都是相同的。執行結果如下：

四、多工排程

和 1.0 給出的案例一樣，這裡假設我們有五個任務（jobA——jobE）, D 任務需要在 A，B，C 任務執行完成後才能執行，而 E 任務則需要在 D 任務執行完成後才能執行，相關配置檔案應如下。可以看到在 1.0 中我們需要分別定義五個配置檔案，而在 2.0 中我們只需要一個配置檔案即可完成配置。

nodes:
  - name: jobE
    type: command
    config:
      command: echo "This is job E"
    # jobE depends on jobD
    dependsOn: 
      - jobD
    
  - name: jobD
    type: command
    config:
      command: echo "This is job D"
    # jobD depends on jobA、jobB、jobC
    dependsOn:
      - jobA
      - jobB
      - jobC

  - name: jobA
    type: command
    config:
      command: echo "This is job A"

  - name: jobB
    type: command
    config:
      command: echo "This is job B"

  - name: jobC
    type: command
    config:
      command: echo "This is job C"

五、內嵌流

Flow2.0 支援在一個 Flow 中定義另一個 Flow，稱為內嵌流或者子流。這裡給出一個內嵌流的示例，其 Flow 配置如下：

nodes:
  - name: jobC
    type: command
    config:
      command: echo "This is job C"
    dependsOn:
      - embedded_flow

  - name: embedded_flow
    type: flow
    config:
      prop: value
    nodes:
      - name: jobB
        type: command
        config:
          command: echo "This is job B"
        dependsOn:
          - jobA

      - name: jobA
        type: command
        config:
          command: echo "This is job A"

內嵌流的 DAG 圖如下：

執行情況如下：

參考資料

Azkaban Flow 2.0 Design
Getting started with Azkaban Flow 2.0

更多大資料系列文章可以參見 GitHub 開源專案：大資料入門指南

相關推薦

分散式任務排程框架 Azkaban —— Flow 2.0 的使用

一、Flow 2.0 簡介 1.1 Flow 2.0 的產生 Azkaban 目前同時支援 Flow 1.0 和 Flow2.0 ，但是官方文件上更推薦使用 Flow 2.0，因為 Flow 1.0 會在將來的版本被移除。Flow 2.0 的主要設計思想是提供 1.0 所沒有的流級定義。使用者可以將屬於給定流

分散式任務排程框架 Azkaban —— Flow 1.0 的使用

一、簡介 Azkaban 主要通過介面上傳配置檔案來進行任務的排程。它有兩個重要的概念： Job：你需要執行的排程任務； Flow：一個獲取多個 Job 及它們之間的依賴關係所組成的圖表叫做 Flow。目前 Azkaban 3.x 同時支援 Flow 1.0 和 Flow 2.0，本文主要講解 Flo

LTS原理--輕量級分散式任務排程框架(Light Task Schedule)（一）

LTS(light-task-scheduler)主要用於解決分散式任務排程問題，支援實時任務，定時任務和Cron任務。有較好的伸縮性，擴充套件性，健壯穩定性而被多家公司使用，同時也希望開源愛好者一起貢獻。專案地址這兩個地址都會同步更新。感興趣，請加Q

【stark_summer的專欄】專注於開發分散式任務排程框架、分散式同步RPC、非同步MQ訊息佇列、分散式日誌檢索框架、hadoop、spark、scala等技術如果我的寫的文章能對您有幫助，請您能給點捐助,請看首頁置頂

專注於開發分散式任務排程框架、分散式同步RPC、非同步MQ訊息佇列、分散式日誌檢索框架、hadoop、spark、scala等技術如果我的寫的文章能對您有幫助，請您能給點捐助,請看首頁置頂...

LTS 輕量級分散式任務排程框架(Light Task Scheduler)

框架概況： LTS是一個輕量級分散式任務排程框架。有三種角色, JobClient, JobTracker, TaskTracker。各個節點都是無狀態的，可以部署多個，來實現負載均衡，實現更大的負載量, 並且框架具有很好的容錯能力。採用多種註冊中心（Zoo

Quartz分散式任務排程框架

分散式任務排程任務排程是指基於給定的時間點，給定的時間間隔或者給定執行次數自動的執行任務。任務排程涉及到多執行緒併發、執行時

自己動手實現分散式任務排程框架(續)

　　之前寫過一篇:自己動手實現分散式任務排程框架本來是用來閒來分享一下自己的思維方式，時至今日發現居然有些人正在使用了，本著對程式碼負責人的態度，對程式碼部分已知bug進行了修改，並增加了若干功能，如立即啟動，實時停止等功能，新增加的功能會在這一篇做詳細的說明。　　提到分散式任務排程，市面上本身已經有一些框

XXL-JOB v1.9.2 釋出，分散式任務排程平臺

v1.9.2 新特性 1、任務超時控制：新增任務屬性 “任務超時時間”，並支援自定義，任務執行超時將會主動中斷任務； 2、任務失敗重試次數：新增任務屬性 “失敗重試次數”，並支援自定義，當任務失敗時將

XXL-JOB v2.0.1 釋出，分散式任務排程平臺

1、簡單：支援通過Web頁面對任務進行CRUD操作，操作簡單，一分鐘上手； 2、動態：支援動態修改任務狀態、啟動/停止任務，以及終止執行中任務，即時生效； 3、排程中心HA（中心式）：排程採用中心式設計，“排程中心”基於叢集Quartz實現並支援叢集部署，可保證排程中心HA； 4、執行器HA（分散式）：任務

阿里新一代分散式任務排程平臺Schedulerx2.0破土而出

1. 產品簡介 Schedulerx2.0是阿里中介軟體自研的基於Akka架構的新一代分散式任務排程平臺，提供定時、任務編排、

分散式定時任務排程框架實踐

本文首發於 vivo網際網路技術微信公眾號連結： https://mp.weixin.qq.com/s/l4vuYpNRjKxQRkRTDhyg2Q作者：陳王榮分散式任務排程框架幾乎是每個大型應用必備的工具，本文介紹了任務排程框架使用的需求背景和痛點，對業界普遍使用的開源分散式任務排程框

分散式資源排程框架 ——YARN

1 YARN 產生背景 MapReduce1.x 存在的問題：單點故障和節點壓力大不易擴充套件； Hadoop1.x 時，MapReduce -> Master/Slave 架構，1個 JobTracker 帶多個 TaskTracker JobTrack

分散式任務排程平臺

一、任務排程概述 1.什麼是任務排程--定時job 在什麼時間進行執行程式碼任務任務排程場景：定時檢查紅包過期 2.java實現定時任務有幾種？ Thread.sleep TimerTask uti

分散式任務排程平臺搭建

分散式情況下定時任務會出現哪些問題？分散式叢集的情況下，怎麼保證定時任務不被重複執行分散式定時任務解決方案 ①使用zookeeper實現分散式鎖缺點(需要建立臨時節點、和事件通知不易於擴充套件) ②使用配置檔案做一個開關缺點發布後，需要重啟 ③資料庫唯一約束，缺點效率低 ④使用

Go語言開發分散式任務排程輕鬆搞定高效能Crontab

Go語言開發分散式任務排程輕鬆搞定高效能Crontab 第1章課程介紹本章中將介紹一下本課程的基本內容，包括：我們要做什麼、要求什麼基礎、將學會哪些工具、收穫哪些獨家乾貨，以及課程具體安排。 1-1 導學視訊第2章如何執行shell命令執行

排程框架Azkaban快速入門

作者：林偉兵，叩丁狼高階講師。本文為原創文章，轉載請註明出處。 1. Azkaban概述 Azkaban技術產生前景：在大資料分析場景中，以ETL（ Extract抽取 -Transform互動轉換 -Load載入）為例，資

Quartz任務排程框架初探

Quartz任務排程框架初探什麼是Quartz? Quartz 是一個完全由 Java 編寫的開源作業排程框架，為在 Java 應用程式中進行作業排程提供了簡單卻強大的機制。 Quartz 可以與 J2EE 與 J2SE 應用程式相結合也可以單獨使用。

Gearman（分散式任務分發框架）作用、工作原理、安裝、PHP拓展

前言：工作中我們有時候會遇到比如需要同時釋出資料到多個個伺服器上，或者同時處理多個任務。可以使用PHP的curl_multi的方式併發處理請求，但是由於網路和資料以及各個伺服器等等的一些情況導致這種併發處理的響應時間很慢，因為在併發請求的過程中還包括記錄日誌，處

分散式任務排程平臺XXL-Job叢集版搭建

如果叢集：儲存後：啟動兩個 job 第二個job的配置： # web port server.port=8082 # log config logging.config=classpath:logback.xml ### xxl-jo

任務排程框架quartz使用總結(異常處理，解決恢復後多次排程處理)

任務排程框架quartz使用總結(異常處理，解決恢復後多次排程處理) 首先先說說什麼是排程框架，大白話所謂的排程框架你可以把它看成一個定時任務管理框架，並且quartz框架是多執行緒的， quartz最主要的三大基本特性: (1)排程器&nbs