餓了麼大資料平臺排程系統演進與實踐

阿新 • • 發佈：2018-12-21

背景

隨著餓了麼在大資料應用的不斷深入，需要解決任務數量增長快，任務多樣化，任務關係複雜，任務執行效率低，任務失敗不可控等問題。

目前現狀

每天完成大資料任務計算54000+
節點叢集85臺

開源解決方案

Ooize是基於工作流排程引擎，是雅虎的開源專案，屬於java web應用程式。由Oozie client和Oozie Server兩個元件構成。Oozie Server運行於Java Servlet容器（Tomcat）中的web程式。工作流必須是一個有向無環圖，實際上Oozie就相當於Hadoop的一個客戶端，當用戶需要執行多個關聯的MR任務時，只需要將MR執行順序寫入workflow.xml，然後使用Oozie提交本次任務，Oozie會託管此任務流。

AzKaban是一套簡單的任務排程服務，是Linkedin的開源專案，開發語言為Java。包括web Server、dbserver、executorserver。用於在一個工作流內以一個特定的順序執行一組工作和流程。定義了一種KV檔案格式來建立任務之間的依賴關係，並提供一個易於使用的web使用者介面維護和跟蹤你的工作流。

AirFlow是一個編排、排程和監控workflow的平臺，由Airbnb開源，現在在Apache Software Foundation 孵化。airflow 將workflow編排為tasks組成的DAGs，排程器在一組workers上按照指定的依賴關係執行tasks。同時，airflow 提供了豐富的命令列工具和簡單易用的使用者介面以便使用者檢視和操作，並且airflow提供了監控和報警系統。

餓了麼排程系統特性

任務建立簡單，執行頻率支援cron表示式
任務拆分為多種任務型別，支援19種任務型別（計算、推送、抽取、檢測）
任務依賴配置簡單，支援不同週期匹配，提供推薦依賴，DAG VIEW功能
排程與執行支援HA，平滑釋出，宕機恢復，負載均衡，監控告警，故障排查，快速擴容，資源隔離

支援任務型別

計算：hive，spark，pyspark，mr，kylin
推送：mysql推送，hbase推送，redis推送，cassandra推送，hiveToX推送，mysql多推
抽取：資料抽取
檢測：Dal-slave檢測，資料質量檢測，Edsink檢測，抽取資料檢測，資料有效期，匯入匯出校驗

其他：郵件定時任務

餓了麼排程系統整體架構

餓了麼排程系統整體架構包括5個部分，web服務、排程執行、基礎服務、底層服務，公共設施。

web服務主要提供任務建立、例項管理、任務依賴管理、worker控制、任務監控告警等。
排程執行主要由主備Scheduler和多個worker節點組成，負責任務的排程與執行。
基礎服務提供了Eless自助釋出，ELK故障排查，Huskar配置中心，Etrace埋點監控，dog告警等功能。
底層服務提供Hive，Spark，Presto，Kylin，Hadoop支援。
公共設施包括Mysql，Redis，zookeeper。

任務執行過程

WebService提供的Api建立任務和依賴關係，將任務資訊存入mysql
Scheduler定時生成第二天所有任務例項，並定時輪詢檢查並改變任務狀態為ready（是否到了執行時間，是否依賴已完成）
Worker 啟動時註冊資訊至Zookeeper，並定時上報機器狀態給Scheduler
Scheduler的ZkWorkerManager監聽Zookeeper，獲取Worker的註冊資訊
獲取ready的任務，TaskPacketFactory將任務構造成TaskPacket，使用對應的SubmitPolicy投遞任務給Worker
Worker通過Thrift接收任務，將任務解析成InterpreterContext，交給對應的Interpreter執行，最終由Dorker執行任務
Docker 執行情況返回給Worker，Worker回撥給Scheduler將狀態寫入mysql

餓了麼排程系統功能

任務依賴

任務依賴通過兩種方式配置，推薦依賴和手動依賴。推薦依賴是通過任務執行完將表和列的資訊存入mysql，由餓了麼血緣系統根據表的關聯進行推薦；手動依賴則是人為通過介面設定表的依賴關係。依賴關係支援不同週期的任務依賴，偏移量支援表示式【，】【~】。

失敗快速自動重試

當任務執行失敗時，系統自動重新調起，預設重試3次。
當任務投遞過程中，節點因資源緊張拒絕投遞，排程會根據負載均衡策略嘗試投遞另一臺機器。

自助故障排查

任務執行錯誤故障排查：節點提供Http服務，將任務執行的日誌通過http返回給WebService並展示到介面上，提供使用者自助排查。或者通過頁面上的連線訪問餓了麼錯誤分析平臺（Grace）自動分析。
任務非執行錯誤排查：任務排程和執行通過Flume將任務日誌進行收集，通過在Elk上搜索全域性Id即可檢視排程和執行情況。

監控告警

任務監控告警：根據使用者設定的告警規則和告警頻率，對任務執行超過完成時間和失敗的進行手機，郵件，釘釘告警。
故障監控和告警：排程和執行節點進行etrace埋點，通過對接收、執行、回撥等關鍵點的進行監測，當指標低於其他節點時間視窗平均值時，進行告警。

排程&&執行

排程主備自動切換

排程器通過向Zookeeper註冊，並隨機選舉出leader提供排程服務。非leader服務監聽leader狀態並wait，當leader出現故障，立即切換為leader角色提供服務。

宕機恢復、自我修復

當所有排程都宕機時，排程服務未恢復期間，Worker執行節點回調會出現異常。此時任務狀態會存入本地檔案資料庫，並定時重試回撥。當排程服務恢復時，任務狀態恢復正常。
當Worker執行節點宕機時，節點上的任務會處於執行中。當節點重啟時，Worker會自我修復執行中的任務，將節點上未調起的任務重新調起，已經執行中的任務通過讀取docker執行完寫入本地的狀態檔案進行恢復。

平滑釋出

當Worker節點進行版本升級時，執行中的任務進行自我修復，同上。

資源隔離和快速擴容

通過docker限制每個任務的memory和cpu資源使用
將依賴的底層服務打包成映象，擴容時便可以很方便的構建需要的環境

節點故障維護

當節點發生故障或則需要維護時，worker執行節點通過web介面既可進行在線上下線服務，下線後認為不再接收任務，但不影響節點上執行中的任務執行。

餓了麼大資料平臺排程系統演進與實踐

背景隨著餓了麼在大資料應用的不斷深入，需要解決任務數量增長快，任務多樣化，任務關係複雜，任務執行效率低，任務失敗不可控等問題。目前現狀每天完成大資料任務計算54000+ 節點叢集85臺

餓了麼大資料平臺建設

【導語】隨著接入的需求方越來越多樣化，對大資料的資料使用、資料儲存與計算的需求也越來越多樣化，同時業務飛速發展，叢集的規模也急速擴大。如何在這樣的場景下通過大資料平臺，穩定支撐住業務的發展是一個不小的挑戰。本文分享主要平臺工具鏈，技術、選型及架構設計上的一

餓了麼大資料計算引擎實踐與應用

餓了麼BDI-大資料平臺研發團隊目前共有20人左右，主要負責離線&實時Infra和平臺工具開發。其中6人的離線團隊需要維護大資料叢集規模如下： Hadoop叢集規模1300+ HDFS存量資料40+PB，Read 3.5 PB+/天，Write 500TB+/天

餓了麼元資料管理實踐之路

一、背景大資料挑戰大資料時代，餓了麼面臨資料管理、資料使用、資料問題等多重挑戰。具體可以參考下圖：資料問題：多種執行、儲存引擎，分鐘、小時、天級的任務排程，怎樣梳理資料的時間線變化？資料使用：任務、表、列、指標等資料，如何進行檢索、複用、清理、熱度Top計算？資料管理：怎樣對錶、列、指

centos7 大資料任務排程系統airflow的安裝(單機或分散式)

本文使用的安裝環境是python3, 建議單獨設定虛擬環境進行安裝。airflow server端目前只支援Linux 1. 設定airflow的家目錄位置在/etc/profile新增如下程式碼

vue2.0餓了麼--header資料獲取後進行header元件的編寫

首先我們通過props屬性接受到父元件App.vue傳過來的資料 export default { //:seller = "seller" props接收傳過來的seller物件 props: { seller: { type: Object

大資料平臺架構技術選型與場景運用

導讀：本文將大資料的工作角色分為三種類型，包括業務相關、資料科學相關和資料工程。大資料平臺偏向於工程方面，大資料平臺一般包括資料來源、資料採集、資料儲存、資料分析等方面。講師從資料來源、資料來源結構、資料變化程度和資料規模等4個維度對資料來源進行分類，資料來源分類維度的

大資料平臺運維------CM與CDH的升級

CM與CDH的升級過程有點類似與安裝過程，這裡我們也是採用離線安裝模式，各軟體版本資訊為：作業系統：CentOS6.8CDH版本：5.7.1：CDH-5.7.1-1.cdh5.7.1.p0.11-el5.parcel.sha CDH-5.7.1-

大資料在銀行業的應用與實踐

大資料在銀行業的應用一、輿情分析對於銀行來說，輿情分析包括：銀行的聲譽分析、品牌分析和客戶質量分析。它主要是通過分析網路社交媒體的評論，對於客戶的流失情況進行預警，還可以通過對新聞熱點的跟蹤以及政府報道的分析，為銀行提供個性化的分析場所。二、客戶信用評級銀行可以通過

深入大資料平臺心臟：餓了麼排程系統全解

隨著餓了麼在大資料應用的不斷深入，需要解決任務數量增長快、任務多樣化、任務關係複雜、任務執行效率低及任務失敗不可控等問題。餓了麼大資料平臺現狀：每天完成大資料任務計算 54000+;節點叢集 85 臺。開源解決方案 Ooize Ooize 基於工作流排程引擎，是雅虎的開源專

大資料平臺任務排程與監控系統

背景大資料平臺技術框架支援的開發語言多種多樣，開發人員的背景差異也很大，這就產生出很多不同型別的程式（任務）執行在大資料平臺之上，如：MapReduce、Hive、Pig、Spark、Java、Shell、Python等。這些任務需要不同的執行環境，並且除了定時執

雷頓學院百萬大咖訪談《阿里餓了麼百萬併發服務端架構實踐》

雷頓學院百萬大咖》互聯技術視訊直播訪談本期邀請嘉賓是阿里餓了麼資深架構工程師郭新鵬先生，郭新鵬先生在服務端架構設計有著豐富的經驗，此次直播訪談節目，他將為我們介紹在服務架構設計中涉及的 API閘道器設計，服務的彈性排程，單體結構和服務穩定性保障等方面的內容。感興趣的朋友歡迎關注雷頓學院百

vue餓了麼（一）--vue-router路由 & mock後臺資料

1.vue-router:點選導航按鈕顯示相應頁面 1.router/index.vue import Vue from 'vue' import Router from 'vue-router' import header from '@/components/header/header'

【任務排程系統第一篇】：大資料任務排程框架

1.前言任務排程系統在大資料平臺架構中扮演著比較重要的角色。下圖是引自網易的猛獁大資料平臺lambda架構圖。其中的Azkaban就是其任務排程元件。概括來說，任務排程在大資料平臺中所扮演的角色主要有：任務編排：對任務流按照一定的邏輯串起來。這在大資料開發中

餓了麼最大紅包公眾號最佳手氣免費領取

更新時間：2018-11-09 以下為科目研究內容： 1.研究物件為公眾號：內部福利中心 2.研究方向：怎麼一鍵領取餓了麼最大紅包？ **測試內容：**在餓了麼app訂單介面，複製訂單號（最大紅包還在的），傳送給公眾號，等待幾秒，就能搶到最佳手氣紅包，即最大紅

餓了麼重啟食材進貨平臺有菜

餓了麼於12月26日召開發佈會，重啟餓了麼有菜食材進貨平臺。此外，餓了麼在釋出會上公佈了第三批外賣包裝“安心名錄”，共包括47家企業的安全環保外賣包裝產品。 12月10日起，餓了麼有菜在招聘網站上釋出了多條崗位招聘資訊，涉及崗位主要是城市經理，涉及地區包括北京、廣州、哈爾濱、青島等。餓了麼曾在2015年

餓了麼專案---6、使用Props傳遞資料

一、使用Prop的場景與意義元件例項的作用域是孤立的。這意味著不能 (也不應該) 在子元件的模板內直接引用父元件的資料。要讓子元件使用父元件的資料，我們需要通過子元件的 props 選項。子元件

餓了麼專案---12、父子元件、兄弟元件之間資料通訊與事件派發（關於購物車新增按鈕的動畫）

html程式碼生成一個動畫小球的div,並且生成五個小球,五個是為了生成一定數量的小球來作為操作使用,按照小球動畫的速度,一般來說五個也可以保證有足夠的小球數量來執行動畫動畫的內容分別是外層和內

如何批量採集餓了麼商家外賣資料？

本文主要介紹“餓了麼商家外賣資料採集爬蟲”（以下簡稱“餓了麼外賣爬蟲”）的使用教程及注意事項。經歷了外賣行業的多次混戰之後，餓了麼已經成為中國最大的外賣交易平臺，經過這麼多年的發展，該平臺已經囊括了海量的外賣商家資料，那如何獲取這些資料呢？老鐵們，試試“

python爬餓了麼外賣資料（1）

#爬餓了麼外賣資料--區域集合 #https://mainsite-restapi.ele.me/v2/pois? #extras%5B%5D=count&geohash=wx4g0bmjetr7&keyword=%E6%9C%9D%E9%98%B3&limit=20&typ

餓了麼大資料平臺排程系統演進與實踐

背景

開源解決方案

餓了麼排程系統特性

餓了麼排程系統整體架構

餓了麼排程系統功能

排程&&執行

相關推薦