1. 程式人生 > >Mesos---分散式資源管理框架

Mesos---分散式資源管理框架

        對Mesos Slave,實現了Slave的恢復功能,當Slave節點上的程序失敗時,可以讓執行器/任務繼續執行,併為那個Slave程序重新連線那臺Slave節點上執行的執行器/任務。當任務執行時,Slave會將任務的監測點元資料存入本地磁碟。如果Slave程序失敗,任務會繼續執行,當Master重新啟動Slave程序後,因為此時沒有可以響應的訊息,所以重新啟動的Slave程序會使用檢查點資料來恢復狀態,並重新與執行器/任務連線。當計算節點/Slave節點無法響應多個連續的訊息後,Master會從可用資源的列表中刪除該節點,並會嘗試關閉該節點。然後,Master會向分配任務的Framework排程器彙報執行器/任務失敗,並允許排程器根據其配置策略做任務失敗處理。通常情況下,Framework會重新啟動任務到新的Slave節點,假設它接收並接受來自Master的相應的資源邀約。