1. 程式人生 > >看DLI服務4核心如何提升雲服務自動化運維

看DLI服務4核心如何提升雲服務自動化運維

摘要:今天我們來說說DLI是如何實現監控告警來提升整體運維能力,從而為客戶更好的提供Serverless的DLI。

DLI是支援多模引擎的Serverless大資料計算服務,免運維也是其作為Serverless雲服務面向客戶時的一個重要的特性。那麼對於服務本身我們是如何實現整個服務的運維呢?今天我們來說說DLI是如何實現監控告警來提升整體運維能力,從而為客戶更好的提供Serverless的DLI。

上圖是DLI服務的整體部署架構,作為Serverless服務其全面擁抱雲原生技術,無論是對外提供任務管理的微服務還是最終執行任務的計算單元,其都是基於Kubernetes來部署,這也更好的實現了Serverless的快速彈性伸縮。

對於DLI服務的監控告警我們當前主要從以下幾個方面來考慮:

1.全域性維度,主要是整體API的QPS、成功率和響應時延

DLI作為Serverless大資料計算服務,其對外均以REST API的形式提供服務,因此API的QPS和響應時延直接反映了服務對外的能力,而成功率更是服務SLA的直接體現。

2.OS維度,主要是容器宿主的CPU使用率、記憶體使用率、磁碟使用率、上下行流量

無論部署的架構、技術如何演進,對基礎資源的監控都是最基本和必須的。

3.容器維度,主要是CPU使用率、記憶體使用率、K8s空間和使用者空間使用率、POD的健康度

容器是虛擬機器的演進,因此對於容器的資源監控也是最基本的。我們的微服務或計算單元都是以容器執行在Kubernetes叢集上,因此對於POD的健康狀態的監控也是必須的。

4.微服務維度,主要是流量、效能、健康檢查和關鍵日誌等

監控是為了更好的發現和解決問題,因此核心還是業務層面的監控。DLI是一個複雜的分散式Serverless應用,其內部根據不同領域模型又分為不同的微服務,因此對於微服務內部的流量、效能等的監控則是衡量各微服務可靠性的重要指標。一個好的系統往往有完善的日誌體系,通過對關鍵日誌進行監控則能夠幫助我們快速發現和定位問題,因此這也是我們在業務維度的監控上的重點。

上述幾個方面的監控,是我們實現雲服務自動化運維的一些關鍵步驟,通過這些我們能夠做到更好的先於客戶發現問題,保障服務SLA。當然這些遠遠不夠,正所謂“路漫漫其修遠兮,吾將上下而求索”,更加自動化、智慧化的運維才是Serverless服務的目標。

 

點選關注,第一時間瞭解華為雲新鮮技