1. 程式人生 > >ECS主動運維2.0,體驗升級,事半功倍

ECS主動運維2.0,體驗升級,事半功倍

存儲

摘要: 阿裏雲致力於提供更好用的運維體驗,讓您使用ECS的過程更透明、高效,並實現更加標準化、自動化的運維方式。基於主動運維2.0,您使用ECS雲服務器的體驗更加流暢,而且利用系統事件,不再依賴於工單聯系客服,可以通過自助處理的方式響應主動運維實例重啟,減少對系統可靠性和業務連續性的影響。

雲服務器 ECS(Elastic Compute Service)是一種彈性可伸縮的計算服務,助您降低 IT 成本,提升運維效率,使您更專註於核心業務創新。當您基於ECS雲服務器搭建了業務系統,借助雲計算的諸多優勢和特性,可以實現對業務需求的敏捷響應和對業務連續性的有力保障。在此基礎上,阿裏雲致力於提供更好用的運維體驗,讓您使用ECS的過程更透明、高效,並實現更加標準化、自動化的運維方式。

主動運維

阿裏雲使用嚴格的IDC標準、服務器準入標準以及運維標準,保證雲計算整個基礎框架的高可用性、數據的可靠性以及雲服務器的高可用性。對於單臺ECS實例, 阿裏雲承諾一個服務周期內單臺ECS實例的服務可用性不低於99.95%;對於單地域多可用區,阿裏雲承諾一個服務周期內該單地域多可用區的服務可用性不低於99.99%。

我們知道,在基礎設施層面,始終存在一些潛在因素如軟件bug或硬件故障等會影響ECS實例的運行,因此為了保證上述高級別的服務可用性,除了雲計算基礎框架的高可用性設計以外,ECS主動運維不可或缺。主動運維作為ECS的隱形衛士,會主動對承載ECS實例運行的物理服務器做日常維護和故障檢測,並盡可能通過在線或輪轉升級的方式修復潛在的故障隱患,以持續提升系統可靠性、性能和安全防護能力,保障雲服務器穩定運行。

但對於某些情況,物理服務器需要重啟或停機維護,這時主動運維系統會向該服務器上的ECS用戶發送消息通知,提示您的ECS實例需要重啟遷移至健康的物理服務器之上。此前,用戶接到這樣的通知後需要提交工單聯系客服人員授權處理,隨著主動運維2.0的進化,這方面的體驗得到多方面的提升。

體驗升級

1. 主動運維熱遷移,實例運行不中斷

當主動運維檢測到物理服務器存在故障風險時,系統會優先嘗試將該服務器上的ECS實例在線熱遷移至其他物理服務器,熱遷移成功的實例不會中斷運行,其業務可以保持在線;只有少量熱遷移存在風險的實例才會進入主動運維重啟遷移流程。此策略升級後,有效減少對用戶業務連續性的沖擊,在阿裏雲用戶規模快速增長的情況下,主動運維相關工單數量同比下降125倍!

2. 風險提示更清晰,遷移影響提前知

對於有必要進行重啟遷移的實例,阿裏雲會提前向用戶發送消息通知和針對性的提示。由於本地存儲(本地盤)來自單臺物理服務器,不基於多副本分布式技術,在遷移時本地盤所存儲數據會被擦除,因此對於本地盤實例,通知中明確提示該風險並提醒您在遷移前及時備份數據。對於雲盤實例,通知中提供操作引導,您不再需要提交工單聯系客服人員,可以直接在控制臺或通過API處理實例重啟遷移。

3. 不用工單找客服,系統事件來幫忙

雲盤實例重啟遷移的自助處理功能在控制臺和API上線,當您受到重啟遷移的系統計劃事件時,可以知曉該事件的執行計劃。如下圖所示,根據您的業務需要,可以選擇立即執行重啟、預約在業務低峰期執行重啟、或等待系統按計劃執行,做有準備的運維操作。這樣的過程不再需要依賴工單處理,提高效率的同時減少實例重啟對您在行業務的沖擊。

技術分享圖片

技術分享圖片

事半功倍

正如上面提到的體驗改進,“事”半功倍,除了主動運維流程進化,還來源於系統事件的發布。系統事件有利於提升用戶對於ECS運行狀態變化的感知,並進行有針對性的操作來響應或規避事件對在行業務的影響。通過系統事件的閉環,將更多的運維場景標準化、自動化,讓用戶獲得更好的額雲上運維體驗。

原文鏈接

閱讀更多幹貨好文,請關註掃描以下二維碼:

技術分享圖片


ECS主動運維2.0,體驗升級,事半功倍