1. 程式人生 > >微軟Azure雲服務故障超過24小時,原因竟是——被雷劈了

微軟Azure雲服務故障超過24小時,原因竟是——被雷劈了

9 月 4 日,微軟在美國中南部地區的聖安東尼奧資料中心由於雷電天氣影響導致電壓激增,資料中心的冷卻系統發生故障。為保證資料和硬體完整性,資料中心的自動化措施強制關閉了系統電源以防止機器因過熱造成損壞。這一事故引發了 Azure 中斷,Office 365 以及 Azure Active Directory 服務都受到影響,並且恢復相關儲存服務經歷了很長時間。

故障從 9 月 4 日上午 9 點(北京時間 9 月 4 日 17:00)左右開始出現問題,到 9 月 5 日 13 點左右(北京時間 9 月 5 日 21:00 左右),微軟大多數受影響服務的儲存可用性已經恢復,整個故障中斷時間超過 24 小時。

跟蹤服務中斷的 DownDetector.com 網站顯示 Azure 服務中斷主要位於德克薩斯州:

Azure 官方推特 Azure Support 讓使用者檢視 Azure 狀態頁面,但是 Azure 服務中斷甚至影響到該頁面也一度無法訪問。Azure Support 將事故稱為“網路問題”,並表示中斷只會影響美國中南部的客戶,但是很多使用者表示中斷已經影響了包括西歐、亞洲在內的其他地區。

Azure Support 在對使用者的回覆中澄清了為什麼其他地區會受到影響:“在某種程度上,我們所有的資料中心都是相互聯絡的。因此,如果一個數據中心出現故障,它將轉移到其他資料中心。此外,在歐洲的客戶可能會在受影響的資料中心託管一些資源。“

包括 Office 365 和 VSTS (Visual Studio Team Services)在內的近 40 個 Azure 服務受到影響。根據 Office 365 的公告,Office 365 使用者遇到的問題型別如下:

  • Exchange – 某些使用者可能無法訪問網頁上的 Outlook。 通過其他協議進行的電子郵件訪問則有可能不受影響。
  • Power BI – 使用者可能收到“伺服器不可用”錯誤或可能無法登入。
  • SharePoint – 大多數影響已得到緩解,但一部分使用者可能無法進行更改或更改無法儲存。
  • Microsoft Teams – 使用者可能無法訪問 Teams 的 Office 文件。
  • Intune – 受影響的使用者可能無法訪問 Intune 門戶或其他功能。

根據 VSTS 的公告,這次中斷影響了使用微軟 Visual Studio Team Services 的開發人員,導致他們無法訪問帳戶,報告儀表板也無法載入。

根據 Microsoft Dynamics 公告,這次中斷還影響了 Azure Active Directory,Microsoft Dynamics Finance 以及 Operations 和 Lifecycle Services 的使用者。

9 月 5 日,Azure 狀態更新中表示,工程師正在優先恢復儲存資源,以便恢復依賴於這些受影響資源的所有服務,但是恢復過程需要一段時間。到北京時間 9 月 5 日晚 9 點左右,大多數受影響的服務已經恢復。

到底應該怎麼上雲?

此次 Azure 服務中斷時間長,影響較大,又引發了大家對上雲風險的討論。

VSTS 一整天都用不了,這是個很嚴重的問題。有使用者說:

我無法相信 Azure 仍在癱瘓。昨天整天我都無法訪問美國中南部地區的資源。整個區域的服務中斷可能會持續 24 小時的事實將使我的團隊認真考慮轉向 AWS。如果我們的服務中斷 5 分鐘,我們的客戶會很生氣。我甚至不想去想如果因為一些完全不受我們控制的事情而宕機一整天會發生什麼。

討論中也有這樣的疑惑:

區域性中斷應該不會拖垮那麼多服務,地理冗餘在哪裡?

雖然很多細節都圍繞在具體是哪裡的冷卻系統發生了故障,Azure 這次的服務中斷可以讓大家認識到可用區(AZ,availability zones) 的重要性。AZ 能讓使用雲服務的使用者在給定雲端計算區域內的幾個獨立建築周圍分散工作量,以期避免單個數據中心會帶來的問題。

AZ 的設定直到去年才成為微軟基礎設施戰略的一部分,並且目前微軟只向全球 54 個區域中的三個地區推出了 AZ(美國東部 2 區和東南亞地區可作為預覽)。

上雲本來是要防止這些基礎設施問題的,但是不要忘了,即使 99%的 SLA 也意味著一年 365 天大約可以有 4 天不線上。所以很多公司會提到 99.9% 和 99.99%,當以年為單位來看,小數點後面的位數也不可小覷。公有云提供的高度冗餘意味著公司需要在全國各地擁有為站點提供服務並充當備份的私有資料中心。很多公司連建立這麼多資料中心的預算足都不足,更不用說額外的維護成本了。

Mimecast 的網路彈性專家 Pete Banham 說:“今天在 Azure 發生的事件再次提醒企業需要建立自己的冗餘,而不是依靠單一的供應商。所有公司(包括 Microsoft)都需要考慮由於技術故障或人為錯誤而導致關鍵服務故障可能產生的下游影響。服務總是會有失敗的時候,IT 領導者們需要確保自己沒有將責任外包給單一的雲服務。”