微軟就雲服務故障釋出初步分析報告
微軟已經對9月4日影響全球客戶的故障釋出了一份初步根本原因分析(RCA)報告。Azure工程團隊正在繼續調查此事件,並表示他們將在"未來幾周內"提供更詳細的分析。

微軟的官員們在這份分析報告中表示,受到影響的客戶將在10月份的賬單中,根據微軟Azure服務水平協議(Microsoft Azure Service Level Agreement)得到相應的補償。
9月4日,微軟在美國中南部的資料中心附近出現了一次雷擊,很多Azure服務出現了故障,需要通過Azure 動態目錄(Azure Active Directory)進行身份認證的Office 365也受到影響,此次事件的影響波及到了微軟全球的很多客戶。
微軟的分析報告總結表示,風暴導致"電力系統供應的波動,導致電壓驟升。"電壓的驟升導致一個Azure資料中心切換至發電機供電,並關閉了該資料中心的製冷系統,但該中心配備有浪湧抑制器。該資料中心仍然通過冷卻系統中與負載相關的熱緩衝器維持所需的工作溫度,但是等到緩衝器作用耗盡,溫度就出現了升高,裝置就出現了自動關閉。
一些硬體在關閉之前就已經被損壞,包括"大量儲存伺服器"以及其他網路裝置和電源單元。現場團隊開始嘗試恢復基礎架構,這意味著更換故障硬體,將伺服器遷移到健康的伺服器上並檢查資料是否已經損壞。
對於那些想知道為什麼微軟的資料中心沒有在故障中轉移到備份站點的人:"當時做出的決定是為了恢復資料而不是轉移到另一個數據中心,因為由於地理複製的非同步特性,故障轉移會導致部分資料丟失。"
關閉資料中心會影響許多依賴於該資料中心記憶體儲伺服器的Azure服務。受影響的服務包括:torage、虛擬機器(Virtual Machines)、Application Insights、認知服務和自定義視覺API(Cognitive Services & Custom Vision API)、備份(Backup)、應用程式服務(以及用於Linux的應用程式服務和用於容器的Web應用程式)、用於SQL/">MySQL的Azure資料庫、SQL資料庫、Azure自動化(Azure Automation)、站點恢復(Site Recovery),Redis快取(Redis Cache)、Cosmos資料庫、流分析(Stream Analytics)、媒體服務(Media Services)、Azure資源管理器(Azure Resource Manager)、Azure VPN閘道器、PostgreSQL、Application Insights 、Azure機器學習工作室、Azure搜尋、資料工廠、HDInsight、物聯網中心、分析服務、金鑰庫、日誌分析、Azure監視器、Azure計劃程式、邏輯應用程式、Databricks、ExpressRoute、容器登錄檔(Container Registry)、應用程式閘道器(Application Gateway)、服務匯流排(Service Bus)、事件中心(Event Hub)、Azure Portal IaaS Experiences-- Bot服務、Azure批處理、Service Fabric和Visual Studio Team Services(VSTS)。
微軟表示"這些服務中的絕大部分在協調世界時9月5日的11:00都已經恢復了",但是也承認到了9月7日的8:40才完全解決這些問題。
為什麼美國中南部地區以外的客戶也會受到這一系列事件的影響?據該帖子稱,"Azure Service Manager的彈性不足",它採用的是"經典"資源型別的運營管理服務。微軟的高管們表示,"雖然ASM是一項全球服務,但它不支援自動故障轉移。"由於對ASM和其他相關服務的各種依賴性,美國中南部地區以外的Azure資源管理器服務也受到了影響。