1. 程式人生 > >青雲(QingCloud)資料中心電力故障及其進展說明……

青雲(QingCloud)資料中心電力故障及其進展說明……

因北京2區(PEK2)所在資料中心於3月22日下午遭遇電力閃斷事故,造成QingCloud部分使用者業務及控制檯短時無法訪問,對此我們深表歉意。目前故障已經排除,受影響的使用者業務已經全部恢復。經全面核實,我們現將事故完整過程報告給您:

  • 12:37  運營團隊發現北京2區流量異常告警,監控多條線路訪問中斷、多臺網路裝置及物理伺服器重啟,定位為機房電力故障導致,隨即對故障裝置進行緊急修復;
  • 12:41  部分物理伺服器恢復訪問;監控運營大資料分析顯示批量裝置出現過供電中斷;
  • 13:01  恢復北京2區控制檯訪問;
  • 13:17  網際網路出口流量恢復,基礎網路修復完成;
  • 13:19  機房運營方通告故障原因為機房UPS故障導致雙路電力出現了分鐘級的閃斷,影響了QingCloud 所使用的大部分機櫃;因為電力閃斷浪湧,造成一些物理伺服器電源故障,運營團隊進行備件裝置更換;
  • 14:25  運營機器人併發自動操作,第二批伺服器修復,控制檯修復。因重啟裝置過多,陸續將關鍵使用者的業務拉起恢復;
  • 16:25  使用者業務基本恢復正常。

本次嚴重故障從裝置重啟到基礎網路環境修復完成共耗時40分鐘,系統資料和使用者業務資料未出現任何丟失。

整改措施:

故障發生後,我們同機房運營方就事故過程、原因和技術細節進行了持續溝通,對其在未進行割接通知的情況下對資料中心關鍵基礎設施進行維護操作,置青雲QingCloud及其使用者於高度運營危險之上的行為進行譴責,並責成其協同UPS裝置廠商施耐德分析故障原因、覆盤操作流程、提升運營水平,並出具真實、嚴謹的故障報告,確保在日後運營中規避類似事故的再次發生。

  • 與機房運營方共同切實提高IDC服務保障水平。啟動突擊專案對青雲QingCloud公有云各可用區所在資料中心分別就電力、暖通、網路等各個專業系統進行風險摸排。
  • 對機房運營方的運營管理流程規範進行更加嚴格和全面的檢查,制定和簽署相關責任書,排除未通知割接、高峰期對基礎設施進行非必要性操作等低階錯誤的發生。
  • 全力協助客戶實現同城及異地容災。藉助青雲北京多個可用區佈局、全國骨幹網的佈局為青雲關鍵客戶實現容災部署,並利用青雲彈性計算能力為客戶提供跨區容災秒級排程。

青雲QingCloud公有云基礎設施資料中心,全部是T3+級別,要求來自不同變電站的雙路市電,2N冗餘配置的UPS保護、柴發保護、保障99.99%的電力可用性,然而除了基礎設施硬體的高階保障,踏實穩妥的運營更加關鍵,我們會與機房運營方共同努力,提升運營意識和嚴謹性。

因本次故障為您的業務造成的影響,我們再次深表歉意,並進行補償。

感謝您一直以來的理解和支援,我們將不遺餘力地持續加強各個方面的保障能力,全力守護使用者業務的穩定。

青雲QingCloud