1. 程式人生 > >又又又斷電?從某Cloud資料中心電力故障看UPS可靠性

又又又斷電?從某Cloud資料中心電力故障看UPS可靠性

在資料中心大談雲化,眾多廠家“無雲不宣”的時候,人們卻發現:理論上更加安全、更加可靠、更加便捷的Cloud DC們,卻似乎變得更加脆弱了。除了伺服器宕機,斷網、斷電等事故也時有發生,連挖土機都有可能挖斷光纜。當一朵朵“雲”在天上飄的時候,背後的那根“安全線”也比任何時候更加不容忽視。

2017年3月22日,青雲(QingCloud)因北京2區(PEK 2)資料中心電力故障引發部分閘道器裝置及計算節點重啟,目前故障雖然已經排除,但也造成了不小的影響。

資料中心

近年來,大家頻繁聽到雲資料中心因異常導致業務中斷的事情發生,在數字化的現代社會,資料中心的可靠性如果稍稍動搖,其造成的影響如同蝴蝶效應,不可避免會波及終端客戶的正常運營和影響自身聲譽。因而每一次故障的發生不僅僅需要事故方自檢排查,更需要整個行業一起反思,從中獲益。雖然官方沒有給出確切的故障原因,本文將參照青雲事後釋出的故障報告,大致分析故障原因,並以此為契機,給出一些思考與建議。

據青雲官方稱:具體故障發生過程為,該資料中心需要對A組UPS進行定期離線維護作業所以將負載從A路UPS整體切換到B路UPS,但是3個小時之後B路電源UPS出現單臺機組報故障,隨後整組UPS過載。1分鐘後B路UPS在進行內部旁路切換時報警顯示不能進行切換,緊接著UPS就陷入異常狀態。大約36分鐘後UPS系統恢復正常狀態後將報警還原時,電源產生了瞬斷現象。將近2個小時之後為了原因調查,UPS被完全隔離。

資料中心

雖然目前還沒有正式的分析報告出來,但是從報告中我們還是可以管中窺豹,從中看出一些問題。

一、傳統塔式UPS離線維護風險大。在發生故障的第一環節是離線維護引起的,研究表明有50%~60%的資料中心的停機都是由人為錯誤引起的,這與塔式UPS結構息息相關。

傳統塔式UPS是一個整體,其內部系統複雜,UPS出了故障後,問題的定位和維修是很大的工程量,並且需要專家到現場才能定位、維修,且這個過程是離線的,此時UPS系統工作在維修旁路,這就意味著,當市電中斷時,如果單機供電,負載將直接中斷。

二、傳統塔式UPS維護時間長。上文已經提到,塔式UPS的維護往往是個專業過程,維護工作量大,一般維護時間常常是數小時甚至數十小時,這就加大了業務中斷的風險。

三、青雲所用的UPS本身可靠性設計令人擔憂。從報告中看 “B路電源UPS出現單臺機組報故障,隨後整組UPS過載。1分鐘後B路UPS在進行內部旁路切換時報警顯示不能進行切換,緊接著UPS就陷入異常狀態。大約36分鐘後UPS系統恢復正常狀態後將報警還原時,電源產生了瞬斷現象。”這段描述性文字可以看出,青雲所用UPS在過載狀態下,主旁切換邏輯出現重大問題,本身可靠性設計堪憂。

UPS發展至今,傳統塔式UPS低可用性已經無法跟上資料中心IT設施的發展速度,要提升可用性,縮短故障維護時間,模組化UPS是唯一方向。模組可熱插拔是所有UPS廠家對模組化UPS的基本要求,故障時通過熱插拔更換模組,5分鐘即可完成線上維護,這與傳統塔式UPS動輒8小時以上的離線維護時間相比,是個巨大的提升,當然在線與離線相比,對負載的重要性也不言而喻;部分廠家甚至將靜態旁路、控制模組等等都做了熱插拔設計,進一步提升系統可用性。

此外,傳統塔機單點故障多,單點故障,常常引起整個系統中斷,相比而言模組化UPS關鍵節點可以通過冗餘設計提升可靠性,在整個系統執行時,負載率一般會低於50%,此時多個模組故障,仍然可以保證UPS正常帶載,直接規避了上文所說的過載問題。

最後,使用者在使用UPS,進行招標時,對於UPS可靠性的要求應該更加嚴格,嚴格的標準才能大浪淘沙,讓真正可靠的UPS脫穎而出,為更多的使用者謀福利。

從近年來的集採可以看出,模組化UPS所佔比例節節攀升,逐步成為集採主流機型,這也從側面印證了市場趨勢,從業務出發,客戶也不願意使用維修困難的UPS,正在追求更高可用性的UPS。

UPS作為電力守護者,為各個行業的關鍵負責裝置提供穩定、不間斷的電力供應。從近幾年的市場表現來看,模組化UPS的可靠性正在逐步被行業認可。相對於傳統的高頻塔式UPS,模組化UPS可以不斷電維護,單模組故障不影響系統執行,高效節能等特性更符合資料中心應用。

文章來自微信公眾號:資料中心運維管理