1. 程式人生 > >“山竹”颱風過後,發現選擇資料中心沒那麼簡單

“山竹”颱風過後,發現選擇資料中心沒那麼簡單

超強颱風“山竹”剛剛過去一個月,香港地區在第一個工作日已陸續復產復業復市。有誰敢相信,“山竹”襲來的當天,香港天文臺的10號風球訊號整整掛足了10個小時。

根據香港中華電力當天新聞稿稱,其供電系統在“山竹”的襲擊下,40萬伏特及13萬2千伏特架空天線受到嚴重影響,導致約40000個客戶供電中斷。在這裡新天域互聯小編給大家做個小科普,中華電力(中電)負責香港九龍、新界區的電力供應,而港燈電力(港燈)負責香港港島地區的電力供給,雙方分工分明。舉個例子來說,位於香港新界區葵興ITECH TOWER 2的新天域互聯資料中心,就只能使用到中電的電路系統。

圖:取自中電官網

中電一直維持世界級的供電系統,可靠度達 99.999% 以上。如此穩定的可靠度有賴中電輸配電網路採用環形配置,為客戶提供雙重電源。中電更透過裝置完善的系統控制中心,以先進技術實時監控各輸配電網路的情況,其中包括13,900座變電站以及長達14,500公里的高壓電纜。中電完備的系統控制中心及專業的外勤隊伍,提供7*24*365緊急服務,確保供電服務日夜無間。

圖:取自中電官網

斷電危機

眾所周知,資料中心等電信類設施對穩定電力也有著很高的依賴性,而停電正正命中它們的要穴。

據Uptime Institute對全球1000家資料中心運營商和IT從業者進行的資料中心行業調查顯示,在2014年,25%至46%的受訪者都曾遭受斷電對業務造成影響。 簡單列舉幾個案例:

● 2014年7月5日,位於弗羅裡達的維基百科資料中心發生斷電事故,導致全球範圍宕機。

● 2015年9月20日,亞馬遜AWS一個數據中心遭遇停電事故,旗下Netflix,Tinder,Airbnb等應用程式的在 線服務受到了影響。

● 2017年5月27日,英國航空公司從Heathrow和Gatwick起飛的所有航班,原因是機房故障導致其全球運營嚴重中斷。

資料中心應該怎麼預防?如何解決呢?

資料中心斷電預防措施

資料中心的主要功能,是為它所包含的關鍵任務應用程式提供穩定的正常執行。根據2016年Ponemon Institute的調查,UPS系統故障仍然是導致計劃外資料中心宕機的首要原因。

硬體方面

2017年Uptime Institute拉斯維加斯的研討會上指出,在已公開的停電事故當中,其中62%是由於IT裝置服務供應商的問題。而如今“上雲”成為大家迫不及待的選擇,不僅需要信賴大品牌的能力,還要注重上雲的方式和機房的硬體裝置,如:機房五大系統的保障、雙活機房,伺服器、儲存等配置情況及品牌;

● 嚴格按照資料中心建造標準來建設;

● 選用可靠的電力系統裝置和冷卻系統裝置等;

● 異地容災、異地快照、異地還原、映象災備;

● 對資料中心裝置進行實時監控;

● 根據專業機構建議對硬體進行合理升級。

軟體方面

軟體硬體雙劍合璧才能使伺服器發揮最大穩定效用。

● 可通過DCIM管理軟體對供電系統進行智慧化管理;

● 定時進行軟體備份,按照既定時間進行資料備份;

● 確保網路安全,建立運維文件和流程控制;

人力方面

Uptime Institute研討會上同樣指出,至少38%的斷電情況是人為導致的。那麼究竟什麼是人為因素呢?以下幾點屬於管理過失問題:

● 設計妥協。資料中心一定要按照高等級標準進行資料中心建設,尤其針對供配電系統、製冷系統等關鍵基礎設施產品的應用提出嚴格要求,始終保證不妥協;

● 培訓預算削減。資料中心的持續穩定執行離不開優質運維人員的全力支援,除了新員工完整的培訓流程一定要做好外,老員工的定期培訓也是十分有必要,畢竟IT知識日新月異;

● 裁員。裁員就意味著資料中心沒有足夠的人員支撐執行,無論是日常維護還是緊急情況處理,這些都需要足夠又穩定的人員;

● 預防性維護。管理者必須對資料中心裡的每班當值人員進行充分的緊急情況培訓,多模擬安全測試,準備好災難應急方案;

● 缺乏專業機房人才。邀請專業人員或公司加入到團隊當中,加強高可用的資料中心管理體系;

● 選擇成本最低的供應商。無論是自建機房還是租用託管伺服器,企業都必須根據自己實際情況,選擇最好的硬體,最好的環境,最好的裝置。

● 定期演練

斷電解決措施

有時候即便預防措施做齊了,還是會發生斷電,這個時候,新天域互聯給大家一點建議:

● 首先在場人員必須先確認停電的線路,停電時刻等資訊;:

● 按照災難應急方案進行,第一時間通知各個相關部門;

● 對資料中心裡的裝置進行檢查,如伺服器、UPS系統、核心系統等等;

● 對資料中心進行有效的散熱處理;

● 工單記錄;

● 部件檢查完畢時,區分優先恢復的步驟實施,確保用電功率情況正常;

● 啟動發電機,檢測發電輸出電流通斷,待發電機執行穩定,按順序啟動製冷系統、主UPS的市電輸入、客服系統、備用UPS的市電輸入;

● 發電機啟動後,值班同事需將降溫系統關閉,逐一檢查所以裝置是否正常;

● 派專人現場值守,及時與油品供應商溝通。

史上最強“山竹”颱風來襲,正是考驗一個數據中心應變能力,基礎設施是否過關的最佳時機。在山竹抵港的十個小時裡,新天域互聯並未因停電而導致宕機事故的發生,整個香港資料中心井然有序,伺服器持續高效執行,這源於新天域互聯所採用的電氣系統,冷卻系統和備用柴油發電機均為2N冗餘,能有效應對停電情況發生;更源於工作人員365天如一日的為使用者提供最為高品質的服務。

檢視我們的微信公眾號,看看那些你可能錯過的往期文章。