1. 程式人生 > >山竹”臺風過後,發覺選擇數據中心沒有想象中那麽簡單了

山竹”臺風過後,發覺選擇數據中心沒有想象中那麽簡單了

進行 公司 遭遇 相關 cda cbc 裏的 世界級 netflix

技術分享圖片

山竹”臺風過後,發覺選擇數據中心沒有想象中那麽簡單了

超強臺風“山竹”剛剛過去4天,香港地區在第一個工作日已陸續復產復業復市。有誰敢相信,“山竹”襲來的當天,香港天文臺的10號風球信號整整掛足了10個小時。

根據香港中華電力當天新聞稿稱,其供電系統在“山竹”的襲擊下,40萬伏特及13萬2千伏特架空天線受到嚴重影響,導致約40000個客戶供電中斷。在這裏新天域互聯小編給大家做個小科普,

技術分享圖片

中華電力(中電)負責香港九龍、新界區的電力供應,而港燈電力(港燈)負責香港港島地區的電力供給,雙方分工分明。舉個例子來說,位於香港新界區葵興ITECH TOWER 2的新天域互聯數據中心,就只能使用到中電的電路系統。
圖:取自中電官網

中電一直維持世界級的供電系統,可靠度達 99.999% 以上。如此穩定的可靠度有賴中電輸配電網絡采用環形配置,為客戶提供雙重電源。中電更透過設備完善的系統控制中心,以先進技術實時監控各輸配電網絡的情況,其中包括13,900座變電站以及長達14,500公裏的高壓電纜。中電完備的系統控制中心及專業的外勤隊伍,提供724365緊急服務,確保供電服務日夜無間。

技術分享圖片

圖:取自中電官網

技術分享圖片

斷電危機
眾所周知,數據中心等電信類設施對穩定電力也有著很高的依賴性,而停電正正是它們的命穴所在。

據Uptime Institute對全球1000家數據中心運營商和IT從業者進行的數據中心行業調查顯示,在2014年,25%至46%的受訪者都曾遭受斷電對業務造成影響。

簡單列舉幾個案例如:
?2014年7月5日,位於弗羅裏達的維基百科數據中心發生斷電事故,導致全球範圍宕機。
?2015年9月20日,亞馬遜AWS一個數據中心遭遇停電事故,旗下Netflix,Tinder,Airbnb等應用程序的在線服務受到了影響。
?2017年5月27日,英國航空公司從Heathrow和Gatwick起飛的所有航班,原因是機房故障導致其全球運營嚴重中斷。

技術分享圖片

數據中心應該怎麽預防?如何解決呢?
數據中心斷電預防措施

數據中心的主要功能,是為它所包含的關鍵任務應用程序提供穩定的正常運行。根據2016年Ponemon Institute的調查,UPS系統故障仍然是導致計劃外數據中心宕機的首要原因。

硬件方面

2017年Uptime Institute拉斯×××的研討會上指出,在已公開的停電事故當中,其中62%是由於IT設備服務供應商的問題。而如今“上雲”成為大家迫不及待的選擇,不僅需要信賴大品×××的能力,還要註重上雲的方式和機房的硬件設備,如:機房五大系統的保障、雙活機房,服務器、存儲等配置情況及品×××;

?嚴格按照數據中心建造標準來建設;

?嚴格按照數據中心建造標準來建設;
?選用可靠的電力系統裝置和冷卻系統裝置等;
?異地容災、異地快照、異地還願、鏡像災備的準備;
?對數據中心設備進行實時監控;
?根據專業機構建議對硬件進行合理升級。

軟件方面
軟件硬件雙劍合璧才能使服務器發揮最大穩定效用。
1、可通過DCIM管理軟件對供電系統進行智能化管理;
2、定時進行軟件備份,按照既定時間進行數據備份;
3、確保網絡安全,建立運維文檔和流程控制;

人力方面
Uptime Institute研討會上同樣指出,至少38%的斷電情況是人為導致的。那麽究竟什麽是人為因素呢?以下幾點屬於管理過失問題:
?設計妥協。數據中心一定要按照高等級標準進行數據中心建設,尤其針對供配電系統、制冷系統等關鍵基礎設施產品的應用提出嚴格要求,始終保證不妥協;
?培訓預算削減。數據中心的持續穩定運行離不開優質運維人員的全力支援,除了新員工完整的培訓流程一定要做好外,老員工的定期培訓也是十分有必要,畢竟IT知識日新月異;
?裁員。裁員就意味著數據中心沒有足夠的人員支撐運行,無論是日常維護還是緊急情況處理,這些都需要足夠又穩定的人員;
?預防性維護。管理者必須對數據中心裏的每班當值人員進行充分的緊急情況培訓,多模擬安全測試,準備好災難應急方案;
?缺乏專業機房人才。邀請專業人員或公司加入到團隊當中,加強高可用的數據中心管理體系;
?選擇成本最低的供應商。無論是自建機房還是租用托管服務器,企業都必須根據自己實際情況,選擇最好的硬件,最好的環境,最好的設備。
?定期演練

技術分享圖片

斷電解決措施
有時候即便預防措施做齊了,還是會發生斷電,這個時候,新天域互聯給大家一點建議:
?首先在場人員必須先確認停電的線路,停電時刻等信息;
?按照災難應急方案進行,第一時間通知各個相關部門;
?對數據中心裏的設備進行檢查,如服務器、UPS系統、核心系統等等;
?對數據中心進行有效的散熱處理;
?工單記錄;
?部件檢查完畢時,區分優先恢復的步驟實施,確保用電功率情況正常;
?啟動發電機,檢測發電輸出電流通斷,待發電機運行穩定,按順序啟動制冷系統、主UPS的市電輸入、客服系統、備用UPS的市電輸入;
?發電機啟動後,值班同事需將降溫系統關閉,逐一檢查所以設備是否正常;
?派專人現場值守,及時與油品供應商溝通。

山竹”臺風過後,發覺選擇數據中心沒有想象中那麽簡單了