1. 程式人生 > >一次驚險的IT機房運維經歷-備用發電車方案

一次驚險的IT機房運維經歷-備用發電車方案

運維

昨天,我經歷了一次比較有風險的運維事件,因為沒有出事,所以才沒有叫事故。有一些經驗可以分享的。

在很久以前,我還是一個項目的服務經理時,跟自己老板吃飯時,老板說過一句話:經驗就是教訓。雖然我記住了這句話,但是在以後的工作中,逐漸的體會和實踐著這句話,有機會我想出一系列的故事,總結這麽多年以來的經驗。

這次事件的背景如下:
所在園區需要進行電力擴容,提前一周通知到了各個園區公司,停電時長為15小時。我們自己的機房僅僅由一組UPS電池提供臨時的電源方案,電池設計負載也就兩個小時,而且壽命到了更換的時間了。

所以只能是關閉服務器。這個機房只是一個非標的機房,公司每次在做IT投資建設時都扣的要命,天天只知道省錢,這都是為後來運維制造巨大風險。IT部門提前兩天發布了關閉服務器的通知,突然市場部提出停電期間必須要用郵件服務器,做一次重大的商務活動,而且參與這個重大商務活動的有三十個人左右。

在這個需求提出來以後,按照公司內部的企業文化,就是刀光劍影了一翻,該提供支持的部門在打太極上基本都到了一個宗師的水平。從IT上面,技術方案無非就是以下:

第一,遷移這三十人到O365,網速太慢,無法完成
第二,用雲平臺的共享郵箱,也能臨時解決問題,但是在重要的商務活動時不方便。
第三,解決電的問題

因為看到公司對面的雲基地從外面租了三臺發電車,覺得應該不停電的方案可行。用半天時間走完特批,周五下午6點時發電車到位,計劃周六停電時做切換,公司電工和發電車負責人都現場確認過細節,都認為沒有問題,切換時間也就十分鐘就夠了。

周六早六點,園區正常停電,在5點45分,所有資源到位,把機房空開一斷電,就開始切換了,接好線,發電車啟動,然後測試電壓,正常。把機房UPS和空調空開都合上了。結果,發現了報警,當時以驗難判斷以為是電力的相序問題,重新把線序調整了一下,問題依舊。空調的保護裝置提示電力的頻率不對。市電標準是220V 50HZ,現在送來的電不是這個標準,還好UPS和空調都有保護,未造成直接損失。這種排錯用了30分鐘。

確認問題原因,發電車人員決定把發電機拆掉,看看能否調頻,他們沒有測試電源頻率的設備,此時我這邊的壓力就是是否要等,電池隨時都有可能斷掉,服務器意外斷電硬件肯定壞,市場部門現在估計已經在工作中了,如果已中斷,我們公司這一單生意肯定完了,而且以後的商譽基本都不會有了。

我把現場的負責人叫到跟前,把事情的緊急程度跟他講清楚我們現在為什麽不能關機,讓他要麽修好設備,要麽給我換一臺。當時的壓力可想而知。最倒黴的是,他老板電話無人接聽,只有他老板才能調動資源。當時我的狀態就是叫天天不應,叫地地不靈。此時又過了一個小時左右。將近1個半小時過去了。

經過無數的電話後,緊急調用了一臺發電車,預計到場時間是1小時後。此時需要做一個方案,是等,還是關閉服務器和網絡設備,機房裏由於空調停止,溫度逐漸上升,同時服務器的噪音也越來越大了。我,電工,發電車負責人,發電車技術人員此時必須做一個決定。綜合多方面因素,決定拼一把。我讓電工待命,發電車人員做好所有準備,來了只需要花幾分鐘接線,我來把當前非關鍵應用全部關掉,節約電力。

然後就是等應急車到來,這一個小時,我真得不知道怎麽熬過來的,看到UPS電量都快用到一個極限了,發電車到了,只用五分鐘就接好線了,電工確認安全後,空開一關上,機房裏所有設備都正常了。

教訓是:
第一,對於初次合作的供應商,一定要提前做測試,如果周五下午發現問題,周六就不會那麽狼狽。即使所有的技術人員都說了沒有問題了,這根本不代表沒有問題。

第二,說服公司增加IT方面的投入。

第三,機房的所有隱患都是從設計上就出錯了。這是根本問題,而且改造很麻煩。

第四,供應商選擇很重要,而且供應商的專業度是要經過審查的。一堆不懂的人去做決定,結果就是這樣。

第五,選擇在哪家公司工作也很重要,不要去給那些不專業的公司做事,一是沒有人懂,另一個也沒有資源支持。

沒有出事是運氣,但人生不能靠運氣,只在踏踏實實從架構上做好設計,實施,運維,才能保平安。我經歷的公司比較多,基本上管理和實際執行都是兩張皮。看文檔和流程都寫的天花亂墜的,實際執行都是碰運氣。如果哪一天,我做一家IT外包公司,公司的規模要控制在50人左右,我會盡量提高服務質量,讓專業的人做專業的事。這個暢想一下,也別太當真。

一次驚險的IT機房運維經歷-備用發電車方案