1. 程式人生 > >數據中心運維管理必須執行的原則!

數據中心運維管理必須執行的原則!

運營 環境 額外 中心 數據中心運維 inf 成員 其他 必須

隨著數據中心設施投入及建設規模日趨擴大,面對雲計算、大數據、互聯網應用的快速發展,對於數據中心運維管理水平提出了更高的要求,數據中心基礎設施的運行與維護的難度、工作量也隨之加大。基礎設施安全、穩定的運行作為數據中心業務系統基礎環境保障顯得日益重要。但是,無論如何,降低數據中心事故、成本、能耗,提升數據中心可用性、性能、效率始終是數據中心運維管理人員的目標。
  數據中心在投入運營之前,首先需要解決的是基礎設施的運維工作,而人又是機房運維管理的核心力量,所以本節重點介紹機房運維人員的管理制度。
  (一)運維團隊管理
  機房運維人員是最接近生產設備的技術人員,在設備運行故障時,要求其沈著冷靜地第一時間趕赴現場查看故障信息,並分析故障原因,做到及時向領導匯報,因此一線運維人員必須經過嚴格的制度培訓和技術培訓,考核合格後方可上崗。另外,涉及設備操作動作,如電氣設備,必須持低壓電工和高壓電工作業證等,做到有證上崗,並且不得單獨承擔值班工作和相關的獨立操作行為。在日常值班過程中,為了保證機房運維管理的工作質量和運維團隊的管理水平,需要針對不同的運維工作開展專項運維培訓,以及相關的應急演練,培養一支技術紮實、具備實際操作能力的運維團隊。
  (二)值班管理
  機房運維過程中,要求值班人員具有認真、負責的工作態度和積極樂觀向上的工作激情,嚴格按照值班手冊執行、堅守崗位職責:加強機房巡視、對設備運行狀態(機房溫、濕度,電力運行)了然於胸,以及監視設備監控系統的運行狀態,並按規定及時上報,並在交接班時主動向接班人員口頭交接值班過程中遺留問題和註意事項。另外,值班人員必須認真、如實、詳細地填寫機房設備巡視記錄、設備監控系統運行狀態和值班過程中的交接表制作,並及時上傳工作原地,方便其他運維人員查閱。
  (三)日常運維工作安排
  值班期間,每個班組根據自身的運維內容制定運維計劃以及組內成員責任劃分,如接班前主動詢問上個班組有無遺留問題、並查看交接班表中的註意事項、機房巡視安排等等。另外,值班人員根據自己負責的運維設備,需制定月度或季度乃至年度計劃安排。如,柴油發電機作為數據中心的後備電源,除了正常每月的健康檢查外,還需要額外增加兩次帶載演練(註:演練時間除了滿足避開業務高峰期外,還需要避開用電高峰期的夏季和冬季,以免因為帶載過重發電機故障而此時市電出現波動等突發事件),以保證在市電不可用時,發電機能夠保證數據中心的正常運營。當然,運維人員日常運維過程中,所有的設備操作必須滿足雙人操作,並形成詳細地操作步驟,以文檔形式記錄下來。設備運行期間難免會出現故障,故障在第一時間得到解決後,也應該及時做好故障設備清單、備件以及故障原因和解決方案的記錄,提高整個運維團隊的後期運維經驗。
  最後,運維主管應該定期或不定期的抽查運維人員對中心運維制度執行和技術熟悉程度,並納入運維人員季度和年度的績效考核,提高整個運維團隊的運維水平。除此之外,運維主管應該根據日常運維數據報表,做到橫向和縱向的分析比對,如根據月度設備故障率,對重點設備著重關註,將潛在的故障風險消除在搖籃中,另一方面重點提高運維人員在該方面的故障解決能力,提高運維工作效率,嚴格把控運維工作質量。

數據中心運維管理必須執行的原則!