1. 程式人生 > >資料中心運維管理必須執行的原則!

資料中心運維管理必須執行的原則!

  隨著資料中心設施投入及建設規模日趨擴大,面對雲端計算、大資料、網際網路應用的快速發展,對於資料中心運維管理水平提出了更高的要求,資料中心基礎設施的執行與維護的難度、工作量也隨之加大。基礎設施安全、穩定的執行作為資料中心業務系統基礎環境保障顯得日益重要。但是,無論如何,降低資料中心事故、成本、能耗,提升資料中心可用性、效能、效率始終是資料中心運維管理人員的目標。
  資料中心在投入運營之前,首先需要解決的是基礎設施的運維工作,而人又是機房運維管理的核心力量,所以本節重點介紹機房運維人員的管理制度。
  (一)運維團隊管理
  機房運維人員是最接近生產裝置的技術人員,在裝置執行故障時,要求其沉著冷靜地第一時間趕赴現場檢視故障資訊,並分析故障原因,做到及時向領導彙報,因此一線運維人員必須經過嚴格的制度培訓和技術培訓,考核合格後方可上崗。另外,涉及裝置操作動作,如電氣裝置,必須持低壓電工和高壓電工作業證等,做到有證上崗,並且不得單獨承擔值班工作和相關的獨立操作行為。在日常值班過程中,為了保證機房運維管理的工作質量和運維團隊的管理水平,需要針對不同的運維工作開展專項運維培訓,以及相關的應急演練,培養一支技術紮實、具備實際操作能力的運維團隊。
  (二)值班管理
  機房運維過程中,要求值班人員具有認真、負責的工作態度和積極樂觀向上的工作激情,嚴格按照值班手冊執行、堅守崗位職責:加強機房巡視、對裝置執行狀態(機房溫、溼度,電力執行)瞭然於胸,以及監視裝置監控系統的執行狀態,並按規定及時上報,並在交接班時主動向接班人員口頭交接值班過程中遺留問題和注意事項。另外,值班人員必須認真、如實、詳細地填寫機房裝置巡視記錄、裝置監控系統執行狀態和值班過程中的交接表製作,並及時上傳工作原地,方便其他運維人員查閱。
  (三)日常運維工作安排
  值班期間,每個班組根據自身的運維內容制定運維計劃以及組內成員責任劃分,如接班前主動詢問上個班組有無遺留問題、並檢視交接班表中的注意事項、機房巡視安排等等。另外,值班人員根據自己負責的運維裝置,需制定月度或季度乃至年度計劃安排。如,柴油發電機作為資料中心的後備電源,除了正常每月的健康檢查外,還需要額外增加兩次帶載演練(注:演練時間除了滿足避開業務高峰期外,還需要避開用電高峰期的夏季和冬季,以免因為帶載過重發電機故障而此時市電出現波動等突發事件),以保證在市電不可用時,發電機能夠保證資料中心的正常運營。當然,運維人員日常運維過程中,所有的裝置操作必須滿足雙人操作,並形成詳細地操作步驟,以文件形式記錄下來。裝置執行期間難免會出現故障,故障在第一時間得到解決後,也應該及時做好故障裝置清單、備件以及故障原因和解決方案的記錄,提高整個運維團隊的後期運維經驗。
  最後,運維主管應該定期或不定期的抽查運維人員對中心運維制度執行和技術熟悉程度,並納入運維人員季度和年度的績效考核,提高整個運維團隊的運維水平。除此之外,運維主管應該根據日常運維資料報表,做到橫向和縱向的分析比對,如根據月度裝置故障率,對重點裝置著重關注,將潛在的故障風險消除在搖籃中,另一方面重點提高運維人員在該方面的故障解決能力,提高運維工作效率,嚴格把控運維工作質量。