1. 程式人生 > >數據中心運維管理的根本建議!

數據中心運維管理的根本建議!

www 機櫃 開關 相關 現在 .html 裝機 故障 最終

數據中心運維管理過程是數據中心全生命周期中最後一個階段,也是歷時最長的一個階段,數據中心運維管理也是依托於已交付的數據中心基礎設施之上。通過有效的管理,最終使數據中心得以實現服務與經濟上的目標,實現運維管理的持續性、時效性、標準性、安全性和可用性5大目標。
  然後,我們要明確運維團隊的工作職責與需要掌握的技能。
  由於數據中心的持續性特性,需要由724小時運維人員進行技術支持運維服務,運維團隊主要職責是持續保障數據中心運行相關的基礎設施系統設備穩定連續運行,並掌握數據中心各類設備的工作原理、操作方法、初步故障排查診斷的技能。
  因此,組建一支高綜合水平的運維團隊是做好數據中心運維管理工作的根本,運維團隊的建設就會變成運維管理工作中非常重要的一項工作內容。
  下面我們重點講述運維團隊的建設:
  一、運維措施
  1.人
  數據中心高精度設備、復雜的系統對運維人員技術提出了新的要求,需要人員必須掌握專業所需的技能,周期性對運維人員的日常工作規範化運維操作、應急響應、故障排查進行開展技術培訓和演練,通過演練總結經驗,完善、運維指標、運維技術標準、應急流程,提高團隊綜合應急響應能力。
  2.體系
  根據ISO9000質量管理體系標準,建立設施運行、系統巡查、數據采集、指標測試標準化等標準化記錄表單、完善設備運行管理、使運維質量管理制度化、體系化,提高運維品質,定期對運行管理制度進行經驗總結,修正歸檔、統一發布的流程標準管理方法。
  運維體系是運維的基石,根據ISO2000 IT服務管理體系建立數據中心ITSM(IT Service Management)IT服務管理流程,對各設備、系統操作流程、應急響應流程進行設計、建設,通過對運維體系的建設、提高IT運維服務質量,降低設施事件發生的頻率和影響,對運維成員流程文件輸入、輸出的理論培訓、實操培訓,使流程不“固化”,流程更清晰、責任分工更明確,考核量化,文檔規範化等。
  3.制度
  依據運維體系和指標對運維人員的工作行為和取到的工作成績進行評估,並運用評估結果為運維人員後續的工作和工作成績進行正面的引導。重點對人員的指標完成度、創新性進行觀察、挖掘引導潛在的運維潛力。在運維工作方面主要體現在運維保障上,確保服務的可用性、安全性和服務體系流程的標準化實施。通過周度、月度報表內維護量、故障量等數據進行工作量、工作效率進行評估。
  4.預警
  數據中心監控系統是現代信息化數據中心運行監控指揮控制中心平臺,通過數據采集、數據處理、數據存儲、數據展示、數據預警的方式進行對現場環境設備、網絡、溫濕度、電量、開關、設備運行狀態、壓力、能源信息進行集中化實施展示分析。根據容量計算算法對機櫃配電容量、冷卻容量、裝機量進行預警、評估、擴容優化。通過平臺數據接口二次開發將預警數據進行實施傳輸到運維人員工作通訊群等平臺,實現了運行數據信息共享化、預警信息實時化。讓溝通簡單化、避免“信息孤島”等低效率現象,降低溝通成本、提高溝通效率的成果。
  5.測試
  數據中心系統測試是運維工作中至關重要的環節。系統測試驗證是測試數據中心系統設計、安裝、功能、調試是否與設計意圖相符合的一個重要過程,是設施獲得良好功能和可靠性運行過程中的重要組成部分,一個好的測試驗證不應僅滿足“測試”相關的設備功能指標,更重要的是“驗證”系統是否可以滿足運行階段的要求。
  運維人員也應利用測試驗證的過程熟悉在管理設備的狀態和運行指標,驗證設備操作標準流程的可操作性,提高實際過程中操作和應對突發事件的運維經驗。
  二、運維計劃
  通過運維“三控、三管、一協調”措施對運維工作的運維成本、運維品質、運維效率進行目標控制,對運維安全、代維服務商、信息進行管理,對運維各技術小組運維工作的協作協調。*

數據中心運維管理的根本建議!