1. 程式人生 > >基礎設施測試驗證——資料中心運維的起點!

基礎設施測試驗證——資料中心運維的起點!

近年來,隨著通訊、網際網路+、智慧城市的發展實施,資料中心的規模從幾百平方米的單一機房,發展到幾十萬平米的資料中心園區。其主要特點是裝置密集、耗電量極大、發熱量大,可靠性要求和安全性要求極高。

為確保資料中心建成後安全、可靠執行,測試驗證是必不可少的一部分。它是保障系統設計、安裝、功能測試、系統聯調、執行狀態與設計意圖相符合的過程,亦是設施獲得良好功能和可靠執行過程中的重要組成部分。

一個好的測試驗證不應只滿足“測試”相關的裝置功能指標,更重要的是“驗證”系統是否可以滿足執行階段的要求。運維人員也應利用測試驗證的過程,熟悉未來的管理物件,驗證裝置操作流程的正確性,增加實操和應對突發事件的經驗。

資料中心全生命週期包括需求分析、規劃設計、施工安裝、檢測驗收、運維管理。資料中心的規劃、設計、建設階段投資大、週期長,測試驗證是確保投資達到預期目標的重要把控,可以看做是資料中心建設的終點。與此同時,測試驗證也是資料中心運維的起點。一個專業和完善的測試驗證可以極大降低資料中心在執行早期的故障率,併為其生命週期的穩健執行奠定基礎。

測試驗證的核心目標

  1. 驗證資料中心是否滿足國家資料中心設計、施工與驗收相關規範的要求,是否達到資料中心的國家及行業內標準;
  2. 檢驗資料中心實際可用性。通過搭建資料中心假負載測試平臺,最大限度接近實際 IT 負載和使用環境。全方位測試裝置及整個系統在各種狀況下的工作效能及冗餘效能,並提供資料中心電力、暖通空調系統實際執行能力和容量分析資料作為高效運維的基準;
  3. 發現設計缺陷及工程隱患。使用機櫃級別的帶載模擬測試平臺技術,通過滿載線上測試,可以彌補傳統驗收手段的缺陷和盲區,及時發現和糾正工程施工錯誤;
  4. 風險認知。高效運維的保障基於模擬測試平臺,通過應急切換及運維演練,針對性進行運維流程檢驗,並通過實戰演練操作有效提升運維團隊能力。

通過模擬實際執行場景,用測試資料評價設計能耗目標(PUE/WUE)是否實現、產品質量是否達標、施工質量是否合規、執行應急流程是否有效;

通過驗證測試,檢測專案實際可用性,識別和消除關鍵基礎設施壓力測試下的故障隱患,為專案執行維護提供客觀真實的基準資料,降低專案執行風險和運維成本,提升專案執行水平和運維團隊的工作能力,保證專案建設與運維的無縫銜接。

測試驗證方法及主要測試內容

測試驗證方法
在資料中心測試驗證過程中,需要採取不同的測試方法,檢驗施工質量、裝置效能,系統聯動配合和抗故障能力等。主要測試方法包括目測法、儀表測量、帶載測試(假負載)、故障模擬測試4大類。

驗證測試主要內容
測試驗證遵循從末端到上端的原則,按照安裝檢查-功能測試-效能測試-滿載- 發熱檢查-引數比對-綜合除錯-應急演練的步驟,對資料中心進行全面的驗證測試,以此發現系統中可能存在的故障和隱患。資料中心的規模越大、相對應的裝置越多、裝置配置越複雜,需要測試驗證的內容也就越多。

下面按實施的順序來分解:

  1. IDC機房設計方案稽核
  2. 機房整體測試方案溝通,測試期間應急預案建立
  3. 機房安裝工藝檢查及維護性檢查
  4. 機房裝置功能檢測
  5. 機房裝置滿載測試
  6. 暖通系統群控測試
  7. 綜合測試驗收(故障模擬測試)
  8. 提供驗收文件,機房交接

系統綜合測試及故障模擬是測試驗證工作中的最後一個環節,也是驗證資料中心機房作為一個整體,能否滿足設計要求及執行要求的最主要手段,這個階段要求測試機構對機房的設計有深刻理解,對於執行中可能出現的故障有豐富經驗,對於應對特殊情況的回退措施有充分了解,是保證驗證效果難度最大的階段。

系統聯調及故障模擬的主要工作包括:1、驗證資料中心的各個子系統是否能在不同設計的負載下正常匹配執行;2、驗證各系統對不同動作、故障所作出的反應是否滿足設計和執行要求。

綜合測試驗收是在本次資料中心基礎設施的單項裝置或系統完成驗收後,為了檢驗資料中心作為一個整體,運作時是否能夠滿足IDC機房技術規範及驗收標準的要求,驗收團隊通過模擬資料中心正式運營可能的各種場景,來驗證整個資料中心基礎設施的可靠性。同時,在各種故障情況下,對運維過程進行檢驗和演練。

測試驗證中出現的常見問題

  1. ATS 切換時間設定為同一數值,易造成斷電重啟時衝擊電流過大,引起上級開關跳閘
  2. 裝置電纜或銅排虛接導致配電櫃發熱及電池燒燬
  3. 柴油發電機伴熱採用發電機本身電源,導致冬季不能正常啟動
  4. 室外發電機無接地,可能會導致人員傷亡
  5. Ups上端及下端採用相同開關及相同整定值,整定值應考慮充電負載及UPS效率
  6. UPS與地板之間縫隙過大,導致漏風,不利於散熱
  7. 電池開關櫃採用交流開關,造成分斷短路電流困難,引起電池爆炸。開關滅弧功能較差容易發熱燒燬
  8. 機櫃無接地,如有漏電造成人員傷亡
  9. 機櫃冷通道正面安裝機櫃門,容易造成機櫃內伺服器溫度過高,引起宕機
  10. 電纜標籤與實際不符,維護時容易誤操作,引起裝置斷電。

注:本文已獲得(富春雲資料中心)授權轉載