1. 程式人生 > >硬體運維:Dell PowerEdge RAID控制器存在一個潛在問題

硬體運維:Dell PowerEdge RAID控制器存在一個潛在問題

來自DELL的一封信件

Dell PowerEdge控制器通知

尊貴的 Dell客戶:

Dell承諾,將主動通知客戶有關從 Dell或 Dell授權經銷商處購買的產品的重要更新事宜,本電子郵件便是此承諾的具體實現。我們最近已確定,隨您的 PowerEdge RAID控制器配備的韌體中存在一個潛在問題。作為一項主動維護措施, Dell建議您使用新韌體來解決此問題。

Dell最近發現,隨您的 PowerEdge RAID控制器配備的韌體中存在一個潛在問題。在某些情況下,使用快速重建功能時,此問題可能影響重建期間的資料完整性。

Dell建議您更新至最新韌體。應用此更新將禁用快速重建選項,控制器將不再受到潛在資料完整性問題的影響。

http://dell.com/support

如果您的系統沒有使用快速重建功能,並且將來也不打算使用此選項,則無需更新。

我們致力於為您提供更豐富的資訊以增強對於 Dell系統的使用者體驗。這也使我們能夠很快向您報告這一問題,並向您提供最新更新來解決此問題。您的滿意是我們的最終目標。

謹致,

Dell科技集團

來信關鍵點分析

看完了dell給的來信通知(是真的紙質信件,難道是怕我們回忽略郵件才選擇這麼傳統的方式?),其實重點就說了一個問題,DELL的PowerEdge下的某款控制器存在bug,建議您升級陣列卡韌體

實際情況是這樣滴

看完我就想罵人,這尼瑪什麼鬼,又不直接說明到底是什麼情況,沒辦法我只能撥打了售後電話,經過電話確認,瞭解到了關鍵

  1. 本次Bug針對的是PERC 9陣列卡(DELL H730*,為啥這裡用個*,是因為只要是這個系列的都中招了 )
  2. 到底bug是啥?原文裡頭說的“是在某些情況下,使用快速重建功能時,此問題可能影響重建期間的資料完整性。”這裡說的快速重建指的並不是正常的硬碟rebuild狀態,而是copyback狀態。

延伸閱讀—Copyback狀態說明

簡單來說, copyback可以重建原來的DG設定. 當然, 他需要依賴HSP的使用, 不管是Dedicated(DHSP專用熱備)或著Global(GHSP全域性熱備). Copyback預設是自動啟用的, LSI的SSD Guard也是基於copyback去實現的.

在一個大型的storage pool建立VD應用parity RAID mode, 通常可能會搭配HSP, DHSP, PHSP(Pool HSP)或者GHSP. HSP實現在VD處於degraded的時候進行auto-rebuild, RAID controller利用parity計算, 復原當初的資料, 然後填入到HSP裡, 當這個操作完成過後, HSP便會轉成VD的一部分, 並且是online. 但是這個DG不會是與之前一樣的配置了, 而copyback啟用會允許你在bad slot上插入新盤後, 將之前被rebuild的PD上的資料copy到bad slot上的新盤, 最終這個操作完成之後, 被rebuild的PD便會重新再標記為HSP, 可以說這個標記的HSP是revertible, RHSP. 這個時候, DG的配置便會與當初的完全一模一樣, 除了HSP的重複再利用, 也方便做管理.

總結與解決方案

這裡先給Dell點個贊,主動告知客戶自身存在的問題,並告知解決方案,避免使用者資料丟失還不知道啥原因

1、此次的bug僅僅針對PERC 9陣列卡,非此型號的可以無視

2、 此次的bug僅僅是在copyback過程中小概率出現,而copyback基於熱備,所以如果你沒使用熱備盤,則大可不必擔心(如果之後將機器陣列重做後有了熱備,那得記得更具第三點來解決

3、可以通過升級陣列卡韌體來解決

H730陣列卡韌體:https://downloads.dell.com/FOLDER04175005M/1/SAS-RAID_Firmware_NH55C_WN32_25.5.2.0001_A09.EXE

升級方法請下載word文件:連結:http://pan.baidu.com/s/1cnMsiU 密碼:wlsr

原文來自微信公眾號:運維之美