1. 程式人生 > >磁盤陣列及MSCS的維護

磁盤陣列及MSCS的維護

raid

詳細描述本人在使用IBM磁盤陣列及MSCS的日常維護方法,並對可能出現的問題說明了解決方法。

一、 磁盤陣列的維護

基本知識

1、陣列的四種主要狀態:

。Online(在線):Cluster中有控制權的節點的陣列狀態。

。Offline(脫機):Cluster中無控制權的節點的陣列狀態,或有控制權,但處於脫機狀態。

。Critical(臨界狀態):在Cluster中,處於此狀態的陣列不允許進行切換,必須在原來有控制權的機器上對陣列進行恢復,即進行Rebuild或其它恢復操作。

。Blocked(阻塞狀態):只出現在RAID0級別中。在Cluster中,處於此狀態的陣列不允許進行切換或讀寫操作,必須在原來有控制權的機器上對陣列進行恢復。

2、磁盤的兩種主要狀態:

。Online(在線):硬盤燈為綠色或指示燈不亮(與陣列櫃型號有關)。此時陣列的狀態為Online。

。 Defunct(非在線、失效):硬盤燈為紅色。此時陣列的狀態為Offline、Critical或Blocked。

3、每次切換後,磁盤陣列都會進行一次數據的同步,此時硬盤燈出現有規則的閃爍,持續時間大概為2小時左右(與陣列容量有關)。同時仍然可以進行其它操作,但是一定不能斷電或進行熱插拔操作,否則陣列信息將丟失。

4、硬盤的Firmware版本查看:

在ServeRaid Manager的物理磁盤組中,點擊要查看硬盤,屏幕上將顯示該硬盤的的Firmware版本號。

說明:版本要求為1.09(或S96E)以上。

5、陣列卡的Firmware及Bios版本查看:

在ServeRaid Manager中,點擊要查看的控制卡,屏幕上將顯示該陣列卡的Firmware 及Bios版本號。

說明:Firmware版本應為3.70以上、 Bios版本應為4.0以上。

現象觀察

1、查看陣列櫃的前面板的狀態燈提示

一般陣列櫃中硬盤有兩個指示燈,一個為狀態燈(紅),一個為硬盤讀寫指示燈(綠)。

。若幹磁盤的綠燈不規則閃爍表示為對該盤當前有讀寫操作(此時綠燈較亮),陣列為Online狀態;

。全部磁盤的綠燈規則閃爍表示陣列作同步操作(此時綠燈較暗),陣列為Online狀態;

。磁盤的綠燈全滅表示當前無操作,陣列處於Online狀態;

。單個硬盤亮紅燈表示此盤狀態為DDD(不可用)或OffLine;

。某個硬盤綠燈及桔黃燈交替規則閃爍表示該盤正在Rebuild;

。兩個以上硬盤亮紅燈時表示陣列櫃已壞,Cluster 必然當機。

2、通過ServeRaid Manager管理工具查看

在有控制權的節點啟動ServeRaid Manager。

。控制器、邏輯盤處於OK狀態;

。構成陣列的物理硬盤處於Online狀態(如果存在Hot Spare盤,可看到本機的Hot Spare盤狀態為Hot Spare,另一節點的Hot Spare盤狀態為Ready);

。如果存在Hot Spare 硬盤,則在Hot Spare 菜單中可以找到該硬盤;

。如果某物理硬盤狀態為DDD,說明該盤已不可用,需要修復或替換;

。如果某塊物理硬盤狀態為Offline,表示該盤為脫機狀態(未損壞);

。在RAID 1、RAID 1E、RAID 5及RAID 5E 中如果某一硬盤狀態為DDD或Offline,則陣列或邏輯盤狀態為Critical,即臨界狀態;

。在RAID 0 中,如果某一硬盤狀態為DDD或Offline,則陣列或邏輯盤狀態為Blocked,即阻塞狀態,此時對硬盤不能進行任何操作,等待恢復完後,手工將Blocked 狀態設為UnBlocked狀態;

說明:無控制權的節點陣列中的磁盤狀態為Defunct(Hot Spare盤為正常)。

磁盤異常狀態處理

要求主機對磁盤陣列擁有控制權。

1、單個磁盤DDD狀態,此時禁止Cluster切換(可關閉備機)。

說明:DDD狀態並不一定表示硬盤物理故障,根據該盤的使用情況,有如下處理方法:

。該盤作為Array磁盤時,並且該節點存在Hot Spare盤 :當該盤失效時,Hot Spare 盤自動完成接管,陣列自動進入Rebuild狀態,同時該盤狀態轉為Hot Spare。如果沒有自動Rebuild,需要人工執行Rebuild 操作,完畢後,將該盤設置為Hot Spare狀態。若人工Rebuild操作失敗,可拔出此盤,隔一分鐘後再插入磁盤櫃中,重復上述操作;如果仍然失敗,說明該盤可能存在物理故障。

。該盤作為Array磁盤時,節點無Hot Spare 盤;選中該盤,按鼠標右鍵,執行Rebuild操作,若操作失敗,可拔出此盤,隔一分鐘後再插入磁盤櫃中,重復上述操作;如果仍然失敗,說明該盤存在物理故障。

。該盤為Hot Spare 盤:選中該盤,按鼠標右鍵,執行Delete Hot Spare將此盤從Hot Spare狀態刪除,再將該盤重新設置為Hot Spare(也可使用Replace and Rebuild進行)。如果操作失敗,可拔出此盤,隔一分種後再插入磁盤櫃中,重復上述操作;如果仍然失敗,說明該盤可能存在物理故障。

2、單個磁盤Offline狀態

手工設置為Online;如果不成功,先關閉備機(無控制權),再重啟主機,然後重新設置為Online;如果還不成功,將盤拔出磁盤櫃,隔一分鐘後重新插入櫃中,再次關閉備機(無控制權),再分別重新啟動主機和備機。

以下兩種情況先關掉B機,防止系統切換

3、兩個盤 Offline狀態

先將其中一個Online,所另一個作Rebuild操作,完成後重新啟動主機。

4、一個Offline,一個DDD

將Offline盤設置為 Online,對DDD盤作Rebuild操作,完成後重新啟動主機。

5、硬盤狀態為Defunct時,可按下列步驟進行恢復

。打開ServeRaid Manager。

。 選中Defunct的硬盤,按右鍵。

。使用Replace And Rebuild對硬盤數據進行重建。

。按照屏幕提示,需要先將硬盤拔出,然後再插入。

磁盤陣列異常處理

1、當陣列處於Critical時,只需在原來有控制權的機器上對故障硬盤進行Rebuild即可。

2、當陣列處於Blocked時,作如下操作:

。為了保證對陣列的恢復,先將原來沒有控制權的機器關閉。

。重新啟動有控制權的機器,此時系統提示:按F4——修正錯誤;F5 ——接收當前配置。

。按F4修正當前的錯誤,將Blocked狀態修正為Critical狀態。

。系統自動對硬盤進行Rebuild。

硬盤Rebuild時的進度顯示ServeRaid Manager中窗口底部的狀態條中

二、MSCS的維護:

MSCS的維護與陣列的維護密切相關,如果陣列工作狀態正常,則MSCS一般情況下也正常,但是如果Cluster 中的某些服務不能啟動或損壞,MSCS可能發生工作異常。

以下是日常維護操作說明:

1、首先檢查RAID的工作狀態(通過IBM ServeRaid manager檢查);

2、使用Cluster Administators查看每個服務的工作情況,所有資源應為Online;

3、如果某服務或資源處於Offline狀態時,先查明原因,然後人工設置為Online;

4、如果磁盤或磁盤陣列工作異常,可按照磁盤陣列的維護進行處理;

註意:此時陣列處於Critical狀態,應防止、禁止切換操作(采取關閉備機的辦法)。

5、如果異外斷電(所有設備全部斷電),啟動時按下列順序啟動系統:

。先啟動陣列櫃;

。陣列櫃加電後,啟動斷電前屬於控制狀態的節點;

。待完全啟動後,再啟動另外一個節點。

雙機系統中存在主域控制服務器,應先啟動主域控制服務器。

6、緊急情況下關機順序如下:

。首先關閉處於備用狀態的節點;

。再關閉處於控制狀態的節點;

。最後關閉磁盤陣列。

原則上陣列櫃不能掉電,特別是正在對進行陣列的讀寫操作時。

7、在特殊情況下,Cluster可能不能啟動,一般情況下可能該節點對磁盤陣列無控制權,此時在命令行方式下執行ipshahto.exe文件,強行取得控制權。

此步驟建議在由技術人員指導下進行。

8、當硬盤正在Rebuild時,不允許切換;正在同步時,盡量不要切換;

磁盤陣列及MSCS的維護