1. 程式人生 > >Raid磁盤陣列更換磁盤時另一塊盤離線數據恢復過程

Raid磁盤陣列更換磁盤時另一塊盤離線數據恢復過程

數據恢復 硬盤離線 v7000存儲

【故障描述】

客戶設備型號為IBM V7000(78REAFN、 2076-124)存儲,架構為P740+AIX+Sybase+V7000存儲陣列櫃,需要恢復的數據主要存放在陣列櫃上,共12塊600G容量的SAS機械硬盤(其中一塊為熱備盤)。
IBM V7000(78REAFN、 2076-124)磁盤故障,在更換磁盤數據同步到50%左右時,另一個磁盤也出現了問題,導致邏輯盤無法掛接在小型機上,業務暫時中斷。從存儲管理界面查看,兩塊硬盤顯示故障脫機,其中10號槽位故障硬盤為熱備盤,3號槽位故障硬盤情況如下圖所示:
技術分享圖片
技術分享圖片

客戶的陣列櫃中共創建了2組Mdisk,加到一個pool中,現客戶主要數據pool無法加載,其中共三個通用卷均無法掛載,具體情況如下圖所示:

技術分享圖片

【鏡像磁盤】

為防止數據恢復過程中由於誤操作對原始磁盤造成二次破壞, 使用數據恢復工具為其中的10塊磁盤做鏡像, 用PC3000給3號槽位的故障硬盤做鏡像(可能有較多壞道), 以後所有的數據恢復操作都在鏡像盤上進行, 不會對原始磁盤造成影響。

【恢復流程】

恢復方案一、對存儲進行強制上線操作
分析故障存儲中,故障硬盤的離線順序。
修復後離線的故障硬盤。
將修復的硬盤插回存儲,進行強制上線操作。
恢復方案二、解析存儲結構,恢復服務器數據
1、Mdisk分析及重組
A、根據客戶給出的部分配置信息,將硬盤按照Mdisk組分類。
B、分析每一組Mdisk中的所有硬盤,得到相關raid信息。
C、使用專業的數據恢復軟件對Mdisk進行虛擬重組。

2、 pool分析
A、對所有Mdisk進行分析,得到pool的相關信息。
B、解析pool在Mdisk上的分布情況。
3、LUN結構分析
A、分析pool中的條帶大小。
B、解析LUN位圖,分析各LUN在pool中的分布情況。
C、編寫程序提取LUN。
根據raid5的特性得知,其最大允許一塊成員盤離線,即在有一塊成員盤故障的情況下還可以正常使用。客戶存儲設備已經失效,各組Mdisk中只有一塊硬盤離線。
提取V7000存儲的日誌,通過分析日誌得到各故障硬盤的離線順序。
技術分享圖片

【數據恢復結果遷移】

對生成出的數據進行隨機抽樣檢測,數據沒有問題。在新的存儲設備上創建與原先環境一樣大小數量的LUN,將提取出的數據LUN的鏡像文件,使用dd的方式,復制到存儲上創建的LUN中,數據一切正常。本次數據恢復工作圓滿完成。

Raid磁盤陣列更換磁盤時另一塊盤離線數據恢復過程