1. 程式人生 > >EMC存儲崩潰恢復數據過程

EMC存儲崩潰恢復數據過程

數據恢復 EMC 存儲 raid

【Raid數據恢復概述】
北京某企業一臺EMC FC AX-4存儲由於存儲上的RAID5陣列故障導致存儲癱瘓,急需進行raid數據恢復。這臺存儲中搭建了一組12塊硬盤的raid5磁盤陣列,陣列中包括有2塊熱備盤。由於raid陣列中出現兩塊硬盤離線,但熱備盤中有一塊未成功激活,raid真累癱瘓,上層LUN無法正常使用,存儲崩潰,數據丟失,客戶要求上門對raid陣列進行數據恢復。

【Raid5硬盤檢測過程】

由於硬盤離線原因未知,首先由硬盤工程師對raid陣列中的所有硬盤進行物理檢測(包括掉線盤和正常磁盤)但所有磁盤均無物理故障,掉線盤也是正常的,隨後工程師使用數據恢復工具對所有磁盤進行壞道檢測,依然是正常的。

【raid陣列數據備份】

由於硬盤正常,工程師按照數據恢復流程開始對所有磁盤進行鏡像備份,在本案例中由於源磁盤的扇區大小為520字節,因此還需要使用特殊工具將所有備份的數據再做520 to 512字節的轉換(此為特殊情況,不做過多敘述)。

【分析RAID組結構】

鏡像完成後將在鏡像文件中對底層raid信息進行分析,得出raid結構後重組原raid組。工程師依次對磁盤進行分析發現該磁盤陣列中9號盤和10號盤為熱備盤(這兩塊磁盤中沒有數據),但從管理界面中查看到10盤在原raid出現硬盤離線後替換了掉線的3號硬盤,但由於raid5陣列的性質導致雖然10號盤雖然成功激活但陣列中仍然有一塊硬盤缺失,所以數據沒有同步。繼續分析其他10塊硬盤,分析數據在硬盤中分布的規律,RAID條帶的大小,以及每塊磁盤的順序。

【分析RAID組lun信息】

嘗試通過一款我們自用的RAID虛擬程序把客戶的原raid組虛擬組件起來,然後分析LUN在RAID組中的分配信息,以及LUN分配的數據塊MAP。由於底層只有一個LUN,因此只需要分析一份LUN信息就OK了。然後解釋LUN的數據MAP並導出LUN的所有數據。

【解釋ZFS文件系統並修復】

同樣使用一款自用的軟件對LUN做文件系統解釋,但是程序在對某些文件系統原文件進行解釋時出現報錯現象,工程師首先對程序進行了debug調試、隨後分析zfs文件系統,最後得出報錯的原因是元文件損壞導致解釋zfs文件系統的程序報錯。工程師手動對損壞的元文件進行修復操作,zfs文件系統就可以正常解析了,然後導出所有數據。

【數據恢復結果驗證】

客戶方工程師對所有數據進行驗證,數據恢復成功。

EMC存儲崩潰恢復數據過程