1. 程式人生 > >EMC 5400服務器raid陣列癱瘓數據恢復成功案例

EMC 5400服務器raid陣列癱瘓數據恢復成功案例

圖片 在服務器 ESS img 最好 陣列 c2c 排查 硬盤掉線

一、服務器數據恢復背景

北京某政府部門的一臺EMC 5400服務器由於raid陣列損壞導致服務器崩潰,急需進行服務器數據恢復,由於用戶服務器數據涉密,需要上門恢復。

二、服務器數據恢復檢測

服務器數據恢復工程師攜帶相關設備到客戶現場進行數據檢測,發現服務器癱瘓的原因是由於raid陣列中某些硬盤掉線導致的,對所有磁盤進行物理檢測後沒有發現物理故障,也沒有壞道。隨後工程師借助數據恢復軟件將故障服務器(EMC 5400)中的所有磁盤鏡像到我公司數據恢復服務平臺上,以備後期數據恢復使用。

三、EMC 5400服務器數據恢復

1、分析服務器RAID組的結構
EMC 5400服務器的LUN全部基於RAID陣列組,所以要恢復服務器數據首先需要分析服務器底層RAID信息,然後根據分析的信息重構原始的RAID組。服務器數據恢復工程師對raid陣列進行分析後發現服務器中有兩塊硬盤離線,由於6號盤和10號盤都屬於Hot Spare,但在服務器發生故障時6號Hot Spare替換了掉線的5號硬盤,10號盤因為未知原因未啟用。所以服務器雖然成功激活了6號盤的Hot Spare,但由於在RAID5磁盤陣列中仍然缺失一塊硬盤,數據沒有同步到6號硬盤中。服務器數據恢復工程師繼續分析所有其他硬盤,得出數據在硬盤中分布的規律,RAID條帶的大小,以及每塊磁盤的順序。

2、重組raid分析掉線盤順序
根據分析出來的raid信息使用自主開發的RAID虛擬程序虛擬重組故障服務器中原始raid。然後分析服務器中兩塊掉線硬盤的掉線順序。通過對服務器中所有硬盤的仔細排查發現有一塊硬盤在同一個條帶上的數據和其他硬盤明顯不一樣,因此初步判斷此硬盤可能是最先掉線的,通過自主開發的RAID校驗程序對這個條帶做校驗,發現除掉剛才分析的那塊硬盤得出的數據是最好的,因此可以明確最先掉線的硬盤了。
3、分析RAID組中的LUN信息
現已知raid信息,掉盤先後順序,接下來根據分析結果重組raid。分析LUN在RAID組中的分配信息,以及LUN分配的數據塊MAP。然後根據這些信息使用raid數據恢復程序,解釋LUN的數據MAP並導出LUN的所有數據。

四、解釋ZFS文件系統並修復

使用北亞自主開發的ZFS文件系統解釋程序對生成的LUN做文件系統解釋,解析所有文件節點及目錄結構。
部分文件目錄截圖如下:
技術分享圖片

五、EMC 5400服務器數據恢復結果

由用戶方管理員對數據進行驗證,一切數據正常、完整,本次數據恢復成功
部分文件驗證如下:
技術分享圖片
技術分享圖片

EMC 5400服務器raid陣列癱瘓數據恢復成功案例