1. 程式人生 > >硬盤物理故障開盤+RAID-5陣列癱瘓恢復數據過程

硬盤物理故障開盤+RAID-5陣列癱瘓恢復數據過程

數據恢復 硬盤故障 開盤 raid陣列

服務器數據恢復故障描述

服 務 器 型 號:HP P2000
服務器操作系統:VMWARE ESX
服務器文件系統:VMFS
磁盤陣 列 級 別:RAID-5
需要進行數據恢復的服務器掛載了8塊硬盤組成RAID-5磁盤陣列,其中4號盤是熱備盤,服務器在正常運行中兩塊硬盤亮×××故障燈,經用戶方維護人員檢測,故障硬盤應為物理故障,表現為:序列號無法讀取,在SAS擴展卡上硬盤無法識別。需要對raid磁盤陣列進行數據恢復
**

硬盤物理故障修復

由於服務器故障情況嚴重,需要首先確定該組raid陣列的磁盤掉線原因,工程師在接到用戶服務器後優先處理raid陣列中的兩塊掉線盤,將壞盤連接到外部的SAS擴展卡上加電檢測,磁頭不尋道,工程師將PCB分離、檢查硬盤HDA組件發現有部分氧化,進行清潔操作後再次加電檢查依然無法尋道。於是工程師進行十分復雜的修盤工作(無塵室禁止拍照修盤過程無圖)

由於熱備盤是正常硬盤,可以作為備件盤使用。於是硬件工程師將備件盤(也就是raid陣列中的4號盤)開盤拆取PCB安裝到故障盤上替換故障盤的PCB進行修復,再將故障盤PCB上的ROM芯片拆取替換到新PCB上。硬盤硬件修復完成後再次對故障硬盤進行檢測可以正常起轉,磁頭尋道聲音正常,但是敲盤聲音明顯。由於4號盤的磁頭與故障盤並不匹配,在另找配件後進行更換磁頭操作,硬盤可以正常識別,故障盤數據鏡像成功。
**

重組RAID-5磁盤陣列

使用數據恢復工具打開7塊磁盤發現所有硬盤的的0扇區都有“55 AA”標誌,0x01C2H處表示該分區的類型,這裏顯示“05”,代表這是一個擴展分區。因此從0扇區看這是一個不正常的MBR分區結構。

按照這一方法繼續查找,分別在7號盤和8號盤找到了“55 AA”的標誌。8號盤查詢結果如下。這是一個正常的MBR分區,其0x01C6處數值代表指向的下一個扇區為GPT的頭部。
圖1技術分享圖片

7號盤查詢結果如下。其0x01C6處數值代表指向下一個扇區。但是下一個扇區很明顯不是GPT的頭部。
圖2技術分享圖片

由此可以確定8號盤是第一塊盤,7號盤可能是最後一塊盤。GPT分區所在扇區起始於172032扇區,因此初步確定LUN的起始扇區是172032扇區。
知識補課:條帶也就是raid陣列塊,它是RAID處理數據的基本單元。不同的RAID陣列的條帶大小也各不相同。RAID-5的1個條帶組中有1個校驗區,根據這個規律可以對該raid-5陣列進行分析,也可以通過比較法確定條帶大小。如某一條帶組中的校驗區跟這一條帶組中的非校驗區可能相差的很明顯,通過WinHex查看並做對比,就可以找到條帶大小。工程師對該服務器raid陣列分析得出條帶大小為1024個扇區。

按照1024扇區分割,使一個記錄為一個條帶的大小,如圖5所示。並且7塊盤跳到同一記錄283123。
圖3技術分享圖片

當7塊盤都定位到同一位置時,通過對比可以判斷校驗區的走向,繼而判斷整個RAID-5的走向。之前已經判斷出8號盤是第一塊盤了,把8號盤放在第一個位置,確定RAID-5為左走向,盤序為8,2,3,4,1,7,5。
圖4技術分享圖片

工程師初步確定了LUN的起始扇區是172032扇區。使用數據恢復工具跳到172032扇區對硬盤的使用情況進行觀察,正常情況下這個扇區所屬條帶中的5號盤應該是校驗區,但實際情況中卻顯示校驗區為8號盤,根據該raid左走向的規律,5號盤的校驗區應該在172032-1024=171008扇區,即上一個條帶。跳轉到171008扇區,發現校驗區為5號盤。因此可以確定LUN的起始扇區為171008扇區。
使用數據恢復工具按照確定的盤序重組raid添加進去,如圖所示。選擇RAID-5,Stripe size 512KB,左異步。
圖5技術分享圖片

點擊Build進行重組。組好後,由於數據從1024*8=8192個扇區開始,若專業恢復工具沒有跳轉到此扇區的功能,那麽剛組好的RAID必須和一個文件再進行一次Build重組操作。RAID的起始扇區(Start sectors)選擇8192,這個文件可以任意選擇起始扇區和大小大小(Count sectors),下圖為重組後的raid5磁盤陣列。
圖6技術分享圖片
**

服務器數據恢復結果

RAID-5磁盤陣列重建完成經由客戶驗證,驗證通過,服務器數據恢復成功。

硬盤物理故障開盤+RAID-5陣列癱瘓恢復數據過程