1. 程式人生 > >服務器raid常見故障分析 附數據恢復方案

服務器raid常見故障分析 附數據恢復方案

服務器 raid 磁盤陣列 故障 數據恢復

Raid磁盤陣列是一種將多塊物理硬盤整合成一個虛擬存儲的技術,raid模塊相當於一個存儲管理中間層,上層接收並執行操作系統及文件系統的數據讀寫指令,下層管理數據在各個物理硬盤上的存儲及讀寫,相對於單獨的物理硬盤,raid可以為用戶提供更大的獨立存儲空間,更快的讀寫速度,更高的數據存儲安全及更方便的統一管理模式。Raid磁盤陣列的正常運轉是保障服務器中數據正常讀寫的關鍵所在。

服務器raid損壞的常見特征:

1.Raid磁盤陣列中有多快物理硬盤指示燈報警。
2.磁盤陣列中顯示多塊硬盤呈離線狀態或丟失狀態
3.Raid信息丟失、所有物理硬盤不再是online狀態
4.無法進入raid管理界面或查看raid相關信息時死機。

磁盤陣列出現故障的可能原因分析:

1.磁盤陣列中的單塊硬盤出現物理故障,可能導致服務器內數據出現一定損壞。
2.Raid數據傳輸通道不暢或者數據傳輸模塊老化,可能導致服務器內數據出現不一致情況。
3.因服務器系統更新、重啟或服務器意外斷電導致raid信息丟失或raid模塊損壞。這種情況下可能導致服務器數據受到一定破壞。
4.Raid模塊升級或重裝系統導致raid信息丟失或被重新創建,可能導致服務器數據受到嚴重破壞。
5.錯誤插拔磁盤陣列中的物理硬盤或者強制硬盤online/rebuild/frombyte可能導致服務器數據遭到完全損壞。

數據恢復解決方案:

首先將磁盤陣列中所有運行狀態良好的非熱備盤完整備份到帶有冗余功能的安全存儲中,對於存在物理故障的硬盤必須首先按照相應故障類型的解決方案進行恢復,然後盡最大可能將故障物理硬盤中的數據同樣備份至安全存儲中。
然後對完整備份的所有硬盤鏡像進行分析,確定故障raid的原結構參數,(raid級別、條帶塊大小、硬盤盤序、數據校驗方式frombyte等),同時判斷故障raid中各硬盤的離線情況。
根據分析所得的raid參數及硬盤離線情況在只讀環境中構建raid數據,並對所構建的虛擬raid進行基本的邏輯校驗,確定文件系統大體結構無誤後將raid陣列生成完整鏡像。
最後對備份生成的raid鏡像進行完整的邏輯分析和校驗,若文件系統仍存在不一致的情況則依據相應文件系統損壞情況的解決方案記性修復,直至遷移出所需數據。

Raid磁盤陣列故障後數據保護建議:

1.切忌使硬盤再次受到磕碰,服務器中任何一塊硬盤對於數據恢復來說都非常重要,如果關鍵硬盤出現嚴重物理損壞,數據恢復工作將變的異常艱難甚至無法完成。
2.切忌重新創建raid或者強制online/rebuild,若服務器中有提早離線硬盤或上線同步選擇錯誤,此時的數據恢復工作將異常艱難甚至無法完成。
3.切忌非專業人士對故障存儲的主要模塊進行拆卸、更換等操作,不當的操作會對服務器內部的數據造成嚴重影響,甚至永久性的破壞服務器數據。

服務器raid常見故障分析 附數據恢復方案