1. 程式人生 > >伺服器運維常見的故障及其解決辦法

伺服器運維常見的故障及其解決辦法

進入資訊時代,各種行業對資料的安全和技術要求也越來越高,,同時也遇到了各種各樣的伺服器故障問題,雖然能夠接到伺服器廠商的支援,但是往往耗時耗工,特別是有些不能夠立即判斷和解決的問題,造成了企業不必要的損失,下面是針對一些常見的伺服器故障現象和解決方法,以便更好的更快的進行故障處理和排查。

01

伺服器常見故障及現象

 有關伺服器無法啟動的主要原因 :
 ①市電或電源線故障(斷電或接觸不良)
 ②電源或電源模組故障
 ③記憶體故障(一般伴有報警聲)
 ④CPU故障(一般也會有報警聲)
 ⑤主機板故障
 ⑥其它插卡造成中斷衝突

02

伺服器無法啟動

①檢查電源線和各種I/O接線是否連線正常。
②檢查連線電源線後主板是否加電。
③將伺服器設為最小配置(只接單顆cpu,最少的記憶體,只連線顯示器和鍵盤)直接短接主機板開關跳線,看看是否能夠啟動。
④檢查電源,將所有的電源介面拔下,將電源的主機板供電口的綠線和黑線短接,看看電源是否啟動。
⑤如果判斷電源正常,則需要用替換法來排除故障,替換法是在最小化配置下先由最容易替換的配件開始替換(記憶體、cpu、主機板)

03

系統頻繁重啟 

造成系統頻繁重啟的原因:
①電源故障(替換法判斷解決)
②記憶體故障(可從BIOS錯誤報告中查出)
③網路埠資料流量過大(工作壓力過大)
④軟體故障(更新或重灌作業系統解決)

04

伺服器宕機故障判斷處理

伺服器宕機故障比較難以判斷,一般分為軟體和硬體兩個方面。
1、第一方面-軟體故障
①首先檢查作業系統的系統日誌,可以通過系統日誌來判斷部分造成宕機的原因。
②電腦病毒的原因。
③系統軟體的bug或漏洞造成的宕機,這種故障需要在判斷硬體無故障後做出,而且需要軟體提供商提供幫助。
④軟體使用不當或系統工作壓力過大,可以請客戶適當降低伺服器的工作壓力來看看是否能夠解決
2、第二方面-硬體故障
①硬體衝突
②電源故障或電源供電不足,可以通過對比計算伺服器電源所有的負載功率的值來作出判斷。
③硬碟故障(通過掃描硬碟表面來檢查是否有壞道)
④記憶體故障(可以通過主機板BIOS中的錯誤報告和作業系統的報錯資訊來判斷)
⑤主機板故障(使用替換法來判斷)
⑥CPU故障(使用替換法)
⑦板卡故障(一般是SCSI/RAID卡或其他pci裝置也有可能造成系統宕機,可用替換法判斷處理)
注意:系統宕機故障需要在處理完後需要在一段時間內進行一定壓力的拷機測試來盡一步檢查故障是否徹底解決。

05

安裝作業系統時提示找不到硬碟

故障原因:
①無物理硬碟裝置
②硬碟線纜連線問題
③沒有安裝硬碟控制器驅動或驅動不相符

06

如何獲得驅動程式

使用隨機光碟製作相應驅動 

07

用正確的驅動仍然無法載入硬碟控制器驅動

檢視是否啟用了hostraid功能

08

新購硬碟,安裝到機器後,機器自檢無法通過

①將新的硬碟取下,機器是否可以自檢通過;
②檢查新增加的硬碟的ID號是否與原來的硬碟的ID號相同,如果硬碟的ID號相同的話,自檢將無法通過。 

09

如何格式化SCSI硬碟

 1、有作業系統的情況:使用磁碟管理工具格式化;
 2、無作業系統的情況:在SCSI管理控制介面格式化;
 3、以ADAPTEC Raid卡為例:開機-出現CTRL+A 資訊時,按CTRL+A進 入   

①選中通道A
②選中SCSI UTILITY-將檢測到硬碟-選中要檢測的硬碟
③選中FORMAT可對硬碟進行全面格式化
④選中VERIFY可對硬碟進行檢測,檢查是否有壞道
注意:在格式化硬碟時不能中斷或停電,不然會損壞磁碟

10

在Aisino 系列中有RAID卡機器,當其中一個硬碟不能正常工作RAID報警,但系統能正常執行,怎麼辦

1、用一個新硬碟,確保容量大於或等於不能正常工作的硬碟,最好用相同型號的硬碟替換即可。
2、RAID卡相關常見故障
第一類: RAID卡本身有問題
①經常表現為RAID資訊丟失,硬碟經常掉線,不能做REBUILD,開機自檢時檢測不到硬碟或時間長。
典型故障A:作完RAID1,安裝作業系統,一切正常,但第二次重啟系統時,發出報警聲,經檢查發現一塊硬碟掉線,REBUILD後,又恢復正常,但重啟後又掉線。懷疑為硬碟故障,校驗硬碟後均無問題。最後更換RAID卡,故障解決。
典型故障B:機器經常宕機,且有時候啟動速度非常慢。觀察系統日誌,發現在系統啟動時有這樣一個錯誤提示:裝置/devices/scsi/port0 在傳輸等待的時間內沒有響應。更換RAID卡後,恢復正常。


第二類: 硬碟本身問題
①表現為硬碟掉線,在RAID陣列中的狀態為DEAD,或者在作REBUILD時,作到某一進度就不能繼續
典型故障:硬碟掉線後,做REBUILD時,作到20%時出現錯誤提示無法繼續進行。在確認掉線硬碟,硬碟盒及SCSI電纜都能正常工作後,對線上硬碟進行校驗,發現有壞道,修復硬碟,重做REBUILD,恢復正常。


第三類: 硬碟盒或模組的接觸問題
①此類問題經常表現為RAID卡根本檢測不到硬碟,此類問題比較簡單,但在處理硬碟盒相關機器時,需要注意一些問題。
典型故障:RIAD卡中檢測不到硬碟,把SCSI電纜接到主機板的ULTRA160介面上,故障依舊,拔出硬碟盒(不包括硬碟盒後面的托架)更換,故障依舊,更換硬碟,還是不行。最後卸下硬碟盒後面的托架(非熱插拔部分),發現後托架上80PIN介面上的一根針彎曲,校直彎針,恢復正常。

11

在伺服器上使用的SCSI硬碟,為什麼硬碟的ID號不能設定為7

SCSI控制器中,預設將ID=7設定為硬碟控制器佔,所以硬碟的ID號不能設定為7

12

為什麼開機自檢無法通過

解決方法:
①機器切斷電源,將機箱開啟,用“COMS CLEAR”跳線的跳線帽將“COMS CLEAR”跳線的另外兩個針短接(跳線參看主機板說明書)
②機器加電,自檢,等機器自檢完閉,報CMOS已被清除,然後將機器電源關掉,把跳線復原即可
③機器重新開機