Linux運維常見的硬體及系統問題
一、伺服器常見故障和現象
1、有關伺服器無法啟動的主要原因 :
①市電或電源線故障(斷電或接觸不良)
②電源或電源模組故障
③記憶體故障(一般伴有報警聲)
④CPU故障(一般也會有報警聲)
⑤主機板故障
⑥其它插卡造成中斷衝突
二、伺服器無法啟動
1、檢查電源線和各種I/O接線是否連線正常。
2、檢查連線電源線後主板是否加電。
3、將伺服器設為最小配置(只接單顆cpu,最少的記憶體,只連線顯示器和鍵盤)直接短接主機板開關跳線,看看是否能夠啟動。
4、檢查電源,將所有的電源介面拔下,將電源的主機板供電口的綠線和黑線短接,看看電源是否啟動。
5、如果判斷電源正常,則需要用替換法來排除故障,替換法是在最小化配置下先由最容易替換的配件開始替換(記憶體、cpu、主機板)
三、系統頻繁重啟 ?
1、造成系統頻繁重啟的原因:
①電源故障(替換法判斷解決)
②記憶體故障(可從BIOS錯誤報告中查出)
③網路埠資料流量過大(工作壓力過大)
④軟體故障(更新或重灌作業系統解決)
四、伺服器宕機故障判斷處理:
伺服器宕機故障比較難以判斷,一般分為軟體和硬體兩個方面。
1、第一方面-軟體故障
①首先檢查作業系統的系統日誌,可以通過系統日誌來判斷部分造成宕機的原因。
②電腦病毒的原因。
③系統軟體的bug或漏洞造成的宕機,這種故障需要在判斷硬體無故障後做出,而且需要軟體提供商提供幫助。
④軟體使用不當或系統工作壓力過大,可以請客戶適當降低伺服器的工作壓力來看看是否能夠解決
2、第二方面-硬體故障
①硬體衝突
②電源故障或電源供電不足,可以通過對比計算伺服器電源所有的負載功率的值來作出判斷。
③硬碟故障(通過掃描硬碟表面來檢查是否有壞道)
④記憶體故障(可以通過主機板BIOS中的錯誤報告和作業系統的報錯資訊來判斷)
⑤主機板故障(使用替換法來判斷)
⑥CPU故障(使用替換法)
⑦板卡故障(一般是SCSI/RAID卡或其他pci裝置也有可能造成系統宕機,可用替換法判斷處理)
注意:系統宕機故障需要在處理完後需要在一段時間內進行一定壓力的拷機測試來盡一步檢查故障是否徹底解決。
五、安裝作業系統時提示找不到硬碟?
1、故障原因:
無物理硬碟裝置
硬碟線纜連線問題
沒有安裝硬碟控制器驅動或驅動不相符
六、如何獲得驅動程式?
1、使用隨機光碟製作相應驅動
七、為什麼用正確的驅動仍然無法載入硬碟控制器驅動?
1、檢視是否啟用了hostraid功能。
八、新購買的一塊硬碟,安裝到機器上之後,機器自檢無法通過?
1、將新的硬碟取下,機器是否可以自檢通過;
2、檢查新增加的硬碟的ID號是否與原來的硬碟的ID號相同,如果硬碟的ID號相同的話,自檢將無法通過。
九、如何格式化SCSI硬碟?
1、有作業系統的情況:使用磁碟管理工具格式化;
2、無作業系統的情況:在SCSI管理控制介面格式化;
3、以ADAPTEC Raid卡為例:開機-出現CTRL+A 資訊時,按CTRL+A進 入
①選中通道A
②選中SCSI UTILITY-將檢測到硬碟-選中要檢測的硬碟
③選中FORMAT可對硬碟進行全面格式化
④選中VERIFY可對硬碟進行檢測,檢查是否有壞道
注意:在格式化硬碟時不能中斷或停電,不然會損壞磁碟
十、在Aisino 系列中有RAID卡機器,當其中一個硬碟不能正常工作RAID報警,但系統能正常執行,怎麼辦?
1、用一個新硬碟,確保容量大於或等於不能正常工作的硬碟,最好用相同型號的硬碟替換即可。
2、RAID卡相關常見故障
第一類: RAID卡本身有問題
①經常表現為RAID資訊丟失,硬碟經常掉線,不能做REBUILD,開機自檢時檢測不到硬碟或時間長。
典型故障A:作完RAID1,安裝作業系統,一切正常,但第二次重啟系統時,發出報警聲,經檢查發現一塊硬碟掉線,REBUILD後,又恢復正常,但重啟後又掉線。懷疑為硬碟故障,校驗硬碟後均無問題。最後更換RAID卡,故障解決。
典型故障B:機器經常宕機,且有時候啟動速度非常慢。觀察系統日誌,發現在系統啟動時有這樣一個錯誤提示:裝置/devices/scsi/port0 在傳輸等待的時間內沒有響應。更換RAID卡後,恢復正常。
第二類: 硬碟本身問題
①表現為硬碟掉線,在RAID陣列中的狀態為DEAD,或者在作REBUILD時,作到某一進度就不能繼續
典型故障:硬碟掉線後,做REBUILD時,作到20%時出現錯誤提示無法繼續進行。在確認掉線硬碟,硬碟盒及SCSI電纜都能正常工作後,對線上硬碟進行校驗,發現有壞道,修復硬碟,重做REBUILD,恢復正常。
第三類: 硬碟盒或模組的接觸問題
①此類問題經常表現為RAID卡根本檢測不到硬碟,此類問題比較簡單,但在處理硬碟盒相關機器時,需要注意一些問題。
典型故障:RIAD卡中檢測不到硬碟,把SCSI電纜接到主機板的ULTRA160介面上,故障依舊,拔出硬碟盒(不包括硬碟盒後面的托架)更換,故障依舊,更換硬碟,還是不行。最後卸下硬碟盒後面的托架(非熱插拔部分),發現後托架上80PIN介面上的一根針彎曲,校直彎針,恢復正常。
十一、在伺服器上使用的SCSI硬碟,為什麼硬碟的ID號不能設定為7?
1、SCSI控制器中,預設將ID=7設定為硬碟控制器佔,所以硬碟的ID號不能設定為7
十二、為什麼開機自檢無法通過?
1、解決方法:
①機器切斷電源,將機箱開啟,用“COMS CLEAR”跳線的跳線帽將“COMS CLEAR”跳線的另外兩個針短接(跳線參看主機板說明書)
②機器加電,自檢,等機器自檢完閉,報CMOS已被清除,然後將機器電源關掉,把跳線復原即可
③機器重新開機
十三、實體記憶體插槽報錯
1、解決方法:
①開機-按F2進入“SETUP”-“ADVANCED”–“MEMORY CONFIGURATION” 回車-“CLEAR DIMM ERRORS” 直接回車
十四 、遠端桌面連線超出最大連線數
由於伺服器預設為允許連線數為2個,如果登陸後忘記登出,而是直接關閉遠端桌面的話,伺服器識別此次登陸還是留在伺服器端的。出現這種情況,最常見的就是重啟伺服器,但是,如果是高峰期,重啟伺服器帶來的損失是顯而易見的。那麼此時,就可以利用mstsc/console指令進行強行登陸了。開啟“執行”框,鍵入“mstsc/v:xxx.xxx.xxx.xxx(伺服器IP)/console”,即可強行登陸到遠端桌面了。
十五 、 系統埠隱患
對於伺服器來說,首要保障穩定性和安全性。因此,我們僅需保證伺服器最基本的功能即可,就像音效卡都是預設禁止的。我們並不需要太多的功能,也不需要太多的埠支援。像一些不必要,而且風險較高的埠大可封掉。而一些必要的,又有風險的埠,比如:3389、80等埠,我們可以通過修改登錄檔的方法將其設定不特殊的祕密埠,這樣伺服器埠的安全隱患就不復存在了。
十六 、IDC伺服器租用連線不上的解決方法
一、本地網路不通
首先檢查一下自己的本地網路是否連通,如果本地網路不通肯定是無法連線伺服器的,檢查本地網路的方法大家也都比較熟悉,就不再給大家詳細的介紹。
二、登入伺服器的賬號或密碼錯誤
這個是是最常見的原因,連線伺服器的時候需要登入賬號密碼,如果輸入的賬號密碼錯誤會有相應的提示。遇到這種情況,可以選擇找回密碼,或者是聯絡伺服器供應商解決,不過在這裡提醒大家,伺服器連線的賬號密碼要妥善保管。
三、沒有相應的許可權
虛擬主機和共享伺服器出現許可權不足的情況機率會大一些,如果是租用的獨立伺服器不能登入是因為這個原因,可以直接找到伺服器供應商,他們一般都有相應的解決方案,比自己解決要快的多。
四、機房的網路或伺服器的硬體出現了問題
這種情況是比較少見的,當然也是最不好解決的一種情況。如果是機房的網路或者伺服器出現了問題,那就不僅是無法登入伺服器了,就連網站也會無法正常開啟。這種情況是可以檢測的,通常是使用第三方軟體或者是用ping命令檢查,如果測試結果顯示的是超時的,就說明是伺服器硬體或者網路出現了問題,這個可以找到伺服器供應商幫助解決的,他們是提供這樣的售後服務的。
十七、LINUX停止iis佔用80埠
主機的伺服器使用的是APMServ,可是啟動的時候會提示80埠被佔用,Apache啟動失敗,提示某些程式佔用80埠,但是檢查時卻不是,這樣的情況很可能是因為機器上的IIS啟動了,所以只要關閉IIS程式Apache就可以啟動了,伺服器託管怎麼停止iis佔用80埠?
啟動IIS:
net start iisadmin (IIS的整個服務)
net start w3svc
停止IIS:
net stop iisadmin /y (會自動停止www、ftp和smtp服務)
如果用的IIS自帶FTP還可以執行
net start MSFtpsvc
命令來啟動FTP
步驟:
1.新建一個記事本,命名為IIS.txt
2.開啟IIS.txt記事本,新增如下程式碼:
@echo off
net stop iisadmin /yes
net start iisadmin
net start w3svc
3.另存為IIS.bat即可,雙擊IIS.bat就開始批處理命令。
十八、客戶無法遠端連結
先測試一下能不能遠端連線那臺伺服器,如果能,說明客戶的網路有問題;不能遠端連線,先ping一下伺服器的IP,不能ping通,就檢視此IP是否被封,沒有被封,接顯示器檢視伺服器的IP、掩碼、閘道器、DNS、防火牆、埠號、遠端連線是否開啟。如果IP能ping通,則檢視一下遠端連線是否開啟,如果配置正常,客戶不能遠端連結,可能超過了最大連線數,需要重啟清除掉連線記錄,還是不能解決,及時上級彙報,儘量減少客戶損失。
十九、伺服器丟包嚴重
檢視流量監控圖,伺服器有沒有超過峰值,有沒有被限速,有沒有IP被攻擊,然後ping問題伺服器的IP,詢問運營商流量問題,檢視是否丟包嚴重。
二十、
注 意 :
重啟伺服器的好處
一般來說,如果是正常的重啟是沒有什麼壞處,相反,對於作業系統而言反而有好處。重啟伺服器可以清除記憶體碎片,重新優化軟體呼叫級別,中斷無用的網路埠等。
1、重啟伺服器對伺服器的保養有一定的作用,釋放記憶體,緩解CPU壓力。伺服器執行時間長,會造成很多冗餘的DLL程式,導致系統執行速度較慢。系統重啟會使電腦恢復到預設載入狀態,也就是說在還未重啟時的很多應用程式程序都駐留在記憶體中,會使電腦變慢,重啟後它們就沒了。
2、還有就是有的一些對電腦的配置要重新啟動後才能生效。
3、重啟伺服器可以使有些程式可以得到更新。
重啟伺服器的危害
1、正在進行寫硬碟操作時,即硬碟燈在不停地閃動時,斷電或者強制重啟,對硬碟的傷害較大。
2、熱啟動(CTRL+ALT+DEL),對硬體上不會有損傷(軟體上有時會發生程式非法中止導致資料丟失的問題);如果是冷啟動(直接開關電源),就會對硬體尤其是硬碟造成傷害。除非無法正常關機可以考慮熱啟動。
3、重啟的突然來電會有大量電流湧入電源,反覆進行會使機器壽命大大降低,而且在硬碟正在讀寫的時候突然地斷電也非常容易引起硬碟出現壞道從而損失資料。
4.非正常重啟的危害:首先,這樣輕則會使硬碟掉資料,造成邏輯壞道,重則造成物理的壞道,損壞硬碟磁頭伺服電路。還有,這也會造成主機板的二度傷害,主機板在一通一斷當中對電路部分的衝擊是比較大的。再則也會對電源造成一定的損害。
重啟
1、有外網IP
碰到伺服器重啟,先確定伺服器的位置,如果裝置有外網IP,先長ping外網IP,找到裝置後,重啟裝置,重啟時,需要等電源燈全滅之後,停頓2-3S再開啟伺服器,如果IP顯示斷過又通了,說明重啟好了/完畢。
1、沒有外網IP
直接接顯示器重啟,因為無法在外部測試裝置的連通性,接顯示器,裝置重啟到登入介面,裝置重啟已經完成。