1. 程式人生 > >【10年運維整理】伺服器常見故障及其解決方法

【10年運維整理】伺服器常見故障及其解決方法

進入資訊時代,各種行業對資料的安全和技術要求也越來越高,,同時也遇到了各種各樣的伺服器故障問題,雖然能夠接到伺服器廠商的支援,但是往往耗時耗工(特別是有些不能夠立即判斷和解決的問題),造成了企業不必要的損失,近日小編將針對一些常見的伺服器故障現象和解決方法跟管理者分享一下,以便更好的更快的進行故障處理和排查。

01

伺服器常見故障及現象

 有關伺服器無法啟動的主要原因 :
 ①市電或電源線故障(斷電或接觸不良)
 ②電源或電源模組故障
 ③記憶體故障(一般伴有報警聲)
 ④CPU故障(一般也會有報警聲)
 ⑤主機板故障
 ⑥其它插卡造成中斷衝突

02

伺服器無法啟動

①檢查電源線和各種I/O接線是否連線正常。
②檢查連線電源線後主板是否加電。
③將伺服器設為最小配置(只接單顆cpu,最少的記憶體,只連線顯示器和鍵盤)直接短接主機板開關跳線,看看是否能夠啟動。
④檢查電源,將所有的電源介面拔下,將電源的主機板供電口的綠線和黑線短接,看看電源是否啟動。
⑤如果判斷電源正常,則需要用替換法來排除故障,替換法是在最小化配置下先由最容易替換的配件開始替換(記憶體、cpu、主機板)

03

系統頻繁重啟 

造成系統頻繁重啟的原因:
①電源故障(替換法判斷解決)
②記憶體故障(可從BIOS錯誤報告中查出)
③網路埠資料流量過大(工作壓力過大)
④軟體故障(更新或重灌作業系統解決)

04

伺服器宕機故障判斷處理

伺服器宕機故障比較難以判斷,一般分為軟體和硬體兩個方面。
1、第一方面-軟體故障
①首先檢查作業系統的系統日誌,可以通過系統日誌來判斷部分造成宕機的原因。
②電腦病毒的原因。
③系統軟體的bug或漏洞造成的宕機,這種故障需要在判斷硬體無故障後做出,而且需要軟體提供商提供幫助。
④軟體使用不當或系統工作壓力過大,可以請客戶適當降低伺服器的工作壓力來看看是否能夠解決
2、第二方面-硬體故障
①硬體衝突
②電源故障或電源供電不足,可以通過對比計算伺服器電源所有的負載功率的值來作出判斷。
③硬碟故障(通過掃描硬碟表面來檢查是否有壞道)
④記憶體故障(可以通過主機板BIOS中的錯誤報告和作業系統的報錯資訊來判斷)
⑤主機板故障(使用替換法來判斷)
⑥CPU故障(使用替換法)
⑦板卡故障(一般是SCSI/RAID卡或其他pci裝置也有可能造成系統宕機,可用替換法判斷處理)
注意:系統宕機故障需要在處理完後需要在一段時間內進行一定壓力的拷機測試來盡一步檢查故障是否徹底解決。

05

安裝作業系統時提示找不到硬碟

故障原因:
①無物理硬碟裝置
②硬碟線纜連線問題
③沒有安裝硬碟控制器驅動或驅動不相符

06

如何獲得驅動程式

使用隨機光碟製作相應驅動

07

用正確的驅動仍然無法載入硬碟控制器驅動

檢視是否啟用了hostraid功能

08

新購硬碟,安裝到機器後,機器自檢無法通過

①將新的硬碟取下,機器是否可以自檢通過;
②檢查新增加的硬碟的ID號是否與原來的硬碟的ID號相同,如果硬碟的ID號相同的話,自檢將無法通過。

09

如何格式化SCSI硬碟

 1、有作業系統的情況:使用磁碟管理工具格式化;
 2、無作業系統的情況:在SCSI管理控制介面格式化;
 3、以ADAPTEC Raid卡為例:開機-出現CTRL+A 資訊時,按CTRL+A進 入   

①選中通道A
②選中SCSI UTILITY-將檢測到硬碟-選中要檢測的硬碟
③選中FORMAT可對硬碟進行全面格式化
④選中VERIFY可對硬碟進行檢測,檢查是否有壞道
注意:在格式化硬碟時不能中斷或停電,不然會損壞磁碟

10

在Aisino 系列中有RAID卡機器,當其中一個硬碟不能正常工作RAID報警,但系統能正常執行,怎麼辦

1、用一個新硬碟,確保容量大於或等於不能正常工作的硬碟,最好用相同型號的硬碟替換即可。
2、RAID卡相關常見故障
第一類: RAID卡本身有問題
①經常表現為RAID資訊丟失,硬碟經常掉線,不能做REBUILD,開機自檢時檢測不到硬碟或時間長。
典型故障A:作完RAID1,安裝作業系統,一切正常,但第二次重啟系統時,發出報警聲,經檢查發現一塊硬碟掉線,REBUILD後,又恢復正常,但重啟後又掉線。懷疑為硬碟故障,校驗硬碟後均無問題。最後更換RAID卡,故障解決。
典型故障B:機器經常宕機,且有時候啟動速度非常慢。觀察系統日誌,發現在系統啟動時有這樣一個錯誤提示:裝置/devices/scsi/port0 在傳輸等待的時間內沒有響應。更換RAID卡後,恢復正常。


第二類: 硬碟本身問題
①表現為硬碟掉線,在RAID陣列中的狀態為DEAD,或者在作REBUILD時,作到某一進度就不能繼續
典型故障:硬碟掉線後,做REBUILD時,作到20%時出現錯誤提示無法繼續進行。在確認掉線硬碟,硬碟盒及SCSI電纜都能正常工作後,對線上硬碟進行校驗,發現有壞道,修復硬碟,重做REBUILD,恢復正常。


第三類: 硬碟盒或模組的接觸問題
①此類問題經常表現為RAID卡根本檢測不到硬碟,此類問題比較簡單,但在處理硬碟盒相關機器時,需要注意一些問題。
典型故障:RIAD卡中檢測不到硬碟,把SCSI電纜接到主機板的ULTRA160介面上,故障依舊,拔出硬碟盒(不包括硬碟盒後面的托架)更換,故障依舊,更換硬碟,還是不行。最後卸下硬碟盒後面的托架(非熱插拔部分),發現後托架上80PIN介面上的一根針彎曲,校直彎針,恢復正常。

11

在伺服器上使用的SCSI硬碟,為什麼硬碟的ID號不能設定為7

SCSI控制器中,預設將ID=7設定為硬碟控制器佔,所以硬碟的ID號不能設定為7

12

為什麼開機自檢無法通過

解決方法:
①機器切斷電源,將機箱開啟,用“COMS CLEAR”跳線的跳線帽將“COMS CLEAR”跳線的另外兩個針短接(跳線參看主機板說明書)
②機器加電,自檢,等機器自檢完閉,報CMOS已被清除,然後將機器電源關掉,把跳線復原即可
③機器重新開機

13

實體記憶體插槽報錯

 解決方法:
開機-按F2進入“SETUP”-“ADVANCED”--“MEMORY CONFIGURATION” 回車-“CLEAR DIMM ERRORS” 直接回車

來源:http://www.zrway.com/news/8322.html

關注公眾號“一鍵科技IDC”

相關推薦

10整理伺服器常見故障及其解決方法

進入資訊時代,各種行業對資料的安全和技術要求也越來越高,,同時也遇到了各種各樣的伺服器故障問題,雖然能夠接到伺服器廠商的支援,但是往往耗時耗工(特別是有些不能夠立即判斷和解決的問題),造成了企業不必要的損失,近日小編將針對一些常見的伺服器故障現象和解決方法跟管理者分享一下,以

搭建Saltstack工具

目錄 所謂Salt 開始搭建 配置接受金鑰 salt命令 YAML詳解 目標定位字串 state模組定義主機狀態 Salt採集靜態資訊之GrainsSalt @(Saltstack) *** 所謂Salt Saltstack是由thomas Hatch於2011年

企業級分布式應用服務EDAS _Dubbo商業版_微服務PaaS平臺 EDAS Serverless 創業

https 商業 創業 paas平臺 EDA 分布 http aliyun www 企業級分布式應用服務EDAS _Dubbo商業版_微服務PaaS平臺_分布式框架 - 阿裏雲https://www.aliyun.com/product/edas?source_type=y

企業級分散式應用服務EDAS _Dubbo商業版_微服務PaaS平臺 EDAS Serverless 創業

企業級分散式應用服務EDAS _Dubbo商業版_微服務PaaS平臺_分散式框架 - 阿里雲https://www.aliyun.com/product/edas?source_type=yqzb_edas_20190110 在創業公司,不懂運維的程式設計師如何兼顧公司的運維工作-雲棲社群-阿里雲https

企業輕量級自動化工具—ansible(常見的錯誤解決,免秘鑰互信,常用的模塊)

企業 輕量級 自動化 企業輕量級自動化運維工具—ansible1.ansible簡介 ansible是“Ansible is Simple IT Automation”——簡單的自動化IT工具。它可以做到自動化部署APP;自動化管理配置項;自動化的持續交付;自動化的(AWS)雲服務管理。可實

騰訊十老兵:團隊的五個“殺手鐗”

------------------------------------------------------------------------------------------------------------------------ 【轉載】51CTO部落格:http://mp.weixin.qq.

Oracle自動化課程大綱

Oracle 自動化運維 課程大綱 本課程分為初級/中級/高級 三個階段,中級開始手把手教寫腳本,實現自動化運維。 適應範圍 徒弟:具備計算機基礎即可,有經驗者,直接從中級開始。 Oracle版本:11g為主,涵蓋12c 預期效果 提供工作效率,提升競爭力。 教學周期終身學習【Oracle自動化

心得查得到資料頁面卻不顯示的解決方案

今天工作中碰到一個詭異的問題,如下圖,明明查出來是有31條資料,但是頁面上缺沒有顯示? 一開始認為是js的問題,前臺介面程式碼過濾了一遍,結果發現很簡單,沒有發現什麼問題,如下: sortOrder: 'desc', pagination: true, pageNum

理論RAID級別簡介

獨立硬碟冗餘陣列(RAID, Redundant Array of Independent Disks),舊稱廉價磁碟冗餘陣列(RAID, Redundant Array of Inexpensive Disks),簡稱硬碟陣列。由伯克利大學一位教授提出,其基本思想就是把多個相對便宜的硬碟組合起來,成為一個硬

MySQL實踐

處理 ips ble .cn upgrade 高版本 mysql查詢 兩個文件 nta 什麽是日誌 日誌(log)是一種順序記錄事件流水的文件 記錄計算機程序運行過程中發生了什麽 多種多樣的用途 幫助分析程序問題 分析服務請求的特征、流量等 判斷工作是否成功執行 等等

心得如何應對停電

運維工作中,經常會碰到停電的事情,有臨時檢修的,有消防演習的(當然最好只是演習),有故障巡檢的。。。 碰到這種情況,如何應對,才能保證辦公網路和通訊,在恢復供電以後保證正常呢? 根據個人的經驗,總結如下,供大家參考,如果有更好的辦法,請直接回復即可。 首先,停電前的準備。弄清楚停電的

Linux入門SonarQube和Jenkins的整合之路

安裝配置完sonar後就需要與專案在用的Jenkins進行集成了,Jenkins和Sonar整合的原理大概是這樣的,Jenkins在其外掛管理中心,下載sonar外掛並進行配置,與sonar關聯上。然後

Linux入門Jprofiler9 遠端監控Linux下JBoss

所謂“工欲善其事,必先利其器”,人類最大的進步就是創造和使用工具,好的工具確能起到事半工倍的作用。今天再給大家介紹一款非常實用的工具:JProfiler 監控JVM執行情況,用到的最多的就兩個JCon

筆記Git

Git分散式版本控制系統 ## 依賴安裝 yum install curl-devel expat-devel openssl-devel zlib-devel gcc perl-ExtUtils-MakeMaker ## 配置使用git倉庫的人員姓名 git config --g

筆記nginx反向代理

http{ }模組 http負載 stream{ }模組 ssh轉發 stream { upstream sshtest1 { server 192.168.1.100:22; server 192.168.1.200:22; } server {

筆記Eclipse中git外掛的使用

我這個是比較新的版本,已經集成了EGit外掛,其他版本的可以自己安裝一下: 使用Eclipse Marketplace安裝: 用Install New Software安裝 安裝源 http://mirrors.ustc.edu.cn/eclipse/e

筆記Git程式碼回滾

先用Eclipse演示一下git回滾的操作, 想知道Eclipse中git外掛的安裝和使用的,可以看一下我的另一篇文章 https://blog.csdn.net/wuguifa/article/details/86134534 從git遠端倉拉取一個專案,演

Linux入門Linux環境編譯安裝、配置Mysql

安裝說明 系統環境:CentOS-7 64位最小模式 安裝軟體:mysql-5.1.57.tar.gz 下載地址:點我去下載mysql-5.1.57 上傳位置:/usr/local/soft

Linux入門Jstatd方式遠端監控Linux下 JVM執行情況

前言 最近一個專案部署在伺服器上執行時出現了問題,經過排查發現是java記憶體溢位的問題,所以為了實時監控伺服器java記憶體的情況,需要遠端檢視伺服器上JVM記憶體的一些情況。另外伺服器系統是Cen

Linux入門JMX方式遠端監控Linux下JVM執行情況

這篇部落格以JBoss伺服器為例,介紹JMX以方式如何配置,以遠端連線伺服器,檢視JVM執行情況。其他伺服器如Tomcat等類似。 執行環境 1. 伺服器:CentOS 7(最小化安裝) i