1. 程式人生 > >運維必備規章制度:故障分級和處罰規範

運維必備規章制度:故障分級和處罰規範

作者簡介

《海量運維、運營規劃之道》一書作者,關於海量運維、運營規劃,我想業界都沒有準確的定義,假如說網際網路的架構師用能否設計多高的摩天大樓來衡量架構能力,那運維、運營更多的是在關注網際網路服務的質量、效率、成本、故障、瓶頸,使用者的忍耐、抱怨等問題。

在接下來的日子裡,將以質量、效率、成本為核心,從運營規劃、管理、流程/規範、系統/平臺,監控、告警、安全、優化、考核等幾個維度結合案例來與大家分享自己的體會,內容大致如下所示。

編者按:一個好的制度是可操作可執行的,不是高高掛起的。每個公司情況不同,制度需要定期根據公司自身情況進行適當修改,以下文章算是一個制度的模板,僅供參考,要想使用肯定還需要修改。

正文

網際網路產品提供7*24小時服務,而因人為操作、程式BUG等原因導致服務不可用是影響服務持續執行的重要原因,為了提高各業務產品的運維和運營質量,規範各業務線的服務、故障響應,擬定和釋出“故障分級和處罰規範”是非常必要的。

故障分級標準

運營故障中,對非不可抗力所造成的故障歸類為“故障”,對於故障將追究故障的分級,故障責任人,及故障處理結果。下面將就各類故障級別進行定義說明,由於故障可能在多方面體現影響,所以故障的綜合等級評定原則,取各個方面中嚴重等級最高者為該故障綜合嚴重等級,故障分級如下所示。

故障分級表

故障分類 等級 業務故障描述
業務可用類 一級故障 業務中斷8小時以上
二級故障 業務中斷2-8小時
三級故障 業務中斷1-2小時,業務核心功能無法使用
四級故障 業務中斷1小時以下,業務核心功能受到影響
五級故障 業務中斷1小時以下,業務次要功能無法使用
業務安全類 一級故障 系統入侵:核心業務受到入侵,核心使用者資料等受到入侵,或者系統檔案給惡意竄改,容易引發入侵擴散;
頁面竄改:入口網站首頁給非法竄改內容、內容涉及危害性極大的;
CGI漏洞:已經引起大面積使用者討論、傳播和以之侵害公司品牌利益,或者造成直接經濟損失的
二級故障 系統入侵:核心業務受到入侵,未危及重要資料,僅造成擴散隱患但是並未發現有以外的機器系統受入侵的;
頁面竄改:業務頁面給非法竄改內容、或者小惡作劇;
CGI漏洞:由外部發現但還沒有造成重大危機或者造成經濟利益損失的
三級故障 系統入侵:核心業務存在高危埠或者系統漏洞
CGI漏洞:由內部發現但還沒有造成重大危機或者造成經濟利益損失的核心繫統漏洞
四級故障 系統入侵:非核心業務存在高危埠或者系統漏洞
CGI漏洞:由內部發現但還沒有造成重大危機或者造成經濟利益損失的普通系統漏洞
五級故障 隱患:自身有漏洞,但無重大後果

故障獎懲制度

運營故障處理評定是根據相關責任人對故障的響應、處理、完成結果等因素來對故障的處理情況進行綜合評定,部門內會依據這個評定來對故障處罰等級進行調整。該評定只用於由部門內決定的故障處罰分級,公司的處罰條例不受此約束。符合下面條件者,可以對故障處罰等級進行適當降級,具體所降等級由部門領導決定,故障升級制如下所示。

故障升級制度表

評定項 降級標準 升級標準
響應時間 第一時間響應,包括故障的通知,處理,善後等事宜 相關人員一再催促下,責任人仍沒有及時對故障進行處理
準備度 對故障發生的原因已有充分的預防機制 對已有發生的問題,或低階錯誤沒有進行預防或規避
處理態度與能力 在最快時間內處理故障,並積極配合其他相關人員的故障處理工作;遇到技術問題積極尋求解決辦法和資源支援; 對故障不重視,態度怠慢,敷衍;或沒有足夠技能進行故障處理
處理結果 系統在最短時間內完全恢復正常運作,故障影響降到最低 故障沒有完全解決;或由於處理過程不及時不妥善導致故障影響(範圍,金額,投訴量,惡性輿論等)有所擴大
後續措施 對故障發生的原因進行總結,制定同類故障的預防規避措施 拒絕對故障原因(除不可抗力因素以外)進行總結和制定預防/規避措施

對於所出現的各級運營故障,如果運營故障的主要原因由人為工作疏忽/失誤所導致,參照以下處罰標準對個人和專案組進行相關懲處,任何運營故障,要及時通報相關領導或相關處理人員,對於延報、瞞報故障者,將從嚴處罰,故障分級及處罰如下所示。

故障分級表

等級 個人處罰
一級故障 以公司級故障處罰為準(全公司通報,甚至開除)
二級故障 以公司級故障處罰為準(全公司通報,甚至開除)
三級故障 全產品線以及相關小組通報批評,處以2000元罰款
四級故障 全產品線以及相關小組通報批評,處以1000元罰款
五級故障 全產品線以及相關小組通報批評