1. 程式人生 > >CPR式的IT運維管理,我們不要!

CPR式的IT運維管理,我們不要!

it服務管理 it服務

什麽是CPR式的IT運維管理?CPR(Cardiopulmonary Resuscitation),是醫學術語“心肺復蘇”的簡稱,是指心搏驟停一旦發生,就必須立即在現場進行心肺復蘇CPR,以挽救患者的生命。


想想我們的IT運維場景,是不是也會經常出現IT運維式的CPR呢?當客戶先於我們發現運維事件時,我們的運維人員除了迅速變身為IT醫生,前往現場實施CPR式的運維處理外,剩下的就只有尷尬和忐忑了。


作為一個IT運維人,閑暇時我總是問自己:從事運維有沒有前途?

論職位,在一般企業最高級別到中層。

論收入,在任何企業肯定不會超過核心業務部門員工收入。

論壓力,出現問題永遠是運維在背鍋,因為不管什麽起因,最終的操作人員都是運維。


運維是一個要求沈下心、不斷精益求精的職業,而當下浮躁式運維非常多。

浮躁式運維有以下七個跡象:

1.數據從不備份或者很少備份。數據是企業運行的基石,備份是使自己處於不敗之地的終極武器。備份應該有計劃性,重要業務的備份應該實時備份。

2.沒有回退方案,沒有checklist就做變更。變更只存在自己的腦子裏面,不做文字記錄,沒有書面操作步驟。變更流程都是事故的積累總結,經過血的教訓總結而成。

3.CPR(COPY、PASTE、RUN)運維,從不從原理上了解。經常百度一篇攻略,復制、粘貼、運行,應用配置好就認為萬事大吉,不追求原理和細節。

4.不會寫腳本,工作不自動化。目前最熱的名字之一就是智能,每天都在做重復工作的人,遲早會被機器代替。

5.不進行系統化的學習。當今手機端的各種誘惑太多,也有許多技術幹貨。但請註意,這些幹貨都是碎片化;知識只有體系化,才能被掌握並真正發揮價值。

6.對運維工作沒有興趣。每天希望事情盡量少,最好是不做事情。

7.不鍛煉表達能力,不尋求團隊的力量。現代社會連接更加緊密和多維度,不善於和別人溝通,不讓別人認識自己,就是在放棄自我。

接下來,我們就談談如何改變這種現狀,給有同樣苦惱的運維人士支支招。

當今社會是信息化應用與社會發展深度融合的時代。傳統的信息系統架構正在向雲計算和移動互聯方向發展,ITIL、ITSS、Devops等運維管理方法和理論已非常完善,更需要我們做到“因地制宜”和“活學活用”。

無論是服務需方的信息中心,還是服務提供商,要想下好IT運維管理這盤棋,首當其沖要做好整體布局和規劃,重點考慮的內容包括:運維管理的目標、客戶需求、運維人員配置、組織架構建設、運維管理制度和流程、核心運維對象的識別、運維所需技術手段、運維資源配給等,需要建立一套環環相扣系統化的管理體系模型,並通過綜合運維管理軟件平臺進行持續執行和貫徹。

技術分享




我們舉例談談如何建立滿足普遍管理需求的管理體系和軟件平臺,以及這套體系最終能給我們的運維帶來哪些好處和幫助。
背景資料:中等信息化規模的制造型企業,運維團隊15人。

運維管理目標:建立看得見的運維管理體系,重點實現運維對象運行狀態可視化、未來運行和容量趨勢預測可視化、服務績效分析評價可視化和內部績效分析評價可視化,以此作為決策和服務持續優化的數據支撐。


運維管理原則:充分應用各項運維自動化手段,重點在運維監控/巡檢、安全監控/巡檢、資產配置管理、服務流程、運維操作審計追溯、信息系統運行和服務趨勢預測分析等方面實現自動化,使運維人員精力投入到系統優化和服務改進等方面。


運維管理體系模型:

(1)運維對象:至少包括數據中心及基礎設施、網絡、IT基礎架構、應用系統、數據、安全等六項重點保障對象。

(2)人員:重點是建立職責清晰、角色明確的運維組織,為下一步進行閉環的運維流程化管理做準備;後續,還應該考慮建立應急響應組織。

(3)管理制度和評價指標庫

管理制度和評價指標庫是整體體系的基礎,起著承上啟下的作用。管理制度,除常規制度外,還應體現人員績效、晉升、培訓等方面的內容。評價指標庫,應包括上述六項重點運維對象的運行/性能/告警、應用系統的容量趨勢、數據完整性/備份、安全態勢/漏洞/攻擊、服務過程管理、業務用戶滿意度、團隊內部績效、運維整體趨勢分析等方面的指標,並持續進行優化完善。

技術分享


(4)技術:充分利用市場上主流的商業和開源技術,逐步在運維巡檢、故障分析、資產配置管理、服務過程管理、運維操作管控、運維審計、趨勢分析等方面,實現以流程驅動的運維自動化管理。重要的技術手段包括:數據中心基礎設施監控、網絡監控、端到端的業務性能監控、數據備份狀態監控、自動化的資產配置操作管理(開源技術:Puppet、Ansible、Saltstack等)、以變更和發布為代表的服務過程管控、移動運維APP應用等。

(5)資源:指為了提升運維效率和質量所需的一切資源,包括人員、技術、工具等。在這裏,重點強調知識庫和CMDB的建設和維護。知識庫和CMDB要不要建?很多運維主管還在猶豫,在我們看來一定要有。因為這兩項包含了可供運維人員參考的知識資源和運維基礎信息,可提高運維效率。怎麽建呢?一定需要制度、專職角色(比如:知識庫管理員、資產配置經理)、技術工具配合在一起才能發揮應有的效益。

(6)過程:運維流程化管理貫穿整個管理體系,是運維部門主要的工作抓手,是運維自動化、服務規範和量化管理的基礎。在這裏,強調如下幾項流程應在日常運維過程管理中得到重點應用:

a)變更/發布流程:據統計,70%等運維事件是由變更/發布操作不當引起,多數是因為未采用變更審批流程/管控流程所致。我們所接觸到的很多客戶,認為變更流程操作復雜而不願意應用,殊不知這樣反而缺少了一道堵住變更風險的高墻。建議運維業務比較復雜的用戶,一定要使用起來,我們可以協助梳理和落地。

b)備品備件管理流程:建議存有備品備件場景的運維客戶要註意使用備件管理流程,管理重點包括備品備件的出入庫管理、庫存的統計、以及重要備件的定期可用性測試。

c)應急響應流程:應急響應流程是日常運維管理的重要組成部分,IT運維主管部門應面向數據中心、網絡、IT基礎架構、應用系統的薄弱環節,建立應急響應流程和應急預案。管理重點包括定期的應急演練、數據恢復演練、應急預案的培訓和宣貫、應急處置後的總結和回顧等。

(7)運維管理系統:管理體系建成後,一定要建設相對應的運維管理系統來貫徹上述的各項要求。系統建設的原則應以滿足現有問題的解決和需求為主,功能兼顧實用和可視化展現;後續可根據當時運維業務的變化追加功能模塊,這是一個逐步完善的過程。

技術分享



技術分享



技術分享



說了那麽多,我們的IT運維人都能從中有所感悟呢?IT運維管理是一個非常有前途的專業領域,已經受到整個IT行業的重視,IT運維管理未來的發展方向一定是自動、規範、智能、可視。作為IT運維從業人員的職業規劃,我們的建議是,與其把時間和精力花在不停的選擇上,還不如在一個領域或行業持續深耕積累。一些技術深度還不錯、協調和推進能力比較強的同學非常適合轉型管理職位,長遠的發展一樣目標是CTO、CEO,所以各位小夥伴一定要努力追求卓越,一起加油!


本文出自 “勤智數碼” 博客,請務必保留此出處http://qinzhishuma.blog.51cto.com/13226760/1967706

CPR式的IT運維管理,我們不要!