1. 程式人生 > >運維工程師總結

運維工程師總結

良好的 使用 問題解決 網站架構 集群 自動化運維 一個 事件 好的

運維工程師對一個公司來說是非常重要的崗位,它本身所覆蓋的運維職責就很重要,所以,運維對其它關聯工種必須非常了解熟悉:網絡、系統、系統開發、存儲,安全,DB等。作為一個運維工程師我認為是集合網絡、系統、開發工作於一身的“復合型人才”,就如有些公司把一些合同采購都納入了運維職責範圍,還有如IDC網絡規劃也納入運維職責。

一.運維工程師崗位職責

1、參與設計、審核、優化公司IT系統以及各應用系統的體系架構;
2、全面負責公司運維項目的系統升級、擴容需求與資源落實,配合開發需求,測試、調整運維平臺;
3、負責網絡以及服務器的網絡設置、維護和優化、網絡的安全監控、系統性能管理和優化、網絡性能管理和優化;
4、建立面向開發部門,業務部門的服務流程和服務標準;

5、負責IT運維相關流程的規劃、設計、推行、實施和持續改進;
6、響應及解決客戶的技術要求、疑問以及系統使用過程中遇到的各種問題;
7、負責日常網絡及各子系統管理維護。
8、負責設計並部署相關應用平臺,並提出平臺的實施、運行報告。
9、負責配合開發搭建測試平臺,協助開發設計、推行、實施和持續改進。
10、負責相關故障、疑難問題排查處理,編制匯總故障、問題,定期提交匯總報告。
11、負責網絡監控和應急反應,以確保網絡系統有7*24小時的持續運作能力。
12、負責日常系統維護,及監控,提供IT軟硬件方面的服務和支持,保證系統的穩定。
13、負責服務過程中問題現象和處理方案的收集撰寫,形成知識庫,並對知識庫進行維護更新;
14、及時反饋技術處理過程中的異常情況,及時向部門負責人、服務開發PM、客戶經理等相關人員報警;同時,主動協調資源推動問題解決;
15、定期對所有服務問題進行分析,並對服務效率有影響的問題提供反饋意見,提升服務支持團隊專業度;

二. 怎樣才算是一個合格的運維工程師

1、保證服務達到要求的線上標準,如99.9%;保證線上穩定,這是運維工程師的基本責職所在。
2、不斷的提升應用的可靠性與健壯性、性能優化、安全提升;這方面非常考驗主動性和創新思維。
3、網站各層面監控、統計的覆蓋度,軟件、硬件、運行狀態,能監控的都需要監控統計,避免監控死角、並能實時了解應用的運轉情況。
4、通過創新思維解決運維效率問題;目前各公司大部份運維主要工作還是依賴人工操作幹預,需要盡可能的解放雙手。

5、運維知識的積累與沈澱、文檔的完備性,運維是一個經驗性非常強的崗位,好的經驗與陷阱都需積累下來,避免重復性範錯。
6、計劃性和執行力;工作有計劃,計劃後想法設法達到目標,不找借口。
7、自動化運維;能對日常機械化工作進行提煉、設計並開發成工具、系統,能讓系統自動完成的盡量依靠系統;讓大家更多的時間用於思考、創新思維、做自已喜歡的事情。
以上只是技術上的一些層面,當然個人意識也是很重要的。

三.運維管理註意事項

1、配置管理

(1)it資產配置管理:對it資產生命周期進行管理,包括分類統計、預購、選購審核、轉移審核、報廢審核,保證配置管理正確率達標;
(2)建設案例庫:累積和提煉工程師的事件處理經驗制作成案例,並持續豐富運維案例庫供查詢,案例覆蓋已知事件的比率達標,不斷提高運維工程師工作效率;
(3)it系統配置信息管理:定期更新網絡及應用系統描述信息及技術支持信息配置,保證最新;將配置文檔上傳至服務器端,方便團隊其他運維人員進行查看和操作。

2、監控

主要包括故障監控和性能、流量、負載等狀態監控,這些監控關系到集群的健康運行,及潛在問題的及時發現與幹預;
(1)、服務故障、狀態監控:主要是對服務器自身、上層應用、關聯服務數據交互監控;例如針對前端web server,我們就可以有很多種類型的監控,像zabbix,nagios,cacti等監控程序。
(2)、其它就是集群狀態類的監控或統計,為我們合理管理調優集群提供數據參考、包括服務瓶頸、性能問題、異常流量、攻擊等問題。

3、故障管理

(1)、硬件故障問題;對於成百上千或上萬機器的N多集群,服務器死機、硬件故障概率是非常大的,幾乎每時每刻都有服務硬件問題,死機、硬盤損壞、電源、內存、交換機。針對這種情況,我們在設計網站架構時需要充分考慮到這些問題,並將其視為常態;更多的依靠應用的冗余機制來規避這種風險,給系統工程師足夠寬裕的處理時間。(如google不是號稱同時死800臺機器,服務不會受到任何影響嗎);這就是考驗運維工程師及網站架構師功能的地方了,好的設計能達到google所描述自恢復能力,如gfs,糟糕的設計那就是一臺服務器的死機可能會造成大面積服務的連鎖故障反映,直接對用戶拒絕響應。
(2)、應用故障問題;可能是某一bug被觸發、或某一性能閥值被超越、攻擊等情況不一而定,但重要的一點,是要有對這些問題的預防性措施,不能想當然,它不會出問題,如真出問題了,如何應對?這需要運維工程師平時做足功夫,包括應急響應速度、故障處理的科學性、備用方案的有效等。

4、問題管理

對事件進行統計分析,找出疑難、重復發生的事件,納入問題管理流程,分析問題產生的根本原因,確定可能解決的方案,需要修改網絡或應用系統配置時提交變更申請觸發變更管理流程。

5、安全管理

(1)、操作人員隨時監控中心設備運行狀況,發現異常情況應立即按照應急預案規程進行操作,並及時上報和詳細記錄。
(2)、未經批準,不得在機房設備上隨意編寫、修改、更換各類軟件系統及更改設備參數配置;
(3)、服務器系統的維護、增刪、配置的更改,必須按規定詳細記入相關記錄,並對各類記錄和檔案整理存檔。
(4)、機房工作人員應恪守保密制度,不得擅自泄露信息資料與數據。
(5)、嚴禁在機房計算機設備上做與工作無關的事情(如聊天、玩遊戲),對外來存儲設備(如U盤、移動硬盤等),做到先殺病毒後使用。
(6)、機房嚴禁亂拉接電源,應不定期對機房內設置的消防器材、煙霧報警、恒溫設備進行檢查,保障機房安全。

6、自動化運維

自動化:簡而言之,就是將我們日常手動進行的一些工作通過工具,系統自動來完成,解放我們的雙手及枯燥的重復性勞動,例如:沒有工具前,我們安裝系統需要一臺一臺裸機安裝,如2000臺,可能需要10人/10天,搞爛N張光盤,人力成本更大,而現在通過自動化工具,只需幾個簡單命令就能搞定、還有如機器人類程序,自動完成以往每天人工幹預的工作,使其自動完成、匯報結果,並具備一定的專家系統能力,能做一些簡單的是/非判斷、優化選擇等,這些好處非常明顯不再多說。應該說,自動化運維是運維工程師職業化的一個追求,利已利公,雖然這是一個異常艱巨的任務:不斷變更的業務、不規範化的應用設計、開發模式、網絡架構變更、IDC變更、規範變動等因素,都可能會對現有自動化系統產生影響,所以需要模塊化、接口化、變因參數化等因此,自動化相關工作,是運維工程師的核心重點工作之一,也是價值的體現。

四、總結

綜上所述,做一個好的運維工程師,除了具備良好的綜合技能水平,還要有一個負責任的工作態度,這也是優秀運維工程師具備的素質。因為對於運維工程師而言,每一次故障的發生都不是小事,很可能會影響公司線上業務的穩定性,甚至直接導致公司的經濟損失,所以我認為對待工作中發生的故障以及事件要秉著一個“小事件,大處理”的原則,將發生的故障扼殺到搖籃裏,慢慢地積累故障處理經驗,這樣當真正的大事件來臨時,我們可以采取有效的措施及時應對。除了處理好發生的故障事件,我覺得運維工程師還應具備可預見性,故障隨時可能發生,如何防患於未然,這將是對我們做好運維工作的一個考驗。古人雲:“不積跬步無以至千裏,不積小流無以成江海”運維之路就是由一次次故障事件中拼接出來的,作為其中的一份子,任重而道遠!

運維工程師總結