1. 程式人生 > >承載IT運維成功之夢:精準運維

承載IT運維成功之夢:精準運維

已是一個星期的晚上沒睡好了,夢裡全是啪啪的聲音亂作一氣,一串串紅綠指示燈交替閃爍,我搞不清是夢還是在真實機房,只覺得一晚都在忙乎,醒來已是一身冷汗,這是自從前一段時間老闆命令7*24小時確保新業務穩定執行,經一週苦戰後,總週期性做夢,揮之不去”。這是一個有四年工作經驗的運維骨幹,也是我書的讀者,與我交流的心裡話,他快崩潰了,總是浮現老闆幽幽的眼神,鄙夷的神情暗示他“新系統上線就會崩,你們這幫吃乾飯的”。是呀,生存在這樣的環境裡,這活還有沒有辦法幹,有沒有辦法改變呢?

我們都知道,IT運維服務是對IT基礎設施(網路系統、主機系統、儲存/備份系統、終端系統、安全系統、機房動力及環境等)以及軟體應用等進行服務的。一般情況,我們運維資訊系統,資訊系統支撐企業業務,而實際情況是,業務受各種因素影響,不斷起伏變化,而沒人及時告訴我們詳情,只要求我們以不變應萬變的方式維穩,而再牛的公司資源都是有限的,如果運維缺乏一個反饋,既不符合《控制論》的思想,也很難讓運維做到有針對性,更不要說精準了,當然也別提運維的價值了。

那麼,能不能在運維過程中引入業務需求這一變數,讓運維更加精準,實現資訊系統與業務的心跳同步呢?答案顯然是肯定的。將業務需求和業務變化作為變數,主動將其反饋到運維過程中,讓運維工作以業務需求為導向、以資訊系統為物件,通過一系列措施實現資訊系統與業務的心跳同步,促進業務效率、業務效益或使用者體驗的提升。我們將這種採取新興技術提供預防性維護實現IT系統與業務精確匹配的運維方法統稱為精準運維。

精準運維及其意義

1. 什麼是精準運維?

大家都熟悉《三國演義》草船借箭的故事,諸葛亮的成功是有幾個要素的:首先他熟悉業務,其次是及時交流發現業務薄弱環節和需求,主動提出解決方案,並以意想不到的方式完成。總結起來,故事的關鍵點有熟悉業務、交流反饋、主動服務、執行實施。

精準運維是一種IT服務方法,它是要讓IT運維服務工作圍繞被服務物件的業務來展開,從而進行心跳同步式的服務,最大限度地利用資源,提升業務體驗,實現服務價值,而不僅僅是圍繞資訊系統本身(軟硬體)來服務。

因此,精準運維的理論體系架構本質上是以客戶為導向的服務體系,是以業務的心跳為基準的服務思想理念。精準運維是通過一系列方法掌握服務物件所使用資訊系統的特性、業務特點,以及該資訊系統所服務的企業業務特性,找準目標,通過業務部門及時把使用者的真實體驗反饋給運維,這樣,運維工作就能通過掌控資訊系統執行風險、執行特點、資源調配情況和業務部門反饋的意見來優化資訊系統,從而精準的預測服務要求並開展服務計劃,提供和建議使用較小的代價有效展開主動服務和快速響應服務做到資訊系統與業務心跳同步。

總結起來,精準運維的基礎是熟悉被服務物件,知己知彼,並建立風控模型(該風控模型與資訊保安風控不同,見下),其要素是主動服務與預測,其關鍵是掌握業務需求與變化;與精準運維密切相關的是業務所有者、資訊系統、環境等。同時,精準運維的行動離不開PDCA的方法。下面,我們可以看看精準運維的框架圖:

精準運維的框架模型就猶如汽車的發動機,要求油門通過不斷迴圈往復提供動力支撐。

從圖上我們可以看到,上層對下層是要求,下層對上層是支撐,影響業務的變化主要有六因素;風控模型是精準運維的定海神針;與運維工作關係密切的是業務所有者、資訊系統與環境;技術實力是運維工作的支撐。以業務目標為導向,業務所有者(操作人員、維護人員、管理人員等)以及環境在資訊系統執行過程中所面臨的作業風險、業務風險、政策風險、管理風險和安全風險,按照PDCA的方法進行風險評估、識別、規劃、執行、回顧、改進等,從而保持資訊系統與業務需求的精確匹配,達到心跳同步。

2. 精準運維的特點與意義

(1) 精準運維的特點

精準運維有別於傳統運維,概括起來,有以下五大特點:
●以客戶的業務為導向。
●服務要與業務精準同步。
●強調主動性、計劃性的服務,由救火隊變為預防與救火併舉。
●除了保障系統安全穩定可靠,更強呼叫戶體驗、效率和效益。
●更重視服務價值的實現。

(2)精準運維的意義

使運維服務過程更重視使用者體驗,促進DevOps落地
精準運維在服務過程中引入了業務需求作為控制變數,並以此為導向開展運維,充分了解了使用者業務訴求,並將使用者體驗作為最終目標,這使得運維服務過程更注重使用者體驗,擺脫了僅針對資訊系統做文章的小格局,有利於開發(軟體工程)、技術運營和質量保障(QA)之間的溝通、協作與整合,促進DevOps真正落地。

讓運維服務的價值更得以突顯,並由“人天”來衡量轉變為以其產生的價值來衡量
傳統運維往往簽訂一個固定期限的運維協議,服務的價值一般體現在多少人天、多少人年,以時間作為標尺來衡量價值。而精準運維的目標是服務給客戶帶來多少價值並得到客戶的認可,體現在精準運維不僅追求系統執行安全穩定可靠,更追求的使用者體驗、業務效率、業務效益等,這種價值觀的轉變,使服務的立意更高,目標更高、客戶的體驗更好,因而含金量也更高。換句話說,精準運維讓運維服務從低端走向高階,可以走向按專案制、目標制來簽訂合作或服務要求。

增強了運維的主動性,使運維更加有計劃性、條理性、預見性,工作不至於被動
很多時候,IT運維服務帶給人的印象似乎只是停留在“救火隊員”的角色之上。運維人員往往是等到故障已經出現或瓶頸已經產生,然後才採取應急處理措施予以恢復,這種運維方法雖然能最終排除故障,但無法規避對企業業務造成的損失。而精準運維主動關注業務需要、使用者體驗、系統執行動態和變化趨勢,並採取措施識別人機環境方面的風險並主動採取措施消除,充分體現了運維的主動性、計劃性、條理性和預見性,真正實現主動預防性運維、防患於未然,實現資訊系統與業務的心跳同步。

實現資源優化配置、提升資源利用率
IT系統於業務應用來說,有可能資源不足,也有可能資源過剩,通過精準運維的方法,不僅能解決資源不足問題,還可有效應對資源過剩的局面,將“閒置”資源充分利用起來。打個比方說,一個營銷系統每日的不超過萬條記錄的處理量,但當時設計時卻購置了配置很高的伺服器,當前的伺服器效能只利用了不到10%。通過精準運維的分析與評估,完全可以在當前的營銷系統伺服器上部署虛擬機器,作為其他資訊系統的執行環境,企業無需再購置新的伺服器,從而實現了資源的優化配置,提升資源利用率。

讓運維更加向運營靠攏,成為運營的一部分
所謂運營,是指以網站為產品營銷平臺或產品本身,為開展網路營銷而做的一系列工作總稱。精準運維不同於傳統運維,更為關注業務需求、使用者體驗,通過對運營過程中的大資料從業務角度進行精準分析,發現使用者的需求與業務環節的關聯關係,進而從應用軟體的角度進行業務模式、流程的改進與調整,讓業務更好滿足使用者需要,從而找到新的業務增長點或改進方向。從這個角度來說,精準運維讓運維比歷史上任何時候更接近運營,且已成為運營的一部分,能夠為開展網路營銷貢獻巨大的價值。

精準運維該怎麼做?

1. 精準運維的初始化—建立風控模型

瞭解運維繫統的業務特點,根據業務和系統執行情況與業務所有者一起著手建立風控模型。風控模型需要體現業務所有者(操作人員、維護人員、管理人員等)以及環境在資訊系統執行過程中所面臨的作業風險、業務風險、政策風險、管理風險和安全風險,這些資料來源於資訊系統執行資料、歷史運維資料、使用者訪談資訊及客戶體驗資訊等。通過綜合各方面資訊,結合業務,從而建立風控模型,梳理出風險清單。建立風控模型的過程也就是進行資訊系統與業務的匹配度分析過程,匹配度高的項必然風險小,匹配度低的項勢必風險高。

要素:風控模型的初步建立完成標誌是與業務所有者達成共識。

2. 精準運維日常執行之資訊採集與反饋

首先,以風控模型為基準,及時瞭解業務所有者的具體要求並將系統的情況與所有者交流,得到有價值的服務資訊;其次,可以利用自動化監控技術採集到使用者端的使用者體驗資料,如訪問網站人數、登入系統效率、頁面響應速度、訪問流量等;也可以利用大資料及最新的ELK技術的方式採集系統日常執行的業務資料、資源使用情況資料、業務執行效率日誌資料等。此外,還可以不斷與業務部門進行溝通協調,採集使用者的反饋與需求。

要素:雙方都瞭解對方的意圖,並形成共識。

3. 精準運維日常執行之預測及計劃編制

根據採集資訊進行預測與計劃的編制,所謂預測,就是對尚未發生或目前還不確切的失誤進行預先的估計和推斷,是現時對事物將要發生的結果進行探討和研究。科學預測是建立在客觀事物發展規律基礎之上的科學推斷。系統預測的實質就是充分分析、理解系統狀況發展變化的規律。用相關性、資料趨勢分析法及大資料分析技術對採集的資料進行挖掘分析,分析出業務需求與資源之間的相關性、與運維人員之間的相關性,分析出應用系統使用的歷史與未來趨勢,根據趨勢與現有資源的匹配性來實時優化系統資源和人力資源,並編制詳細的系統優化實施方案對系統進行優化。計劃即是根據預測和業務所有者要求編制的行動方案。

要素:計劃要得到所有者的認可,如需要可優化風控模型。

4. 精準運維日常執行之系統優化執行與實施

根據編制的優化實施方案精心組織實施,且與業務方充分溝通,在不影響業務的基礎上完成系統優化、應急演練、風險措施改進的實施服務工作。

要素:注意行為規範。

5. 精準運維日常執行之校驗與評估

根據實施結果與業務執行情況及對系統執行情況的採集,不斷的校驗實施效果,再進一步評估改進,通過PDCA迴圈往復直至達到系統與業務的精確匹配與心跳同步。

要素:結果要進入下一個環節,即反饋給所有者,如有必要可修改風控模型。

精準運維例項

這裡我們拿一個經典案例來說。大家最為熟悉的微信紅包,在除夕前後會產生業務高峰,大量使用者在同一時間搖紅包,瞬間產生每秒千萬級的請求,這個量級的請求如果不加以疏導處理直接到達後臺,必定會導致後端服務過載甚至崩潰。因2014年春節以後,微信紅包業務量呈現快速增長,微信後臺運維團隊預測2015年春節的業務量將爆發式增長,對系統產生巨大壓力。

為應對2015年的春節業務高峰,微信後臺運維團隊開展了一系列準備工作,首先是針對業務建立風控模型,以風控模型為基礎展開下面的工作:

事實上,按照上述步驟,微信後臺運維團隊在業務高峰期到來前完成了後臺和APP應用在微信紅包功能上的升級,硬體進行了相當規模的擴容,對系統執行環境進行了全面整改,對微信紅包模組支援人員數量進行了補充和技能提升,這對於最終系統穩定高效執行提供了有力保障。最終的結果也表明,精準運維產生了積極的效果。2015年微信發紅包,除夕搖一搖總次數110億次,峰值1400萬次/秒,8.1億次每分鐘,微信紅包收發達10.1億次!驚人數字再次讓人們好奇,2015年微信紅包方式與去年使用者與使用者之間互發紅包相比,搖紅包的方式對業務量來說是一個極大的爆發,光是除夕10:30送出的一波紅包就達到了1.2億個,已經是2014年除夕夜峰值的4800倍之巨(2014年峰值每分鐘被拆開紅包數量僅2.5W個)!
注:上述資料來源於騰訊公司已公開資訊。

我們在驚歎騰訊再次創造奇蹟的同時,仔細想想,微信搖紅包是個業務,實現這個業務的是它的資訊系統,就是說配什麼樣的員工、用什麼樣的硬體、怎樣的應用更合理,需要什麼樣的環境,這些決策都需要基於預測使用者的群體意識和需求,以此為目標導向進行大資料分析和匹配度分析,進行資源的優化配置,從而實現微信紅包業務的高效執行。

作者:李鵬,《IT運維之道》作者。