《鳳凰專案》讀後感:IT運維是怎樣完美逆襲的?
前言
讀完了《鳳凰專案:一個運維的傳奇故事》,全書以小說方式敘述了一名新上任的運維 VP 比爾臨危受命,解決種種運維問題,順利完成鳳凰專案,實現業務價值,最終公司得到發展,同時也保住了IT不被拆分。
本人經過認真地拜讀,對 DevOps 體系有了更深層次的理解,本文將自己的閱讀感想和書中涉及的知識內容梳理一遍。
一、 IT運維的問題
故事的開頭,整個IT陷入一片僵局中,運維內部被海量變更需求埋沒,更加嚴重的是他們被各種突發故障所折磨。新上任的比爾如何解決這些問題呢?
二、變更視覺化
在突發故障這個問題上,以及我自己的認同,一定是由變更引起,或者說是由未被有效管理的變更引起。於是,比爾馬上對 ITIL change 流程做了梳理。
這不是流程問題,而是流程、工具與人的實現問題。再好的流程經理如果給不出一套人人愛用的工具,那麼一切都是白搭。“本來只需花 5min 的操作,卻要花1小時錄入各種欄位,那套工具根本不可用”。大道至簡,最簡單的解決方式是忽略那些細節。
管理者要看到的是變更、變更間關係、以及變更影響,看得見的變更能讓故障的恢復加速 200%。而對於一線運維人員,沒人願意被與事情本身無關的工具所束縛。
最後的解決方式是看板,將運維變更做成了看板,並且依據變更的特性區分不同的顏色,用小便貼紙貼在了牆上。
一般公司在 ITIL 上建立了完善的流程,這一點比主人公所在公司的“荒野”情形要好多了,但這裡有一個問題,我們並沒有讓所有的人都看到你有多少變更。
比爾用看板的方式,以最簡的方式解決了變更視覺化的問題。About us,我想這種方式是否適合我們,這是增加了工作量,還是加快了我們的處理速度,是否新增一個看板就行了,還是我們要繼續咱們的流程工具呢?
原來的流程工具最大的長處是保證變更質量,每一個變更步驟都要求按照規範與標準執行,變更被拆分成了細粒度,如果將其替換為看板,其結果又會如何呢?
依據公司的規模選擇合適的變更管理工具,總的目的是讓風險可控,無論是看板還是 ITIL ,或者是面對面的站會。
三、 資源約束點
資源約束點,在所有變更的路徑上都會遇到約束點,他可能是人,也可能是一個必須序列處理的節點。
在小說中,一名稱為布倫特的高階工程師成為了約束點,任何關鍵任務中他都必不可少,這其中的原因被推測為人性的安全感,他掌握了其他人不知道的配置資訊,或者他本身很強大,強大到他的工作其他人無法處理。
在運維團隊,後者存在的可能性並不高,特別是以技術為導向的團隊。除了人以外,不可見的配置管理,不完善的運維物件都將成為約束點,我的團隊中就遇到過因為防火牆的拓撲不清晰導致效率緩慢的。
如何打破約束點?激勵團隊開放與分享,打破人性弱點才是關鍵。 “每解決一個問題,我們知識庫的內容就多出一篇文章,而解決此問題的人愈加之多”,“讓服務儘可能的自助,而不是重複性的無效溝通”。
在一個開放、共享的組織中人員時間都花在刀刃上,團隊的強大才能解放個人,個人才能擁有更多成長空間
四、安全審計
書中的大型企業,安全審計部門關注著漏洞、補丁、缺陷,他們會要求運維部門無時無刻的升級、修復,之後造成一波又一波的異常故障。
除此之外,安全審計還會購買一些稀奇古怪的東西,這就是他們的 KPI,或者說他們必須這麼做。
還好,書中的安全人員和我遇到或經歷的一樣,他們也和公司發展大方向,和運維團隊站在了一起,他們不再是公司發展的阻礙,但其他公司可不會這樣吧?
五、DevOps 運維自動化
在變更視覺化、消除資源約束以及打破安全的折磨之後,比爾最後一步是運維自動化,標準化業務邏輯交付過程,通過自動化的方式開放給開發人員,在這裡有一本《持續交付》的專著供我們參考。
DevOps 是一種文化認同,如同 Automation Infrastructure 一樣,去年我們花費了大量精力在運維自動化上,但對整體效率的提升並不明顯。
到現在終於明白自動化僅僅是侷限在專業組內,同時沒有打通管理工具,也沒有任何管理邏輯,簡而言之,消耗時間的地方不在運維任務執行上,而是人與人之間的溝通(標準規範、資訊錄入、邏輯判斷等)。
六、關於三步工作法
書中的三步工作法,如此之簡單。
- 標準化
- 持續優化
- 將其轉變成一種文化
over,但又如何執行呢?書中並沒有給出答案。
七、 運維的四種工作
- 業務專案
- 運維專案
- 突發事件
- 專案轉變的變更
後記
書中運維場景、人物關係衝突都很熟悉,的確是一本好的運維小說,但可惜的是缺少操作性,只能起到“師父領進門修行在個人的用處”。其核心指導思想是“精益”,進一步挖掘,精益來源於汽車製造業——豐田模式。
我所看到的,到目前為止,整個運維領域還沒有產生最佳的運維精益實踐,而是在各種產品平臺以及技術上大比拼。
真正的運維價值是什麼?
價值流是什麼?
如何保證流動?
如何持續改善?
我想,這又回到了文化的問題,管理的問題。
原文來自微信公眾號:高效運維