1. 程式人生 > >智慧化運維最佳實踐-自動化

智慧化運維最佳實踐-自動化

伴隨著網際網路以及大資料時代的到來,IT資訊系統已經成為最重要的資料載體和資訊來源, IT系統在企業內部的重要性日益突出;但是隨著企業資訊化程度的提高、IT環境規模的擴大和IT環境複雜度的增加、行業內服務競爭的加劇,如何保證IT系統安全穩定執行,為業務提供可持繼性的支撐,最優化IT環境的效能,有效控制IT成本和計劃IT投資,這些都對IT系統執行維護支援以及IT服務水平提出了新的要求和挑戰。傳統的IT運維管理平臺已經不能滿足網際網路以及大資料時代運維需求,智慧化是運維管理平臺的發展方向,自動化是智慧化運維的最佳實踐。

自動化運維

在日常IT運維工作中存在大量重複的日常工作任務,這些任務有的簡單繁瑣數量大,有的嚴重依賴執行次序,有的需要等待各種條件具備之後方可執行,儘管IT運維管理的技術在不斷進步,但實際上IT運維人員並未真正解放,目前許多企業的系統開啟和關閉、系統更新升級、應急操作等絕大多數工作都是手工操作的。即便簡單的系統變更或軟體複製黏貼式的升級更新往往都需要運維人員逐一登入每臺裝置進行手工變更,雲平臺和大資料、海量裝置的情況下,工作量之大可想而知。而這樣的變更和檢查操作在IT運維中往往每天都在進行,佔用了大量的運維資源。通過智慧化運維管理平臺的自動化將幫助運維人員從簡單重複的工作中得以解放。或許IT運維的自動化實踐可以從以下幾個方面開始:

日常巡檢自動化

自動化運維

日常巡檢工作是IT部門日常運維工作中每天都要定時執行的工作,巡檢工作內容簡單但是需要重複執行。佔用了IT運維人員的大量工作時間。通過自動化巡檢可以將硬體狀態,裝置負載,系統時間,磁碟空間,線路流量,資料庫表空間使用率等進行自動巡檢,並形成符合使用者要求的巡檢報告。

故障修復自動化

自動化運維

日常監控是傳統IT運維軟體的基本功能,告警明確後,就需要進行故障處理,將故障處理分為四個階段:源頭髮現、告警確診、修復授權和故障維修。在這四個階段中源頭髮現和告警確診主要將大量的告警進行收斂,將真正需要處理的告警進行明確化找到故障的跟原因(如一個業務程序僵死或者程序宕機)。在溝通授權階段,當不能真正做到無需知會直接處理的時候,就必須進行人工干預和確認:故障維修將已經明確的故障跟原因的故障進行自動修復(例如重啟服務程序),需要人工確認的故障修復需要人員參與半自動化修復。

容災切換操作自動化

自動化運維

災備中心切換是運維工作的一個重要組成部分,以容災作業流程的方式實現容災切換流程批量自動執行;從啟動、IP切換、環境初始化、資料檔案準備到應用程式啟動和配置以及外圍系統操作進行全面的控制,在災難發生後的最短時間內實現災備切換,降低損失。並且對主備中心物理環境到軟體版本、關鍵配置檔案進行一致性檢查,確保兩個環境的一致,防止災備切換失效。

軟體分發配置自動化

自動化運維

多應用系統Bug修復與廠商對產品的定期升級,會導致頻繁的低風險變更,通過Server端發起批作業方式可自動實現大批量的軟體、配置分發與安裝部署。

通過向客戶端下發備份指令碼,備份業務資料、配置資訊、環境引數,並停止客戶端應用服務,然後批量下發新版本的安裝配置檔案、DLL檔案等,最後啟動客戶端應用服務對應用的服務狀態與相關日誌資訊進行檢查,確認軟體分發和配置工作成功完成。

文章出處:北塔軟體