1. 程式人生 > >OpSmart如何在眾多運維平臺中脫穎而出?

OpSmart如何在眾多運維平臺中脫穎而出?

自動化 智能運維 業務系統 信息系統

OpSmart如何在各大運維平臺中脫穎而出

一、前言

現代企業的運維工作主要分兩個部分:技術與管理。技術是發現、處理故障,保障各個IT資源的正常運行;管理則時如何分配資源和人力,優化流程,盡快恢復業務的正常運轉,以及對存在的故障隱患未雨綢繆。那究竟什麽樣的運維平臺才能滿足現代企業運維工作的需求,能被稱之為自動、智能的運維平臺呢?個人認為,一個自動化的智能運維平臺需要包括以下幾點:

1. 完備的監控

所謂完備的監控,不只是針對設備細化到進程、端口的監控,而是需要以保證業務正常、穩定運轉為目標,從系統視角進行監控,並能對業務系統的各個組成部分(負載均衡、

WEB集群、中間件、數據庫)有詳細的監控和分析。一旦業務系統出現問題,可以定位到是哪個支撐服務影響了業務系統,從而針對性的處理故障,保證業務迅速恢復正常。

2. 批量運維、統一管理的工具

對於現代企業愈加龐大的IT資源規模和日益復雜的業務系統,需要運維平臺能對同類IT資源提供最簡便、統一的操作,將運維人員從安裝、部署的枯燥工作中解脫,去從事更有價值的事情。

3. 人性化的頁面呈現

在企業中,各個運維人員的工作經驗參差不齊,對於機房這類層面的運維工作,對運維水平有著較高的要求。如果能通過運維平臺對機房環境有可視化的真實呈現,將會大大減小不同水平運維人員的認知偏差,提高企業對人力資源的利用率。

4. 日誌集中分析

隨著服務器的增多,日誌的分析定位也成為一個難點和痛點。難以想象,在幾百臺服務器的海量日誌中去排查故障源,無異於大海撈針。而優秀的運維平臺,應該把日誌分析作為平臺重點,切身去考慮運維人員的工作需求,力求能自動分析得到故障相關的日誌。

二、運維平臺在各個企業中的應用現狀

隨著信息化的逐步發展,企業正在邁入網絡與應用系統的復雜程度和規模不斷擴大的時期。而此時,在面對業務需求復雜,數據量呈井噴趨勢發展的現狀,各運維平臺也遇到了相應的瓶頸。

第一個瓶頸就是如何保證系統業務整體可用?

保證系統7x24小時不間斷運行,是

IT運維的最終目標。目前的IT運維平臺,大多關註於設備級監控,而單臺設備的可用性無法反應信息系統的整體狀態,導致系統故障隱患不能及時發現,發生故障時也不能準確定位故障源,使得運維人員不得不7x24小時待命處理故障,運維工作總處於被動局面。

第二個瓶頸是怎樣提高平臺自動化程度?

面對龐雜的IT資源和日新月異的技術發展,運維人員工作量大,人手不夠,但大多運維平臺的自動化程度並不足以將運維人員從繁重的工作中解脫,甚至會出現運維“運維產品”的現象。尤其是面對缺乏統一規範的配置信息時,安裝部署工作繁瑣且技術含量低,卻又必不可少,容易使運維人員產生疲憊的心態。並且,面對統計IT資源的使用狀況這類需求時,需要多部門協調,自上而下全體動員,但效果往往並不如人意。

第三個瓶頸是對信息的采集效率和告警時效難以提高。

目前市面上運維產品中較為快速的采集效率是數據采集5分鐘、告警延遲8分鐘。但在運維工作中時間就是生命,業務中斷意味著每一秒的時間浪費都在擴大企業的損失。市面上運維產品的采集和告警效率已經無法滿足企業對運維時效的要求。

三、OpSmart如何與眾不同?

針對當下的運維痛點,OpSmart研發團隊將產品打造為一款以配置為基礎,以系統為核心,實時監視,準實時告警的高度自動化運維管理平臺。

1. OpSmart自動化運維管理平臺,結合當下迫切的運維需求,將產品關註點定位於保證業務系統的整體可用性,通過系統配置自動采集、系統架構自動分析、系統支撐服務實時監視、異常事件實時告警等一系列功能,實現了對業務系統整體可用性的監控。能通過分析系統各個支撐服務間的關聯關系,自動生成信息系統架構圖,使運維人員對業務系統配置一目了然。系統架構圖能夠準實時刷新,直觀展示系統的故障發生點,讓運維人員運維人員面對系統故障時不再盲目。

2. OpSmart以免配置或者盡量少配置為目標,實現從部署實施,到數據采集、數據分析、監視告警的全流程自動化。整個過程所需數據幾乎均由自動采集獲得,不要求運維人員手工錄入。

OpSmart基於網絡配置以及各項IT資源的配置信息,自動分析生成物理拓撲圖、系統架構圖、3D機房視圖,及時反映生產環境的配置變化和運行狀態,將運維人員從手動建模的工作中解脫,有效提升資產監控管理的效率,並實現了企業IT資源的透明、規範。

3. OpSmart研發團隊的不斷努力下,成功將數據采集時間優化到30秒以內,一旦發生異常,運維人員可在1分鐘以內收到告警,實現了秒級監視和分鐘級告警,使運維人員能夠及時發現系統、主機、網絡的狀態變化,迅速對緊急情況采取措施。

對於已發生的故障,OpSmart能自動對故障相關日誌進行切割整理、關聯分析,使運維人員迅速定位故障原因,免去從海量日誌中檢索信息的困擾。此外,OpSmart能定期生成可用率報告,展示IT資源的可用率趨勢,方便運維人員對故障隱患進行分析和預測。

四、結語

對於企業管理者,OpSmart能實時、完整、準確地展現各項IT資源的使用和運行狀況,並提供有價值的運維質量分析,實現資源配置信息、使用情況、運行狀態的透明以及運維績效透明。同時, OpSmart能幫助運維人員自動、及時、準確地掌握各項資源的配置信息、日誌信息、運行狀態,以及各個信息系統的架構和整個網絡的拓撲關系,使運維人員及時發現故障系統並迅速定位故障原因,最大程度地減輕了運維人員工作量,提升運維效率。

未來,OpSmart將不斷提升,實現IT基礎環境一鍵生成,並持續擴展平臺的深度和廣度,拓展監視維度,更細致和準確地分析業務系統架構,深化日誌、配置、運行狀態的綜合分析水平,並從自動化邁入智能化的臺階,實現更準確的異常分析和故障自愈、更智能的IT環境管理,以人和業務為中心,以快速交付、提升用戶體驗為目標,構建更加強大、智能的運維管理平臺。




本文出自 “13481989” 博客,謝絕轉載!

OpSmart如何在眾多運維平臺中脫穎而出?