1. 程式人生 > >01-運維監控

01-運維監控

行存儲 網絡 業務 高級運維 運行 每天 tro 常規統計 提交

1、監控的重要性

聽聞前輩所說,在監控不發達的時代,出行基本靠走,安全基本靠狗,那個時候沒有自動化監控的概念,都是人工盯著機器,進行輪班;每天上班第一件事情就是去巡視一下,看看各項軟件打印的信息是否有異常,順便拿Execl記錄一下。

現在如今的企業中,運維就要負責成百上千臺的機器,傳統的方式依然不行,沒有高大上的方法是支持不起這種規模的監控,服務器隨時隨地可能出庫長,需要通過監控來讓機器來管理監控機器;不管是虛擬機還是物理機等等,當然有時候先上服務的運行,網絡設備,業務狀況以及用戶體驗也需要監控。

監控在企業中扮演著重要的監督角色是我們的眼睛,任何一個地方出現問題我們都需要及時知道確認情況,很多情況下我們對某些類型的監控需要非常敏感,例如用戶地區是否正常訪問等,一旦出現了問題,我們就需要通過監控確認問題,甚至通過監控觸發後續操作來解決問題,減少損失。

監控是整個運維乃至整個產品生命周期中最重要的一環,事前及時預警發現故障,事後提供詳實的數據用於追查定位問題,所以監控的重要性就不言而喻了。

2、監控對於運維的比重

基礎運維主要扮演處理日常任務,及時救火這樣的角色,而監控的構建以及數據采集工作,很多時候都需要多方的協助;不管是基礎運維還是高級運維亦或者運維架構師,在緊急的時候人人都要扮演救火英雄的角色,而救火為了更加精確及時發現問題,一套好的完善的監控系統就很自然的作為運維工作中的第一優先級任務。

3、監控組成部分

監控組成部分首先就需要確定數據源,數據不是憑空而來的,只能是通過運維采集而來;數據采集本身是一門學問,比如有針對系統的常規統計,還有針對業務的用戶分析流量分析,同時還有安全策略,CC安全等等。

一般常見的數據源流程如下:

服務器/網絡設配/用戶數據 ---> 產生行為和狀態 ---> 數據采集 ---> 監控系統

除了數據源監控系統的組成,監控系統一般包含:數據存儲,查詢分析,事件觸發(報警),數據展示

數據存儲:存儲采集工具采集而來的數據,一般存儲形式多為關系型數據庫存儲,以及時序行存儲;通常一般數據存儲根據采集量定相關的容量指標;

查詢分析:有了數據我們就需要對數據進行分析,會對數據做多維聚合等,後續再介紹監控系統時在詳細說明;

事件出發:一般事件出發主要使用在兩方面一個是報警(發送郵件,語音網關,釘釘等);而另外一種則是根據現有系統規則,叫時間提交給機器人做出修復工作;比如我們發現流量高峰MySQL連接池不夠使用,通過機器人迅速給MySQL擴容當前合適的配置;

數據展示:通過圖表,對數據進行圖形化展示,有利於發現問題。

小結

監控對於企業對於運維都是有很深的意義,本文是非常簡單介紹了運維監控,後續在下一篇中我們將介紹下運維監控系統的設計。

01-運維監控