分散式系統監視zabbix講解二之郵件報警通知--技術流ken
概述
在上一篇部落格《分散式系統監視zabbix講解一技術流ken》中已經詳細講解了如何安裝zabbix,本篇部落格將詳細講解如何使用zabbix監控另外一臺主機,並實現email報警通知機制。
首先我們需要建立一個需要被監控的主機,並設定相應的監控項。當監控項收集了資料後,觸發器會根據異常狀態觸發報警。根據一些報警機制,它也會通知我們一些重要的事件,而不需要我們直接在Zabbix前端進行檢視。
這就是通知(Notifications)的功能。E-mail是最常用的異常通知傳送方式。我們將會學習如何配置e-mail通知。
新建主機
概要
Zabbix中的主機(Host)是一個你想要監控的網路實體(物理的,或者虛擬的)。Zabbix中,對於主機的定義非常靈活。它可以時一臺物理伺服器,一個網路交換機,一個虛擬機器或者一些應用。
增加主機
Zabbix中,可以通過配置(Configuration) → 主機(Hosts)選單,檢視已配置的主機資訊。預設已有一個名為'Zabbix server'的預先定義好的主機。但我們需要學習如何新增另一個。
點選建立主機(Create host)以新增新的主機,這將向我們顯示一張主機配置表格。
至少需要填寫下列欄位:
主機名稱(Host name)
- 輸入一個主機名稱,可以使用字母數字、空格、點”.“、中劃線”-“、下劃線”_“。
組
- 從右邊的選擇框中,選擇一個或者多個組,然後點選 « 移動它們到'所在組(In groups)'選擇框。
IP地址
- 輸入主機的IP地址。注意如果這是Zabbix server的IP地址,它必須是Zabbix agent配置檔案中‘Server’引數的值。
暫時保持其他選項的預設值。
當完成後,點選新增(Add)。你可以在主機列表中看到你新新增的主機。
新建監控項
概要
監控項是Zabbix中獲得資料的基礎。沒有監控項,就沒有資料——因為一個主機中只有監控項定義了單一的指標或者需要獲得的資料。
新增監控項
主機包含了所有的監控項。如果需要配置一個監控項的示例,我們需要前往配置(Configuration) → 主機(Hosts) 並找到我們已建立的'新主機(New host)'。
在'新主機(New host)'行中,監控項(Items)
這裡就配置剛才我已經建立的主機,直接點選items即可,然後點選左上角的create item
對於監控項的示例,需要輸入以下必要的資訊:
名稱(Name)
- 輸入 CPU Load 作為值。在列表中和其他地方,都會顯示這個值作為監控項名稱。
值(Key)
- 點選select選擇你要監控的內容。這是監控項的一個技術上的名稱,用於識別獲取資訊的型別。這個特定值需要是Zabbix Agent預定義值中的一種。我選擇監控我10.220.5.137的80 埠。
資訊型別(Type of information)
- 在此處選擇 Numeric (float)。這個屬性定義了想獲得資料的格式。
我們暫時保持其他選項的預設值。
當完成後,點選新增(Add)。新的監控項將出現在監控項列表中。點選列表中的詳細(Details)以檢視具體細節。
檢視資料
當一個監控項定義完成後,你可能好奇它具體獲得了什麼值。前往監控(Monitoring) → 最新資料(Latest data),點選- other -前面的 + ,然後檢視你之前定義的監控項和獲得的值。如下圖,可以看到現在的last value是1,說明我的10.220.5.137的80埠是線上狀態
同時,第一次獲得的監控項值最多需要60秒才能到達。預設情況下,這是伺服器讀取變化後的配置檔案,獲取並執行新的監控項的頻率。
如果你在‘變化(Change)’列中沒有看到值,可能到目前為止只獲得了一次值。等待30秒以獲得新的監控項值。
如果你在當前介面中沒有看到監控項的資訊,請確認:
- 你輸入的監控項'值(Key)' 和 '資訊型別(Type of information)' 同截圖中的一致
- agent和server都在執行狀態
- 主機狀態為'監控(Monitored)'並且它的可用性圖示是綠色的
- 監控項處於啟用狀態
圖表
當監控項運行了一段時間後,可以檢視視覺化圖表。 簡單圖表 適用於任何被監控的數值型(numeric)監控項,且不需要額外的配置。這些圖表會在執行時生成。
前往監控(Monitoring) → 最新資料(Latest data),然後點選監控項後的'圖表(Graph)'連結以檢視圖表。
新建觸發器
概述
監控項只是用於收集資料。如果需要自動評估收到的資料,我們則需要定義觸發器。觸發器包含了一個表示式,這個表示式定義了資料的可接受的閾值級別。
如果收到的資料超過了這個定義好的級別,觸發器將被“觸發”,或者進入“異常(Problem)”狀態——從而引起我們的注意,讓我們知道有問題發生。如果資料再次恢復到合理的範圍,觸發器將會到“正常(Ok)”狀態。
新增觸發器
為監控項配置觸發器,前往配置(Configuration) → 主機(Hosts),找到'新增主機(New host)',點選旁邊的觸發器(Triggers) ,然後點選建立觸發器(Create trigger)。這將會向我們展現一個觸發器定義表單。
對於觸發器,有下列必填項:
名稱(Name)
- 輸入 check_80_triger 作為值。這個值會作為觸發器的名稱被現實在列表和其他地方。
表示式(Expression)
- 輸入:{ken1:net.tcp.listen[80].last()}=0
值時觸發器的表示式。確認這個表示式輸入正確,包括所有的符號。這個特定的表示式大致是說如果80埠返回值是0時,那麼就觸發了問題的閾值。
完成後,點選新增(Add)。新的觸發器將會顯示在觸發器列表中。
顯示觸發器狀態
當一個觸發器定義完畢後,你可能想檢視它的狀態。
前往監控(Monitoring) → 觸發器(Triggers)以檢視。3分鐘後(我們需要等待3分鐘以評估這個觸發器的3分鐘平均值),觸發器會在這裡顯示。應該會有一個綠色的'OK'在'狀態(Status)'列中閃爍。
閃爍意味著這個觸發器狀態最近30分鐘內發生過變化。
如果此處出現一個閃爍的紅色'PROBLEM',顯然,這說明了80埠已經在你在觸發器裡定義的閾值級別。
郵件報警
概述
當監控項收集了資料後,觸發器會根據異常狀態觸發報警。根據一些報警機制,它也會通知我們一些重要的事件,而不需要我們直接在Zabbix前端進行檢視。
這就是通知(Notifications)的功能。E-mail是最常用的異常通知傳送方式。我們將會學習如何配置e-mail通知。
E-mail設定
Zabbix中最初內建了一些預定義的通知傳送方式,email通知是其中的一種。
前往管理(Administration) → 媒體型別(Media types),點選預定義媒體型別列表中的Email,以配置E-mail。
這將向我們展現e-mail設定定義表單。
根據你的環境,設定SMTP伺服器,SMTP helo, SMTP e-mail的值。
'SMTP email'將作為Zabbix通知的'發件人(From)'地址。一切就緒後,點選 更新(Update)。
現在你已經配置了'Email'作為一種可用的媒體型別。一個媒體型別必須通過傳送地址來關聯使用者。為了建立一個通知,前往配置(Configuration) → 動作(Actions),然後點選建立動作(Create action)。
在這個表單中,輸入這個動作的名稱。
{TRIGGER.STATUS} 和 {TRIGGER.NAME} 是巨集(macros)或者變數,可以在Default subject 和 Default message 區域檢視。會以實際的觸發器狀態和觸發器名稱的值替代。
在大多數簡單的例子中,如果我們不新增更多的指定條件,這個動作會在觸發器從 'Ok' 變為 'Problem'是發生。
我們還需要定義這個動作具體做了什麼 —— 即在 操作(Operations) 標籤頁中執行的操作。點選新建(New),將會開啟一個操作表單。
這裡,在傳送給使用者(Send to Users)塊中點選新增(Add),然後選擇我們之前定義的使用者('user')。選擇'Email'作為Send only to的值。完成後,在操作明細區域中,點選新增(Add)。
這是一個簡單的動作配置步驟,即點選動作表單中的新增(Add)。
獲得通知
現在,傳送通知配置完成,我們看看它如何將通知傳送給實際接收人。為了實現這個目的,我們需要關掉80埠,這樣我們的觸發器才會被觸發,我們會收到異常通知。
開啟主機的控制檯,並執行:
[[email protected] local]# pkill httpd [[email protected] local]# ss -tnl | grep 80
確認80埠已經關掉。
現在,前往監控(Monitoring) → 最新資料(Latest data),檢視last value是否已經變成了0。
- 在監控(Monitoring) → 觸發器(Triggers)中,你會看到這個觸發器的狀態呈現一個綠色閃爍的'Problem'
- 你的e-mail中,會收到一個異常通知
- 再次驗證e-mail設定和動作設定已經被正確配置
- 確認你建立的使用者對生成事件的主機至少擁有讀(read)許可權。正如新增使用者步驟中提到的,'Zabbix administrators'使用者組中的使用者必須對'Linux servers'主機組(該主機所屬組)至少擁有讀(read)許可權。
- 另外,你可以在報告(Reports) → 動作日誌(Action log)中檢查動作日誌。