1. 程式人生 > >分散式系統監視zabbix講解二之郵件報警通知--技術流ken

分散式系統監視zabbix講解二之郵件報警通知--技術流ken

概述

在上一篇部落格《分散式系統監視zabbix講解一技術流ken》中已經詳細講解了如何安裝zabbix,本篇部落格將詳細講解如何使用zabbix監控另外一臺主機,並實現email報警通知機制。

首先我們需要建立一個需要被監控的主機,並設定相應的監控項。當監控項收集了資料後,觸發器會根據異常狀態觸發報警。根據一些報警機制,它也會通知我們一些重要的事件,而不需要我們直接在Zabbix前端進行檢視。

這就是通知(Notifications)的功能。E-mail是最常用的異常通知傳送方式。我們將會學習如何配置e-mail通知。

新建主機

概要

Zabbix中的主機(Host)是一個你想要監控的網路實體(物理的,或者虛擬的)。Zabbix中,對於主機的定義非常靈活。它可以時一臺物理伺服器,一個網路交換機,一個虛擬機器或者一些應用。

增加主機

Zabbix中,可以通過配置(Configuration) → 主機(Hosts)選單,檢視已配置的主機資訊。預設已有一個名為'Zabbix server'的預先定義好的主機。但我們需要學習如何新增另一個。

點選建立主機(Create host)以新增新的主機,這將向我們顯示一張主機配置表格。

至少需要填寫下列欄位:

主機名稱(Host name)

  • 輸入一個主機名稱,可以使用字母數字、空格、點”.“、中劃線”-“、下劃線”_“。

  • 從右邊的選擇框中,選擇一個或者多個組,然後點選 « 移動它們到'所在組(In groups)'選擇框。
所有訪問許可權都分配到主機組,而不是單獨的主機。這也是主機需要屬於至少一個組的原因。

IP地址

  • 輸入主機的IP地址。注意如果這是Zabbix server的IP地址,它必須是Zabbix agent配置檔案中‘Server’引數的值。

暫時保持其他選項的預設值。

當完成後,點選新增(Add)。你可以在主機列表中看到你新新增的主機。

新建監控項

概要

監控項是Zabbix中獲得資料的基礎。沒有監控項,就沒有資料——因為一個主機中只有監控項定義了單一的指標或者需要獲得的資料。

新增監控項

主機包含了所有的監控項。如果需要配置一個監控項的示例,我們需要前往配置(Configuration) → 主機(Hosts) 並找到我們已建立的'新主機(New host)'。

在'新主機(New host)'行中,監控項(Items)

的連結旁的數量會顯示為'0'。點選這個連結,然後點選建立監控項(Create item),將會顯示一個監控項定義表格。

這裡就配置剛才我已經建立的主機,直接點選items即可,然後點選左上角的create item

對於監控項的示例,需要輸入以下必要的資訊:

名稱(Name)

  • 輸入 CPU Load 作為值。在列表中和其他地方,都會顯示這個值作為監控項名稱。

值(Key)

  • 點選select選擇你要監控的內容。這是監控項的一個技術上的名稱,用於識別獲取資訊的型別。這個特定值需要是Zabbix Agent預定義值中的一種。我選擇監控我10.220.5.137的80 埠。

資訊型別(Type of information)

  • 在此處選擇 Numeric (float)。這個屬性定義了想獲得資料的格式。
你也需要減少監控項歷史保留的天數,7或者14天。對於資料庫而言,最佳實踐是避免資料庫保留過多的歷史資料。

我們暫時保持其他選項的預設值。

當完成後,點選新增(Add)。新的監控項將出現在監控項列表中。點選列表中的詳細(Details)以檢視具體細節。

檢視資料

當一個監控項定義完成後,你可能好奇它具體獲得了什麼值。前往監控(Monitoring) → 最新資料(Latest data),點選- other -前面的 + ,然後檢視你之前定義的監控項和獲得的值。如下圖,可以看到現在的last value是1,說明我的10.220.5.137的80埠是線上狀態

同時,第一次獲得的監控項值最多需要60秒才能到達。預設情況下,這是伺服器讀取變化後的配置檔案,獲取並執行新的監控項的頻率。

如果你在‘變化(Change)’列中沒有看到值,可能到目前為止只獲得了一次值。等待30秒以獲得新的監控項值。

如果你在當前介面中沒有看到監控項的資訊,請確認:

  • 你輸入的監控項'值(Key)' 和 '資訊型別(Type of information)' 同截圖中的一致
  • agent和server都在執行狀態
  • 主機狀態為'監控(Monitored)'並且它的可用性圖示是綠色的
  • 監控項處於啟用狀態
圖表

當監控項運行了一段時間後,可以檢視視覺化圖表。 簡單圖表 適用於任何被監控的數值型(numeric)監控項,且不需要額外的配置。這些圖表會在執行時生成。

前往監控(Monitoring) → 最新資料(Latest data),然後點選監控項後的'圖表(Graph)'連結以檢視圖表。

新建觸發器

概述

監控項只是用於收集資料。如果需要自動評估收到的資料,我們則需要定義觸發器。觸發器包含了一個表示式,這個表示式定義了資料的可接受的閾值級別。

如果收到的資料超過了這個定義好的級別,觸發器將被“觸發”,或者進入“異常(Problem)”狀態——從而引起我們的注意,讓我們知道有問題發生。如果資料再次恢復到合理的範圍,觸發器將會到“正常(Ok)”狀態。

新增觸發器

為監控項配置觸發器,前往配置(Configuration) → 主機(Hosts),找到'新增主機(New host)',點選旁邊的觸發器(Triggers) ,然後點選建立觸發器(Create trigger)。這將會向我們展現一個觸發器定義表單。

對於觸發器,有下列必填項:

名稱(Name)

  • 輸入 check_80_triger 作為值。這個值會作為觸發器的名稱被現實在列表和其他地方。

表示式(Expression)

  • 輸入:{ken1:net.tcp.listen[80].last()}=0

值時觸發器的表示式。確認這個表示式輸入正確,包括所有的符號。這個特定的表示式大致是說如果80埠返回值是0時,那麼就觸發了問題的閾值。

完成後,點選新增(Add)。新的觸發器將會顯示在觸發器列表中。

顯示觸發器狀態

當一個觸發器定義完畢後,你可能想檢視它的狀態。

前往監控(Monitoring) → 觸發器(Triggers)以檢視。3分鐘後(我們需要等待3分鐘以評估這個觸發器的3分鐘平均值),觸發器會在這裡顯示。應該會有一個綠色的'OK'在'狀態(Status)'列中閃爍。

閃爍意味著這個觸發器狀態最近30分鐘內發生過變化。

如果此處出現一個閃爍的紅色'PROBLEM',顯然,這說明了80埠已經在你在觸發器裡定義的閾值級別。

郵件報警

概述

當監控項收集了資料後,觸發器會根據異常狀態觸發報警。根據一些報警機制,它也會通知我們一些重要的事件,而不需要我們直接在Zabbix前端進行檢視。

這就是通知(Notifications)的功能。E-mail是最常用的異常通知傳送方式。我們將會學習如何配置e-mail通知。

E-mail設定

Zabbix中最初內建了一些預定義的通知傳送方式,email通知是其中的一種。

前往管理(Administration) → 媒體型別(Media types),點選預定義媒體型別列表中的Email,以配置E-mail。

這將向我們展現e-mail設定定義表單。

根據你的環境,設定SMTP伺服器,SMTP helo, SMTP e-mail的值。

'SMTP email'將作為Zabbix通知的'發件人(From)'地址。

一切就緒後,點選 更新(Update)

現在你已經配置了'Email'作為一種可用的媒體型別。一個媒體型別必須通過傳送地址來關聯使用者。為了建立一個通知,前往配置(Configuration) → 動作(Actions),然後點選建立動作(Create action)

在這個表單中,輸入這個動作的名稱。

{TRIGGER.STATUS} 和 {TRIGGER.NAME} 是巨集(macros)或者變數,可以在Default subject 和 Default message 區域檢視。會以實際的觸發器狀態和觸發器名稱的值替代。

在大多數簡單的例子中,如果我們不新增更多的指定條件,這個動作會在觸發器從 'Ok' 變為 'Problem'是發生。

我們還需要定義這個動作具體做了什麼 —— 即在 操作(Operations) 標籤頁中執行的操作。點選新建(New),將會開啟一個操作表單。

這裡,在傳送給使用者(Send to Users)塊中點選新增(Add),然後選擇我們之前定義的使用者('user')。選擇'Email'作為Send only to的值。完成後,在操作明細區域中,點選新增(Add)

這是一個簡單的動作配置步驟,即點選動作表單中的新增(Add)

獲得通知

現在,傳送通知配置完成,我們看看它如何將通知傳送給實際接收人。為了實現這個目的,我們需要關掉80埠,這樣我們的觸發器才會被觸發,我們會收到異常通知。

開啟主機的控制檯,並執行:

[[email protected] local]# pkill httpd
[[email protected] local]# ss -tnl | grep 80

確認80埠已經關掉。

現在,前往監控(Monitoring) → 最新資料(Latest data),檢視last value是否已經變成了0。

  • 監控(Monitoring) → 觸發器(Triggers)中,你會看到這個觸發器的狀態呈現一個綠色閃爍的'Problem'
  • 你的e-mail中,會收到一個異常通知

如果通知功能沒有正常工作:
  • 再次驗證e-mail設定和動作設定已經被正確配置
  • 確認你建立的使用者對生成事件的主機至少擁有讀(read)許可權。正如新增使用者步驟中提到的,'Zabbix administrators'使用者組中的使用者必須對'Linux servers'主機組(該主機所屬組)至少擁有讀(read)許可權。
  • 另外,你可以在報告(Reports) → 動作日誌(Action log)中檢查動作日誌。