1. 程式人生 > >記一次Zabbix延時問題

記一次Zabbix延時問題

什麽 text 無法連接到 img hostname lis col 9.png ive

zabbix server隊列延時

問題:查看隊列數,發現隊列延時一致高於某個值,於是來查查是什麽問題導致。

技術分享圖片

1. 查看隊列延時詳細信息

技術分享圖片

技術分享圖片

我們可以看到延時都對應某個監控項。此時已某主機查看監控數據,以10.70.242.201為例。

2. 查看監控數據

技術分享圖片

我們可以看到延時的數據自從早上八點就沒有更新了。

3. 查看特定item的圖形

技術分享圖片

可以看出數據的不連續,而這種情況只出現在某些固定的item上。可也粗略推測是此數據的某些特征導致延時,

4. 查看延時item的配置

我們發現延時嚴重的item多半主動檢測

5. 查看主機agent的配置文件

查看是否開啟了主動檢測ServerActive指令是否開啟?查看開啟了。

6. 查看日誌文件

agent日誌文件

1592:20170914:115210.600 active check data upload to [192.168.96.115:10051] started to fail ([connect] cannot connect to [[192.168.96.115]:10051]: (null))
1592:20170914:115351.720 active check configuration update from [192.168.96.115:10051] started to fail (cannot connect to [[192.168.96.115]:10051]: (null))

我們可以看到agent端上傳主動檢測的數據時,無法連接到主機。這個表明agent可以從server端獲取監控的items。

server端日誌

cannot send list of active checks to "192.168.242.201": host [WIN-HS2LFD8I4SL] not found

7. 問題原因

這是由於agent端和server端標記主機的方式不同,主動檢測時,agent的身份是配置文件中hostname的值,如果hostname沒有指明,則使用主機名代替,而我們server端標識主機使用的IP導致無法識別agent 主機。

8. 解決方法

  • 只需將server 添加主機值主機名稱和agent中配置指令hostname一致進行。
  • 將主動檢測改為被動檢測。

9. 總結

解決問題時,一步步驗證猜測。往往日誌文件會給我們很大的提示。

記一次Zabbix延時問題