基於InfluxDB+Grafana打造大資料監控利器
投稿:新炬網路浙江大資料團隊
這是一個大資料爆發的時代。面對資訊的激流、多元化資料的湧現,我們在獲取、儲存、傳輸、理解、分析、應用、維護大資料時,無疑需要一種便捷的資訊交流通道,以便快速、有效、準確地理解和駕馭這個過程。本文將通過時序資料庫(InfluxDB)+Grafana的實踐,來介紹如何將資料便捷地展現出來。
一、InfluxDB
開源的分散式時序、時間和指標資料庫,使用Go語言編寫,無需外部依賴。其中,時間序列資料庫是資料格式裡包含Timestamp欄位的資料,比如某一時間使用者上網流量、通話詳單等。但是,有什麼資料不包含Timestamp呢?幾乎所有的資料都可以打上一個Timestamp欄位。時間序列資料更重要的一個屬性是如何去查詢它,包括資料的過濾、計算等。
它有三大特性:
- 時序性(Time Series):與時間相關的函式的靈活使用(例如最大、最小、求和等);
- 度量(Metrics):對實時大量資料進行計算;
- 事件(Event):支援任意的事件資料,換句話說,任意事件的資料我們都可以做操作。
個人認為InfluxDB的幾個優點:
- 無特殊依賴,幾乎開箱即用(如ElasticSearch需要Java)
- 自帶資料過期功能;
- 自帶許可權管理,精細到“表”級別;
- 原生的HTTP支援,內建HTTP API
- 強大的類SQL語法,支援min, max, sum, count, mean, median 等一系列函式,方便統計。
- 自帶管理介面(如下圖),免外掛配置。
InfluxDB基本概念
1、與傳統資料庫中的名詞做比較
2、InfluxDB中特有的概念
1)Point
Point由時間戳(time)、資料(field)、標籤(tags)組成。
Point相當於傳統資料庫裡的一行資料,如下表所示:
2)series
所有在資料庫中的資料,都需要通過圖表來展示,而這個series表示這個表裡面的資料,可以在圖表上畫成幾條線:通過tags排列組合算出來。
如下所示:
3、InfluxDB相關API
InfluxDB 支援http api 方式寫入資料。使用curl這個工具來模擬HTTP 請求,在實際使用中,可以將請求寫入程式碼中,通過其他程式語言來模擬HTTP請求。
例如:通過HTTP API向Internet_users這張表新增資料
curl -v –XPOST “http:// localhost:8086/write?db=Internet&u=user&p=password” –data-binary “Internet_users,users=小區上網使用者,mobile=移動端上網使用者,users_num=56,
mobile_num=21 1493571600000000000”
說明:
- db=Interne是指使用Interne資料庫;
- –data-binary後面是需插入資料,其中:
- Internet_users:表名(measurement)
- tag欄位:users和mobile,值分別為:小區上網用和移動端上網使用者
- field key欄位:users_num和mobile_num,值分別為56和21
- 時間戳(timestamp):1493571600000000000
這樣,就向Interne資料庫的Internet_users表中插入了一條資料。
需要注意,DB引數必須指定一個數據庫中已經存在的資料庫名,資料體的格式遵從InfluxDB規定格式,首先是表名,後面是tags,然後是field,最後是時間戳。tags、field和時間戳三者之間以空格相分隔。
InfluxDB 資料視覺化工具
二、Grafana
設定查詢條件:
展示資料:
Grafana告警功能
沒有比”視覺化“更好的一個詞能來概括運維的本質,我想Grafana也是深知廣大運維人員的痛處:如何用視覺化資料說話? 所以Grafana在 4.0以後版本:新增報警功能(Alerting),根據官網介紹,Grafana報警方式也有很多種,常見的Email、Slack即時通訊、webhook等。
下圖為目前叢集Grafana監控介面,主要包含對叢集主機CPU、記憶體配合Grafana的閾值預警功能:
主機記憶體和CPU使用率監控:
通過規則配置,可配置相關監控規則,包含相關邏輯與時間跨度以及監控告警條件。目前,僅支援一種條件型別—— Query 。可以指定Query字母,時間跨度和聚合函式。字母指定你在Metrics tab裡設定的聚合函式。Query的結果和聚合函式將會是一個單一的值,用於後面判斷是否超過了閾值。
規則配置完成後可在報警列表裡統一檢視報表狀態:
三、實踐案例
1、資料採集規劃
目前採集資料主要來源於Hadoop的jmx監控,獲取相關Cluster、Queue等Metrics資訊以及部分Oracle日誌資訊,通過相關介面寫入InfluxDB資料庫,根據來源及日誌資訊從資料庫層進行獨立管理設計,以便後續維護。
2、InfluxDB資料庫許可權配置
InfluxDB自帶許可權控制,許可權分別為:
- ADMIN:所有者
- READ :只讀 (精確到庫與表)
- WRITE:只寫 (精確到庫與表)
- ALL (READ 和 WRITE ) :讀和寫
鑑於源資料流,目前只會用到三個角色,對於這三個角色分工如下:
- ADMIN:維護人員
- READ:資料展示與後臺查詢(Grafana上設定的Influnxdb為只讀)
- WRITE:外部程式(插入資料至Influnxdb)
配置資料庫許可權需開啟相關認證,操作如下:
vi /etc/InfluxDB/InfluxDB.conf
把 [http] 標籤下的 auth-enabled 選項值改為 true
[http]
enabled = true
bind-address = “:8086”
auth-enabled = true
log-enabled = true
write-tracing = false
pprof-enabled = false
https-enabled = false
https-certificate = “/etc/ssl/InfluxDB.pem”
3、Influnxdb和Grafana高可用配置
本次實踐為了避免因主機通斷而導致Influnxdb和Grafana服務無法使用的情況,所以在部署應用時用了2臺虛擬機器,2臺虛擬機器安裝的服務如下:
在系統層方面又做了如下設定:
- 主機域名設定
將兩臺主機設定為主備模式,共用同一個域名http://xxx.xxx.com
- 負載均衡設定
負載均衡設定即VIP主用與容災端域名+埠與的Localhost-01~02主備節點域名+埠對映。大家都知道InfluxDB和Grafana埠如下圖展示:
所以對映關係可設計成這樣:
- VIP:主用ip、容災ip
- VPORT:8083
- 均衡演算法:pi 32 rr
- 健康檢查:tcp
- 例項IP及埠:Localhost-01的ip 8083Localhost-02的ip 8083
其它埠均按此設定,負載均衡設定完成後,這裡不得不提Grafana配置,如果要做到視覺化展示的高可用,那麼Grafana配置資料來源就必須採用域名+埠的方式:
至此資料安全設定完畢。
4、Grafana介面配置
完成以上環境配置,根據相關需求進行Grafana介面配置以及監控配置,具體操作可以參照官網操作教程,這裡不再贅述。
HDFS目錄配額監控:
HDFS空間使用率監控:
文章來自微信公眾號:DBAplus社群