1. 程式人生 > >kafka監控

kafka監控

編輯文章

監控策略

1、Kafka總體監控

leader 選舉頻率:kafka.controller:type=ControllerStats,name=LeaderElectionRateAndTimeMs

2、Kafka Broker監控

kafka叢集中Broker列表,broker執行狀況,包括node下線,活躍數量 Broker是否提供服務 失敗的生產訊息請求數量:閾值? 失敗的資料獲取請求數量:閾值? 消費比率(生產位元組數/消費位元組數):閾值? kafka.server:type=BrokerTopicMetrics,name=BytesInPerSec kafka.server:type=BrokerTopicMetrics,name=BytesOutPerSec ISR 收縮頻率:閾值? kafka.server:type=ReplicaManager,name=IsrShrinksPerSec kafka.server:type=ReplicaManager,name=IsrExpandsPerSec 未複製的分割槽數:閾值>1 kafka.server:type=ReplicaManager,name=UnderReplicatedPartitions producer佇列排隊情況:閾值? kafka.server:type=DelayedOperationPurgatory,delayedOperation=Produce,name=PurgatorySize fetch佇列排隊情況:閾值? kafka.server:type=DelayedOperationPurgatory,delayedOperation=Fetch,name=PurgatorySize

3、Kafka Controller監控

controller存活數目:kafka.controller:type=KafkaController,name=ActiveControllerCount 閾值<1 沒有active controller的partition數量:【既不可讀又不可寫】閾值>0 kafka.controller:type=KafkaController,name=OfflinePartitionsCount

4、Topic監控

offset:logStartOffset和logEndOffset之差,閾值? 某個topic在某個broker上每秒寫入的訊息數量: kafka.server:type=BrokerTopicMetrics,name=MessagesInPerSec

5、網路監控

處理一個請求所花費的總時間:閾值? kafka.network:type=RequestMetrics,name=TotalTimeMs,request{Produce|FetchConsumer|FetchFollower} 6、Kafka Producer監控 producer數量,排隊情況 請求響應時間 QPS/分鐘: 7、Kafka Consumer監控 消費者落後生產者的消費條數: consumer佇列中排隊請求數: 請求響應時間: 最近一分鐘平均每秒請求數: 每秒產生的訊息數量: consumer傳送給broker的請求最小速率(如果消費者不消費了或者掛了則趨於0):閾值>0.5

注:

broker :失敗的生產訊息請求數量,失敗的資料獲取請求數量,broker狀態 partition: logStartOffset logEndOffset 之差 replica:收縮或者擴大的速度(Follower宕機,或者落後太多) producer:等待請求數過多,延遲過期的請求數量 fetch-consumer:等待請求數過多,延遲過期的請求數量