問題發現定位
問題發現定位平臺功能點需要全面,實現大多基於日誌(收集多KAFKA,分散式儲存),日誌檢索(多采用ES)。鏈路分析再次基礎上做取樣聚合,介面級別的非取樣在監控中做(時間流儲存,監控報警閾值模型智慧預測等),日誌針對性做些細粒度的鏈路分析。技術涉及不多,主要是日誌壓縮和索引的建設。功能點成體系就好。本文重點關注這個。更多工程內容見: https://segmentfault.com/a/11...
日誌規範。定則規範
全鏈路傳遞
1.nginx
traceid當前由幾部分組成:(nginx的ip) + (生成的時間) + (生成id的nginx的啟動時間 + 生成id的nginx的程序號)+(迴圈自增id + 末兩位固定02)
nginx擴充套件+http header傳遞
2.thrift
利用thrift 0號位空缺作為header使用
3.mq ??
問題發現:
1.odin實時監控,閾值報警。(介面維度,機器維度)
2.woater實時監控,智慧報警
3.srm滅火圖/上線事件監控
4.安全掃描
問題定位
5.故障分析平臺(全鏈路故障點)
6.問題分析平臺(搜尋:ES)
kafka+ES
詳細日誌查詢:大量debug/trace等日誌。取代機器+grep:ES獲取機器索引時間+日誌壓縮/解壓縮,時間定位查詢
7.效能分析(抽樣)
業務評估
1.機器呼叫關係
2.服務依賴關係(靜態),次數(統計)
鏈路分析,延時(取樣平均),呼叫次數(靜態,動態取樣)
3.模組效能分析(取樣統計)
4.專項(mysql,定位到程式碼和人)
成本管理
1.資源成本統計
2.實時資源佔用監控
整體解決思路