1. 程式人生 > >在線日誌分析項目解讀

在線日誌分析項目解讀

日誌

1,日誌的采集

技術分享

從flume agent 上的數據一般分到兩條線上一條是kafka 集群 ,後期可以用流式處理(spark streaming 或storm 等等)一條是到hdfs,後期可以用hive處理,

業界叫lambda架構 architecture (一般公司的推薦系統,就是用這種架構)

flume-ng agent 采集收集日誌後,聚合在一個節點上(也可以不聚合)

為什麽要聚合?為什麽不直接寫到kafka集群?

假如公司規模比較大,有無數個flume節點,這麽多都連kafka,會增加復雜度,有個聚合節點(會是多個節點組成,防止單節點掛了),還可以對日誌格式統一處理,篩選不要的數據


技術分享

hdfs 可以永久保存數據,mr 可以處理多久數據都行

kafka 集群數據可以存儲一定時間不能長期存儲,sparkstreaming 只能處理一定時間訪問內數據

storm 流

數據源 nginx 日誌,mysql 日誌,tomcat 日誌等等->

flume ->

kafka 消息件 消息發送到這裏緩存數據一段時間 ->

spark streaming+spark sql on yarn cluster (實時計算) -> 存儲

1.->redis adminLTE + flask 前端組件 + echarts3 集成到監控的系統上

2.->influxdb 時序分布式數據庫 grafana 可視化組件(這兩種結合比較好)

(elk kibana )

存儲+可視化分析

本文出自 “我是程序我最大” 博客,請務必保留此出處http://skinglzw.blog.51cto.com/10729606/1967271

在線日誌分析項目解讀