實時日誌監控系統-全覽

阿新 • • 發佈：2019-01-01

大資料處理，大致可以分為兩大模組：

離線資料處理：比如說電商、運營商出現的大批量的日誌，可以由flume、sqoop或者其他路徑，匯入到HDFS中，然後經過資料清洗，使用Hive進行分析和處理，對於優化伺服器資源等有很好的作用；個人覺得，支付寶的年賬單就是離線資料處理的應用之處了。
實時資料處理：對於有些業務需要，可能第二天或者更晚的時候進行分析無關緊要，但對於一些高頻的金融交易來說，實時性就太重要了，還有一些如百度搜索的top10，新浪微博的微博熱點等等，如果等到第二天處理，那這些新聞也沒什麼吸引的價值了。

所以，縱觀來說，離線資料處理和實時資料處理撐起了大資料處理的一片天，本文將介紹本人親自負責並予以實施的日誌監控專案，麻雀雖小，五臟俱全。

主要模組

日誌收集模組
日誌處理模組

主要工具

flume：用於日誌的收集，堪稱是業內最好的日誌收集工具，支援多種日誌收集的渠道，同時支援諸多的日誌收集存放地，功能強大；官方連結：flume官網
kafka：訊息緩衝佇列，大資料處理中常用的緩衝佇列，用於資料爆炸的時候，避免拖垮後續的處理邏輯，將訊息先存放到佇列中，延遲一定的時間進行處理。
log4j：我們在Tomcat伺服器上部署的業務系統，需要指定flume-appender，因此需要使用到log4j。
SparkStreaming：在第一版本中，由於實時性不是很強，因此使用該工具予以處理，其處理日誌會有一定的延遲，但吞吐量較大。
MySql：用於讀取配置資料，已經將配置資料全部遷移到zookeeper上。

Spring boot：構建資料配置服務，方便使用者配置自己的日誌資料，比如郵件發給何人，簡訊發給何人，都可以自由指定。
zookeeper：資料配置中心，在本專案用途中，主要是用於配置資料的管理，官方連結：zookeeper官網

1：日誌收集模組

在日誌收集模組中，針對我們自身的業務，可以分為兩大部分：

Nginx日誌和資料庫執行日誌：首先是Nginx，作為業內比較強大的負責均衡工具，其效能比較優良，我們在日常的服務中，也是使用該工具來進行負載均衡的功能實現；插播一句，業內另一比較強大的負載均衡工具是淘寶的章文嵩博士開發的LVS，對於訪問量不是很大的網站，使用Nginx完全可以實現功能；為了能夠準確處理出錯的日誌，我們對日誌格式進行了一定的定義，類似下圖：
對於Tomcat型別的服務，選擇使用log4j內建的flume-appender方式來實現，具體配置可以參考官網：https://logging.apache.org/log4j/2.x/manual/appenders.html#FlumeAppender；其中有很詳細的flume-appender配置，在日誌中配置合理，每一條日誌都會按照相應的格式，作為flume收集日誌的來源。

對於收集到的日誌，統一採用kafkaSink的方式，輸送到後續的kafka中，以備後續的處理。

關於日誌的收集，在處理過程中有幾點收穫：

對於flume的收集渠道有了更加深入的理解，flume不愧是強大的工具，支援的收集渠道非常多，而且支援的型別也很多，我們在收集nginx日誌的時候，配置的type為exec，即命令執行方式，其會執行該命令，把需要監控的日誌實時進行讀取，配置如下：
```
a1.sources = r1
a1.channels = c1
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /var/log/secure
a1.sources.r1.channels = c1
```
對於tail命令，支援同時讀取多個日誌檔案，會統一把這些日誌輸送到同一個源，輸送到目的地。
攔截器的使用：有時候，收集到的日誌並不是完全如我們的意願，這時候，攔截器就派上了用場，我們在plugins.d目錄下，部署了自己的jar包，用於攔截讀取到的日誌，進行第二步驟的處理；而且攔截器支援鏈式，即多個攔截器會依次處理收集到的日誌。

2：日誌處理模組

對於收集到的日誌的處理，我們採用的是Spark-Streaming工具，將其與kafka對接，對於收集到的每一條資料進行處理：

public void startTask() {		
		//新建sparkConf
		SparkConf conf = new SparkConf().setAppName(ConfigUtils.SPARK_APPNAME);
		conf.setMaster("local[4]");// 本地多執行緒呼叫
		// conf.setMaster(ConfigUtils.SPARK_MASTER);//叢集呼叫
		//製作StreamingContext
		JavaStreamingContext jsc = new JavaStreamingContext(conf,
				Durations.seconds(Long.valueOf(ConfigUtils.SPARK_DURATIONS)));
		Map<String, String> kafaParameters = new HashMap<String, String>();
		//部署kafka機器的ip及埠號
		kafaParameters.put("metadata.broker.list", ConfigUtils.KAFKA_BROKER);
		//消費組的groupId
		kafaParameters.put("group.id", ConfigUtils.KAFKA_GROUPID);
		kafaParameters.put("fetch.message.max.bytes", ConfigUtils.KAFKA_FETCH_MAX);
		kafaParameters.put("num.consumer.fetchers", ConfigUtils.KAFKA_FETCH_NUM);
		Set<String> topics = new HashSet<String>();
		topics.add(ConfigUtils.KAFKA_TOPIC);
		try {
			//指定直連，消費kafka某個topic內的資料
			JavaPairInputDStream<String, String> lines = KafkaUtils.createDirectStream(jsc, String.class, String.class,
					StringDecoder.class, StringDecoder.class, kafaParameters, topics);
			JavaDStream<String> words = lines.flatMap(new FlatMapFunction<Tuple2<String, String>, String>() {
				public Iterator<String> call(Tuple2<String, String> tuple) throws Exception {
					// log.info("接收kafka資料：" + tuple._2);
					return Arrays.asList(tuple._2.split(SPACE.pattern())).iterator();
				}
			});
			words.foreachRDD(new VoidFunction2<JavaRDD<String>, Time>() {
				public void call(JavaRDD<String> word, Time arg1) throws Exception {
					// TODO Auto-generated method stub
					process(word);
				}
			});
		}catch(Exception e) {
			e.printStackTrace();
		}
	}

這裡，主要是將SparkStreaming與kafka對接起來的實現，需要指定消費組的group id，需要指定消費的topic，指定消費的機器，最重要的一步就是建立接下來需要進行處理的JavaRDD，其實，spark最核心的概念就是rdd的處理，其SparkStreaming，實際上處理的也就是一段時間內產生的RDD而已。

對於上述的程式碼中一些問題予以優化下：

try {
			JavaPairInputDStream<String, String> lines = KafkaUtils
					.createDirectStream(jsc, String.class, String.class,
							StringDecoder.class, StringDecoder.class,
							kafaParameters, topics);
			lines.foreachRDD(new VoidFunction<JavaPairRDD<String, String>>() {
				@Override
				public void call(JavaPairRDD<String, String> t)
						throws Exception {
					t.foreachPartition(new VoidFunction<Iterator<Tuple2<String, String>>>() {
						@Override
						public void call(Iterator<Tuple2<String, String>> t)
								throws Exception {
							while (t.hasNext()) {
								String res = t.next()._2;
								try {
									// 這裡，很重要的一點是，到底要不要輸出日誌
									if (flag) {
										log.info("read kafka message:" + res);
									}
									process(res);
								} catch (Exception e) {
									log.info(res + "------處理異常------"
											+ getExeptionMessage(e));
								}
							}
						}
					});
				}
			});
		} catch (Exception e) {
			e.printStackTrace();
		}

更新了其中的運算元，爭取能夠提高效率：

接下來的處理，則是對收集到的日誌，進行自己的處理，在此處不予贅述。

專案總結：本專案其實難度並不大，重點在於攔截器的設定，kafka叢集的搭建，後續處理的完善，以及如何形成spark與kafka資料的對接等方面。

實時日誌監控系統-全覽

大資料處理，大致可以分為兩大模組：離線資料處理：比如說電商、運營商出現的大批量的日誌，可以由flume、sqoop或者其他路徑，匯入到HDFS中，然後經過資料清洗，使用Hive進行分析和處理，對於優化伺服器資源等有很好的作用；個人覺得，支付寶的年賬單就是離線資料處理的應用之處

大資料實時案例--實時日誌監控告警系統

本次介紹使用Flume+kafka+storm+mysql的實時日誌監控告警系統，程式碼部分比較多，會放在一個下載的連線裡面，可以免費下載。需求在軟體開發中國，上線執行時經常會出現一些報錯，但是我們如果不能進行有效的實時監控，及時的處理，經常會帶來巨大損失

Elasticsearch and kibana and filebeat 輕量級日誌監控系統

Elasticsearchkiban filebeat 日誌監控 kibana Elasticsearch and kibana and filebeat Elasticsearch and kibana and filebeat 輕量級日誌監控系統說明： elasticsearch 依賴j

基於Kafka和ElasticSearch，LinkedIn如何構建實時日誌分析系統？

今天，和跟大家分享我們在用ElasticSearch和Kafka做日誌分析的時候遇到的問題，系統怎麼樣一步一步演變成現在這個版本。你如果想拿ElasticSearch和Kafka來做日誌分析的話，會有一些啟發。全文主要包括以下幾個Topic：日誌分析系統的基本需求； Li

docker搭建海量實時日誌分析系統

主要技術架構圖詳細搭建伺服器目錄情況建立docker網路搭建啟動es 啟動kibana 啟動zookeper 啟動kafka 啟動logstash

流式計算--實戰（日誌監控系統）

1.日誌監控系統資料的流向：flume+kafka+storm+mysql 資料流程如下：應用程式使用log4j產生日誌部署flume客戶端監控應用程式產生的日誌資

CentOS 7.x 搭建 ELK 日誌監控系統

一、ELK介紹 ELK簡介： ELK是三個開源軟體的縮寫，分別表示：Elasticsearch , Logstash, Kibana , 它們都是開源軟體。新增了一個FileBeat，它是一個輕量級的日誌收集處理工具(Agent)，Fileb

運維開發實踐：基於Sentry搭建錯誤日誌監控系統

錯誤日誌監控也可稱為業務邏輯監控, 旨在對業務系統執行過程中產生的錯誤日誌進行收集歸納和監控告警。似乎有那麼點曾相識？沒錯… 就是上一篇文章提到的“APM應用效能監控”。但它又與APM不同，APM系統主要注重應用層的行為分析，收集的更多是運營方向的資料。而sentry所做的是收集應用底層程式碼的崩潰

實時日誌分析系統的架構、實現以及思考

1 序對ETL系統中資料轉換和儲存操作的相關日誌進行記錄以及實時分析有助於我們更好的觀察和監控ETL系統的相關指標（如單位時間某些操作的處理時間），發現系統中出現的缺陷和效能瓶頸。由於需要對日誌進行實時分析，所以Storm是我們想到的首個框架。Stor

基於 Kafka 和 ElasticSearch，LinkedIn是如何構建實時日誌分析系統的？

https://blog.csdn.net/qq_36421826/article/details/81562297 今天，和跟大家分享我們在用ElasticSearch和Kafka做日誌分析的時候遇到的問題，系統怎麼樣一步一步演變成現在這個版本。你如果想拿ElasticSearch和Kafka來做日誌分析

電商總結-日誌監控系統的解決方案

　前一篇文章聊到了小型電商網站的系統架構，然後有朋友問我，裡面的日誌與監控指的是啥，所以，今天就來聊聊這個問題。　　監控系統主要用於伺服器叢集的資源和效能監控以及應用異常和效能監控，日誌管理等多維度的效能監控分析。一個完善的監控系統和日誌系統對於一個系統的重要性不必

log.io：瀏覽器端實時日誌監管系統

有一點 apache2 下載 ror 指定穩定版介紹地址 water 一、軟件介紹log.io 是一個實時日誌監控工具，采用 node.js + socket.io 開發，使用瀏覽器訪問，每秒可以處理超過5000條日誌變動消息。有一點要指出來的是 log.io 只監視

nginx+flume+hdfs搭建實時日誌收集系統

1、配置nginx.conf，新增以下配置 http { #配置日誌格式 log_format lf '$remote_addr^A$msec^A$http_host^A$reques

ELK 叢集 + Redis 叢集 + Nginx ,分散式的實時日誌（資料）蒐集和分析的監控系統搭建，簡單上手使用

原文地址：https://segmentfault.com/a/1190000010975383簡述ELK實際上是三個工具的集合，ElasticSearch + Logstash + Kibana，這三個工具組合形成了一套實用、易用的監控架構，很多公司利用它來搭建視覺化的海量

基於視頻壓縮的實時監控系統

編程模型操作工作流程使用監控系統系列服務針對服務器端采集端主要框架：主程序、圖像采集子系統、傳輸子系統、圖像編碼壓縮子系統監控端主要框架：主程序、傳輸子系統、圖像解碼子系統、圖像顯示子系統針對采集端來說：主程序工作流程：（采用epoll架構）

關於一個簡易的實時內存監控系統的思維導圖

title 小項目 pan 基礎上 python 思維導圖內存監控 cnblogs com 非常感謝愛蘑菇的狗的文章（原文引用:http://www.cnblogs.com/shengxinjing/p/python.html），建議可以先從頭跟著這一篇文章做

道路交通實時流量監控預測系統

中小型組合實時分析 xadmin spark2 初中 elf ejs 高可用架構詳情請交流 QQ 709639943 00、道路交通實時流量監控預測系統 00、基於Spark2.x新聞網大數據實時分析可視化系統 00、小碼哥Java大神班五期任小龍SSM

syslog系統日誌、Windows事件日誌監控

fff 技術 window oss jpg ESS term 日誌 cee syslog系統日誌、Windows事件日誌監控

鷹眼系統;全鏈路監控系統；分布式監控系統

tor detail dapper git ans class log bsp http 有一些大公司的開源方案： https://www.jianshu.com/p/a125bea43abe 阿裏的鷹眼系統： https://cn.aliyun.com/aliware/n

嵌入式-項目1-基於視頻壓縮的實時監控系統-1.EPOLL框架

驅動程序 hat 邊沿觸發 lec wro div 技術情況下因此第一課-Epoll框架為什麽要用Epoll？（1）阻塞型IO 阻塞是指沒有獲得資源則掛起進程，直到獲得資源為止。被掛起的進程進入休眠狀態，被調度器的運行隊列移走，直到等待條件被滿足。非阻塞

實時日誌監控系統-全覽

相關推薦