1. 程式人生 > >大資料日誌分析系統-hdfs日誌儲存

大資料日誌分析系統-hdfs日誌儲存

hdfs簡介:

Hadoop分散式檔案系統(HDFS)被設計成適合執行在通用硬體(commodity hardware)上的分散式檔案系統。

專案需求:

使用hdfs進行客戶需要的指定域名時間打包日誌 以及原始日誌儲存進行離線計算

遇到的問題:

在這一步遇到的一個重要的問題:

問題:從kafka中日誌直接按域名時間分類存入hdfs時速度不夠,主要時資料量太大,當資料量減少到1/10的時候滿足要求。

試過:

spark:從kafka取出資料日誌解析存入hdfs

logstash: 從kfaka中取出資料,然後自定義conf配置檔案,按域名按小時直接存入hdfs

flume: flume自定義filter外掛(java寫的),將原始日誌按照時間域名分類存入hdfs

發現這些東西都是存入hdfs速度不夠,當然同時也看hdfs日誌,hdfs本來就是適合大檔案儲存,同時每條日誌儲存有自己的路徑有namenode datanode,現在這樣一條日誌或者百千條日誌就進行一次日誌儲存的效率明顯很低。

進行速度測試:

spark - kafka -logstash:從spark從kafka中取出原始日誌然後將結果寫入kafka的另一個topic這樣的速度是OK的, 然後嘗試結果資料再次通過logstash從kafka取出寫入hdfs速度是跟不上的。

flume: 直接從kafka中取出然後按域名時間分類,寫入本地或者直接螢幕上列印速度都是可以的。

最後的解決是:

flume自定義fliter外掛(java),outPutSink外掛(java),寫入本地(這樣已經測試速度是OK的,時間域名分割儲存還未OK),本地形成大檔案後寫入hdfs(這裡可以直接通過hdfs的api實現,linux定時指令碼呼叫即可)

當然也可以直接用hbase進行原始日誌的儲存

git地址示例:

https://github.com/penghaoyou5/Flume-plug-in-log

直接上配置:

[email protected]:~/apps/hadoop-2.6.4/etc/hadoop$ cat core-site.xml

<configuration>

<property>

<name>fs.defaultFS</name>

<value>hdfs://sp26:9000</value>

</property>

<property>

<name>hadoop.tmp.dir</name>

<value>/home/ubuntu/hdpdata</value>

</property>

</configuration>


[email protected]:~/apps/hadoop-2.6.4/etc/hadoop$ cat hadoop-env.sh

export JAVA_HOME=/home/ubuntu/apps/jdk1.7.0_45


[email protected]:~/apps/hadoop-2.6.4/etc/hadoop$ cat hdfs-site.xml

<configuration>

<property>

<name>dfs.namenode.name.dir</name>

<value>/mnt/data2/wlkhadname,/mnt/data3/wlkhadname,/mnt/data4/wlkhadname,/mnt/data5/wlkhadname,/mnt/data6/wlkhadname,/mnt/data7/wlkhadname,/mnt/data8/wlkhadname,/mnt/data9/wlkhadname,/mnt/data10/wlkhadname</value>

</property>

<property>

<name>dfs.datanode.data.dir</name>

<value>/mnt/data2/wlkhaddata,/mnt/data3/wlkhaddata,/mnt/data4/wlkhaddata,/mnt/data5/wlkhaddata,/mnt/data6/wlkhaddata,/mnt/data7/wlkhaddata,/mnt/data8/wlkhaddata,/mnt/data9/wlkhaddata,/mnt/data10/wlkhaddata</value>

</property>

<property>

<name>dfs.replication</name>

<value>2</value>

</property>

<property>

<name>dfs.secondary.http.address</name>

<value>sp26:50090</value>

</property>

<property>

<name>dfs.datanode.max.xcievers</name>

<value>8192</value>

</property>

</configuration>


[email protected]:~/apps/hadoop-2.6.4/etc/hadoop$ cat slaves

sp27

sp28

sp29

sp30


相關推薦

資料日誌分析系統-hdfs日誌儲存

hdfs簡介:Hadoop分散式檔案系統(HDFS)被設計成適合執行在通用硬體(commodity hardware)上的分散式檔案系統。專案需求:使用hdfs進行客戶需要的指定域名時間打包日誌 以及原始日誌儲存進行離線計算遇到的問題:在這一步遇到的一個重要的問題:問題:從k

智慧工廠資料管控分析系統

智慧工廠的發展是因為製造業是國民經濟基礎,在《中國製造2025》規劃中提出:確立以加快新一代資訊科技與製造業深度融合為主線、促進從“中國製造”向“中國智造”轉型升級,實現製造業由大變強的歷史跨越。 MES系統是一套面向製造企業車間執行層最基礎的生產資訊化管理系統,可以為企業提供包括製造資料管理、計劃排程管理

深度解析 Twitter Heron 資料實時分析系統

所有的老的生產環境的topology已經執行在Heron上, 每天大概處理幾十T的資料, billions of訊息 為什麼要重新設計Heron: 【題外話】這裡完全引用作者吐槽的問題, 不少問題,其實JStorm已經解決 (1)debug-ability 很差, 出現問題,很難發現 1.1 多個t

資料專案實戰之 --- 某App管理平臺的手機app日誌分析系統(三)

一、建立hive分割槽表 ---------------------------------------------------- 1.建立資料庫 $hive> create database applogsdb; 2.建立分割槽表 編寫指令碼。

資料日誌分析系統-logstash

logstash簡介Logstash 是一個開源的資料收集引擎,它具有備實時資料傳輸能力。它可以統一過濾來自不同源的資料,並按照開發者的制定的規範輸出到目的地。logstash-2.2.2的配置:從logstash-forward        到kafka的配置[email

資料學習筆記之flume----日誌收集系統

一、flume基本概念 Flume是Cloudera提供的一個高可用的,高可靠的,分散式的海量日誌採集、聚合和傳輸的系統; Flume支援在日誌系統中定製各類資料傳送方,用於收集資料; Flume提供對資料進行簡單處理,並寫到各種資料接受方(可定製)的能力。 總結:f

資料學習——點選流日誌每天都10T,在業務應用伺服器上,需要準實時上傳至(Hadoop HDFS)上

點選流日誌每天都10T,在業務應用伺服器上,需要準實時上傳至(Hadoop HDFS)上 1需求說明 點選流日誌每天都10T,在業務應用伺服器上,需要準實時上傳至(Hadoop HDFS)上 2需求分析 一般上傳檔案都是在凌晨24點操作,由於很多種類的業務資料都要在晚上進行傳輸,為了減輕伺服器的壓力,

ELK日誌分析系統(3)-logstash資料處理

  1. 概述   logspout收集資料以後,就會把資料傳送給logstash進行處理,本文主要講解logstash的input, filter, output處理 2. input   資料的輸入處理   支援tcp,udp等協議     晚上找資料建議在使用 LogStash::I

ELK日誌分析系統 介紹 安裝配置

elkELK日誌分析系統一、ELK介紹 ELK顧名思義:是由Elasticsearch,Logstash 和 Kibana三部分組成的。 其中Elasticsearch 是一個實時的分布式搜索和分析引擎,它可以用於全文搜索,結構化搜索以及分析。它是一個建立在全文搜索引擎 Apache Lucene

開源日誌分析系統ELK平臺搭建部署

logstash 日誌分析系統 elk 開源日誌分析系統ELK平臺搭建部署 一、前言日誌主要包括系統日誌、應用程序日誌和安全日誌。系統運維和開發人員可以通過日誌了解服務器軟硬件信息、檢查配置過程中的錯誤及錯誤發生的原因。經常分析日誌可以了解服務器的負荷,性能安全性,從而及時采取措施糾正錯誤。通常

ELK日誌分析系統搭建配置

elk我們主要用ELK日誌分析系統來分析Nginx訪問日誌,mysql慢查詢日誌,tomcat運行日誌以及系統日誌等。介紹:ELK:ElasticSearch+LogStash+Kibana=ElkStackElasticSearch:存儲、收索、分析(可以用solr替代)LogStash:收集器,輸入,處理

ELK 日誌分析系統

日誌 elk 分析系統 轉自:http://467754239.blog.51cto.com/4878013/1700828/ 一、簡介1、核心組成ELK由Elasticsearch、Logstash和Kibana三部分組件組成;Elasticsearch是個開源分布式搜索引擎,它的特點有:分布式

awstats日誌分析系統部署

awstats日誌分析系統部署1.確認apache已經安裝:netstat -utpln |grep 802.下載與解壓:lftp ftp.linuxyy.cn-->cd tools-->get awstats-7.3.tar.gztar zxvf awstats-7.3.tar.gz mv aw

Windows搭建Log4Net+FileBeat+ELK日誌分析系統過程以及問題總結

程序 列表 dia could 重新 font 無法 elk 遇到 安裝流程: 稍後補充 參考內容:http://udn.yyuap.com/thread-54591-1-1.html ; https://www.cnblogs.com/ya

Windows系統下Log4Net+FileBeat+ELK日誌分析系統問題總結

主機 2-0 ngs 提示 編碼 規則 ast 進行 同步問題 問題如下:1.FileBeat日誌報 "dial tcp 127.0.0.1:5544: connectex: No connection could be made because the target ma

部署Awstats日誌分析系統

awstats知識部分·什麽是AWStats:AWStats分析系統是使用Perl語言開發的一款開源日誌分析系統。可用於分析Apache、Samba、Vsftpd、IIS等服務的日誌信息。也可以結合crond等計劃任務,不斷對增長的日誌進行定期分析。操作步驟1、解壓軟件包,並將文件移動到/usr/local下

ELK日誌分析系統實踐

ELK一、ELK介紹 官網: https://www.elastic.co/cn/ 中文指南 https://legacy.gitbook.com/book/chenryn/elk-stack-guide-cn/details ELK Stack(5.0版本後)-->Elastic St

AWStats 強大的日誌分析系統

軟件包 classes pac 網頁 客戶 localhost 介紹 image default 需求 在日常web服務器的運行中,記錄了大量的客戶機訪問的信息,而如何快捷地知道此刻web服務器的訪問及運行情況,如每天的訪問IP數量、點擊量最大的頁面、每日的訪問高峰時間段

Nginx中AWStats日誌分析系統部署

sha apach wro localhost require ade ping better httpd AWStats介紹 AWStats是使用Perl語言開發的一款開源日誌分析系統,它不僅可用來分析Apache網站服務器的訪問日誌,也可以用來分析Samba、Vsft

CentOS7.3下ELK日誌分析系統集群搭建

rtu 服務器端 output 行修改 disco boot 刷新 客戶端 tst Elasticsearch是個基於Lucene實現的開源、分布式、restful的全文本搜索引擎,此外他還是一個分布式實時文檔存儲,其中每個文檔的每個filed均是可被索引的數據,且可被