【Hadoop】基於Hadoop/Hbase/Hive的小型離線伺服器日誌分析應用

阿新 • • 發佈：2019-01-04

1、專案簡介

本專案主要設計一個基於Hadoop的日誌分析系統。其中的日誌資料主要來自於某系統開發測試期間的伺服器訪問日誌資料（Tomcat），通過對這些日誌資料利用正則表示式等技術手段進行處理，提取出匹配到的目標資料資訊，將其進行歸類化處理，而對日誌分析處理方式中，本文探究了直接利用Hadoop的日誌分析功能和利用Hadoop+Hbase+Hive結合的技術實現對日誌進行分析的功能，作為對雲端計算技術的相關學習與入門，著重對相關技術的實現，程式碼結構的構成等進行研究，分析兩種方式是如何實現日誌分析功能的，並通過具體的程式設計實現相關的日誌分析功能。

本專案純屬自娛自樂型，僅供入門Hadoop的同學參考，大神請忽略

程式碼、資料和詳細的系統文件說明，已經上傳百度雲盤，全套開發工具（Hadoop-2.7.2/Hbase-1.1.2/Hive-1.2.1/Zookeeper-3.4.6/Mysql/VMware/Ubuntu14.0）。
專案的網盤地址：
連結：https://pan.baidu.com/s/1dGbylSd，另外一部分是技術文件和程式碼（需要找本人索要）
聯絡方式：
郵箱：[email protected](郵件內容請告知作何用？歡迎技術交流，不限於Hadoop/Oracle/Java/其他）

2、環境

hadoop-2.7.2+ hbase-1.1.2+ zookeeper-3.4.6+hive-1.2.1+Mysql（作為元資料庫）
三臺虛擬機器：
系統：Ubuntu14.0系統，JDK1.7
Hadoop: 1個Master（3G記憶體，作為NameNode） 2個Slave（1.5G記憶體，作為DataNode）
注（各個部分在整個環境中的角色功能）：
Hadoop：底層的HDFS環境，資料的儲存歸根結底還是儲存在HDFS上的
Hbase：資料庫
Zookeeper：用來進行叢集管理
Hive：將Map/Reduce的一系列操作封裝成了HQL（類似於SQL），方便統計查詢資料
Mysql：Hive需要資料庫作為元資料，Mysql充當元資料庫的作用

3、資料說明

參考專案文件《基於Hadoop的日誌分析系統》（在網盤資料裡有）

4、處理流程

兩種實現方式：
1 純基於Hadoop進行統計分析
(1)日誌檔案資料上傳至HDFS
(2)利用Map/Reduce，根據正則表示式進行統計（類似於詞頻統計）
(3)利用Partitioner類，根據正則匹配，將IP訪問量統計結果，每天訪問量統計結果，時間段統計結果，訪問方法比例統計結果輸出到不同的檔案（這時候結果還沒有排序）
(4)對HDFS輸出結果進行排序
(5)利用Echart進行結果展示

2 基於Hadoop+Hbase+Hive進行統計分析
(1)將本地的日誌資料檔案利用正則表示式進行提取，並抽入到Hbase
(2)利用Hive進行統計，統計結果和第一種方法一樣
(3)利用Echart進行結果展示

5、結果分析

實驗結果分為四個部分：

1，IP訪問次數統計圖

這裡寫圖片描述

從圖中可以看出每個IP訪問的次數和各IP所佔比例，其中開發人員訪問次數佔比很高。

2，訪問時段統計

這裡寫圖片描述

從圖中可以看出一天中每個時段訪問Tomcat的次數。其中，3點到8點的訪問次數很少，表明這個時間段人們沒有在工作；而10點到凌晨2點訪問次數一直都很多，表明這個時間段人們在工作，並且工作到很晚。

3，訪問請求方式統計

這裡寫圖片描述

從圖中可以看出，兩種訪問請求方式的所佔的比例。其中，使用get()方法訪問Tomcat的次數遠遠高於使用post()方法訪問的次數。

4，統計歷史每天的訪問量

這裡寫圖片描述

從圖中可以看出每天訪問Tomcat的次數。其中，11月和12月訪問Tomcat的次數比9月10月高，12月9日這天訪問Tomcat的次數最高。

6、參考資料以及需要注意的問題

5.3， hadoop叢集配置之hive1.2.0安裝部署（本次實踐採用遠端mysql，即mysql搭建在本地，而不是在虛擬機器）
http://www.mincoder.com/article/5809.shtml
http://blog.csdn.net/yingxiake/article/details/51656970
http://blog.csdn.net/thdline/article/details/51714431
http://blog.csdn.net/zhihaoma/article/details/48578589
http://www.cnblogs.com/edisonchou/p/4426096.html
需要注意的幾點：
（1）找到一個叫jline-2.1.2.jar的檔案，複製他，去hadoop主目錄將hadoop下的三個同名但不同版本的jline替換成剛剛複製的。（原版本刪除）
（2）執行元資料服務：
在主目錄輸入（在hive目錄下而不是其bin目錄下進入）
bin/hive –service metastore
（3）執行hive server
bin/hive –service hiveserver(可能是根據版本不同，如果時比較新的hive，需要在後面的命令列後面加2）見下面的
（4）以上的hiveserver在hive1.2.1中並不會出現，官網的說法是：
HiveServer is scheduled to be removed from Hive releases starting Hive 0.15. See HIVE-6977. Please switch over to HiveServer2.

5.4，hadoop，zookeeper，Hbase啟動關閉順序
（1）執行hadoop（主機上執行就可以了）
start-dfs.sh
start-yarn.sh
mr-jobhistory-daemon.sh start historyserver
（2）zookeeper執行（每個機子上面都要執行）
/usr/zookeeper-3.4.6/bin/zkServer.sh start
（3）執行Hbase（主機上執行就可以）
/usr/hbase-1.1.2/bin/start-hbase.sh
(4) 執行Hive（配置了的機子上執行）
hive –service metastore
hive –service hiveserver2
(5) 關閉Hive
直接關閉視窗，在jps命令之後可以看到runJar程序消失
（6）關閉Hbase
/usr/hbase-1.1.2/bin/stop-hbase.sh
（7）關閉zookeeper
/usr/zookeeper-3.4.6/bin/zkServer.sh stop
（8）關閉hadoop
stop-yarn.sh
stop-dfs.sh
mr-jobhistory-daemon.sh stop historyserver

【Hadoop】基於Hadoop/Hbase/Hive的小型離線伺服器日誌分析應用

1、專案簡介本專案主要設計一個基於Hadoop的日誌分析系統。其中的日誌資料主要來自於某系統開發測試期間的伺服器訪問日誌資料（Tomcat），通過對這些日誌資料利用正則表示式等技術手段進行處理，提取出匹配到的目標資料資訊，將其進行歸類化處理，而對日誌分

【轉】基於Hadoop的資料倉庫Hive 基礎知識

基於Hadoop的資料倉庫Hive 基礎知識 - miao君的文章 - 知乎 https://zhuanlan.zhihu.com/p/25608332 Hive是基於Hadoop的資料倉庫工具，可對儲存在HDFS上的檔案中的資料集進行資料整理、特殊查詢和分析處理，提供了類

【Java】基於TCP協議多執行緒伺服器-客戶端互動控制檯聊天室簡例

前兩天想到一個手機APP專案，使用到藍芽，發現BluetoothSocket和J2EE網路變成的Socket差不多，使用之餘順手寫一個多執行緒伺服器與客戶端互動實現聊天室的一個小例子，方便新人學習網路程式設計模組，期間使用到多執行緒和IO輸入輸出流的

【大數據幹貨】基於Hadoop的大數據平臺實施——整體架構設計

當我調度順序 .com 邊界 ilo 事情軟件架構設計行為大數據的熱度在持續的升溫，繼雲計算之後大數據成為又一大眾所追捧的新星。我們暫不去討論大數據到底是否適用於您的公司或組織，至少在互聯網上已經被吹噓成無所不能的超級戰艦。大數據的熱度在持續的升溫，繼雲計算之後大

【備忘】基於Hadoop，Spark大資料技術的推薦系統演算法實戰教程

課程簡介： 2017年最新大資料推薦系統演算法實戰視訊教程，共18.1G容量。附講義、程式碼與練習資料,配套齊全,高清不加密。課程介紹：網際網路行業是大資料應用最前沿的陣地，目前主流的大資料技術，包括 ha

【hadoop】16、學習hive操作語句

學習DDL語句建立物件的語句 Create/Drop/Alter Database Create Database CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMEN

【HDFS】解決hadoop fs -put時出現createBlockOutputStream異常

向HDFS上傳檔案時出現異常： INFO hdfs.DFSClient: Exception in createBlockOutputStream java.io.IOException: Got error, status message , ack with firstBadLink as

hadoop-2.5.0,hbase,hive,pig,sqoop,zookeeper 叢集安裝

1. 準備工作軟體準備: 1) Hadoop: hadoop-2.5.0.tar.gz 2) Jdk: jdk-7u71-linux-x64.tar.gz 3) Hive:apache-hive-0.13.1-bin.tar

【Rpc】基於開源Dubbo分布式RPC服務框架的部署整合

c-s 基於 1.8 git 編譯 handle direct 有著 ride 一、前言 Dubbo 作為SOA服務化治理方案的核心框架，用於提高業務邏輯的復用、整合、集中管理，具有極高的可靠性（HA）和伸縮性，被應用於阿裏巴巴各成員站點，同時在包括JD、當當在內的眾多互

【自動化】基於Spark streaming的SQL服務實時自動化運維

body oop nbsp define mysq tco source font getc 設計背景 spark thriftserver目前線上有10個實例，以往通過監控端口存活的方式很不準確，當出故障時進程不退出情況很多，而手動去查看日誌再重啟處理服務這個過程很低效

【轉】基於Map的簡易記憶化緩存

還在自己 == map cti extends inter end 參考資料看到文章後，自己也想寫一些關於這個方面的，但是覺得寫的估計沒有那位博主好，而且又會用到裏面的許多東西，所以幹脆轉載。但是會在文章末尾寫上自己的學習的的東西。原文出處如下： http://www

【redis】基於redis實現分布式並發鎖

val 內容等待隊列過多具體實現 exec ret abs con 基於redis實現分布式並發鎖（註解實現）說明　　前提, 應用服務是分布式或多服務, 而這些"多"有共同的"redis"; 　　GitHub: https:

【轉】基於localStorage的資源離線和更新技術

同時前端 event 原來 read 前端資源獲取 tex tor ServiceWorker的資源離線與更新 ServiceWorker是替代Application Cache的機制，目前為止其兼容性很差。 localStorage資源離線緩存與更新基本思路：將

【docker】基於Dockerfile構建mysqld服務鏡像

mysqld服務鏡像一創建構建目錄結構 # mkdir -pv docker/mysql# cd docker/mysql/二寫Dockerfile 文件# vim Dockerfile #此處 sshd:latest 為上篇文章中創建的鏡像#此Dockerfile 「dookerpool」的

【docker】基於Dockerfile構建monogdb服務鏡像

monogdb服務鏡像① 查看內容，包括寫好的Dockerfile和若幹腳本等。從GitHub Dockerpool社區賬戶下載Mongodb鏡像項目：git clone https://github.com/DockerPool/Mongodb.git 並修改文件[root@docker1 Mongodb]

ASP.NET CORE系列【四】基於Claim登錄授權

amp account 技術 time 其他 cookie first arp 好的介紹關於什麽是Claim？可以看看其他大神的文章： http://www.cnblogs.com/jesse2013/p/aspnet-identity-claims-base

【轉載】基於rasa的對話系統搭建（上）

生成模型 efi 實體類 total ted twisted -m serve feature 文章介紹使用rasa nlu和 rasa core 實現一個電信領域對話系統demo，實現簡單的業務查詢辦理功能，更完善的實現需要

【Scala】基於8.0版本的jdbc進行資料庫連接出現

下面這個程式碼可以正常執行，沒有問題 import java.sql.{Connection, DriverManager, ResultSet, Statement} object Main { def main(args: Array[String]): Unit = {

【Kubernetes】基於角色的許可權控制：RBAC

　　Kubernetes中所有的API物件，都儲存在Etcd裡，對這些API物件的操作，一定都是通過訪問kube-apiserver實現的，原因是需要APIServer來做授權工作。　　在Kubernetes中，負責完成授權（Authorization）工作的機制，就是RBAC：基於角色的訪問控制（Rol

【原始碼】基於IEEE 14匯流排標準的複合微電網SIMULINK模型

本程式設計了一種基於IEEE 14匯流排標準的複合微電網模型，該微電網模型包括柴油發電機、PV模型、電池儲能系統、電弧爐等非線性負載。微電網採用併網執行方式。本模型的參考文獻： A new approach for soft synchronization of microgri

【Hadoop】基於Hadoop/Hbase/Hive的小型離線伺服器日誌分析應用

1、專案簡介

2、環境

3、資料說明

4、處理流程

5、結果分析

6、參考資料以及需要注意的問題

相關推薦