電商大資料分析平臺（三）nginx配置及flume讀取日誌資訊

阿新 • • 發佈：2018-12-10

一、nginx配置

在本專案中nginx的作用只是接收客戶端傳送的事件，並將相應的session寫入日誌檔案中，所以配置較為簡單，只需要配置寫入的日誌檔案和寫入的格式

1.地址配置

        server {
                listen       80;
                location = /index{
                        index index.html index.html;
                        root /data/www/vhost1;
                        }
                location /log.gif{
                        root /data/www/vhost1;
                        access_log /var/log/nginx/access.log main;
                        }

2.日誌格式設定

log_format main  '$remote_addr - $http_referer - $server_addr - $request_uri';

二、flume配置

flume在這裡主要是對nginx產生的access.log檔案進行監聽，當有session記錄時flume將其提取並寫入HDFS中，flume的source端用的是exec的source，即通過命令監控，命令的話為tail -F /var/log/nginx/access.log即持續監控日誌檔案尾部。sink部分用的就是hdfs的sink，設定寫入路徑為hdfs的flume資料夾下的以年月日作為名稱的資料夾中，再設定一些自己的引數即可，flume配置如下

# example.conf: A single-node Flume configuration
  
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = exec
a1.sources.r1.command = tail -F /var/log/nginx/access.log

# Describe the sink
a1.sinks.k1.type = hdfs
a1.sinks.k1.hdfs.path = hdfs://master:8020/flume/%Y-%m-%d
a1.sinks.k1.hdfs.rollsize = 10240000
a1.sinks.k1.hdfs.rollInterval = 0
a1.sinks.k1.hdfs.fileType = DataStream
a1.sinks.k1.hdfs.idleTimeout = 0
a1.sinks.k1.hdfs.useLocalTimeStamp = true

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

三、測試執行

首先先在windows上新建一個web測試專案，最簡單的就可以，然後在WebContent資料夾下新建一個叫js的資料夾，把寫的js sdk放進去，在web專案的jsp檔案中加上這麼一行程式碼
```
<script type="text/javascript" src="js/analytics.js"></script>
```
這樣一來，使用者每次點選該頁面都會自動呼叫js的sdk傳送事件資訊給nginx
啟動主結點上的nginx伺服器，持續監測access.log檔案，即tail -F /var/log/nginx/access.log

在瀏覽器中輸入我們新建好的web專案的地址，點選進入內嵌sdk的頁面，這是發現access.log檔案增加了這樣的資訊

192.168.174.1 - http://localhost:8080/WebTest/ - 192.168.174.141 - /log.gif?en=e_pv&p_url=http%3A%2F%2Flocalhost%3A8080%2FWebTest%2F&tt=Insert%20title%20here&ver=1&pl=website&sdk=js&u_ud=fd309e7b-5740-3930-00f5-e7f529c26a72&u_mid=8059a633-e4ac-afe4-0d5e-e44ba2aed824&c_time=1537066699170&l=zh-CN&b_iev=Mozilla%2F5.0%20(Windows%20NT%2010.0%3B%20WOW64)%20AppleWebKit%2F537.36%20(KHTML%2C%20like%20Gecko)%20Chrome%2F68.0.3440.106%20Safari%2F537.36&b_rst=1536*864

說明我們的sdk已經成功地想nginx伺服器傳送了session。

啟動hadoop

啟動flume

flume-ng agent –conf ../conf –conf-collect.conf(之前配置flume的檔名稱) ../conf/flume-spool.conf –name agent -Dflume.root.logger=INFO,console

這時我們再點選幾下web頁面，然後進入自己的hdfs中，發現新建了一個年-月-日為名的資料夾，上面的session資訊已經被寫到裡面的檔案中了。
測試成功，可以進行下一步了，也就是通過mapreduce對hdfs中的資料進行ETL並且寫到hbase中。

電商大資料分析平臺（三）nginx配置及flume讀取日誌資訊

一、nginx配置在本專案中nginx的作用只是接收客戶端傳送的事件，並將相應的session寫入日誌檔案中，所以配置較為簡單，只需要配置寫入的日誌檔案和寫入的格式 1.地址配置 server { listen

電商大資料分析平臺專案（一）專案框架

開發可以在web專案中內嵌的js sdk。每當使用者瀏覽到網站頁面或者觸發某種事件時，會呼叫js程式碼，根據使用者cookie傳送一個session資訊這時到我們的nginx伺服器中。 nginx伺服器在接收到傳送的session後會將其寫入日誌檔案中記錄下來，這時監聽日誌檔案的flume會將session

大資料之Spark（三）--- Spark核心API，Spark術語，Spark三級排程流程原始碼分析

一、Spark核心API ----------------------------------------------- [SparkContext] 連線到spark叢集,入口點. [HadoopRDD] extends RDD 讀取hadoop

大資料之scala（三） --- 類的檢查、轉換、繼承，檔案，特質trait，操作符，apply，update，unapply，高階函式，柯里化，控制抽象，集合

一、類的檢查和轉換 -------------------------------------------------------- 1.類的檢查 isInstanceOf -- 包括子類 if( p.isInstanceOf[Employee]) {

我們為什麼要學習大資料分析？（二）

在前面我們給大家說了為什麼要學習大資料分析的原因，比如大資料分析能夠增加從業人員的工資、可以獲得更多的就業機會、大資料分析滲透的領域越來越廣泛等。當然我們學習大資料分析的原因不只是這些，還有很多其他的原因。不過估計大家一時半會想不到更多的學習大資料分析的理由或原因吧？下面就由小編接著給大家講一下這個問題，

如何做好資料分析報告（三）

資料分析報告在資料分析工作中是一個重要的工作環節，所以我們在做資料分析報告的時候要注意資料分析的框架構建應用，這樣方便我們能夠做出更好的資料分析報告。在前面的文章中我們給大家介紹了分析思路與框架以及分析思路與框架的作用原則，在這篇文章中我們給大家介紹幾個比較經典的資料分析架構，希望這篇文章能夠給大家帶來幫

大資料架構簡述（三）：流處理、批處理、互動式查詢

我們將大資料處理按處理時間的跨度要求分為以下幾類基於實時資料流的處理，通常的時間跨度在數百毫秒到數秒之間基於歷史資料的互動式查詢，通常時間跨度在數十秒到數分鐘之間複雜的批

大資料分析工具（下）

查詢引擎一、Phoenix 簡介：這是一個Java中間層，可以讓開發者在Apache HBase上執行SQL查詢。Phoenix完全使用Java編寫，程式碼位於GitHub上，並且提供了一個客戶端可嵌入的JDBC驅動。 Phoenix查詢引擎會將SQL查詢轉換為

搭建ELK日誌分析平臺（上）—— ELK介紹及搭建 Elasticsearch 分散式叢集

轉：http://blog.51cto.com/zero01/2079879 筆記內容：搭建ELK日誌分析平臺（上）—— ELK介紹及搭建 Elasticsearch 分散式叢集筆記日期：2018-03-02 27.1 ELK介紹 27.2 ELK安裝準備工作 27.3 安

大資料之hbase（四） --- rowkey設計原則模擬通話日誌，BloomFilter，phonix環境部署，hive-hbase整合

一、rowkey設計 -- 模擬通話日誌 -------------------------------------------------- 1.建表 $hbase> create 'ns1:calllogs' , 'f1' 2.編寫

Nginx之（三）Nginx配置

一個簡單的配置檔案如下：#定義Nginx執行的使用者及使用者組 user userName userGroupName; #工作程序數目，根據硬體調整，通常等於CPU數量或者2倍於CPU worker_processes 1; #錯誤日誌路徑與級別，級別選項：debug|info|notice|

Spark 2.0大型專案實戰：移動電商app互動式資料分析平臺（大資料高階課程）下載

001.課程介紹.flv 002.課程環境搭建-CentOS 6.4叢集搭建(1).flv 002.課程環境搭建-CentOS 6.4叢集搭建(2).flv 003.課程環境搭建-hadoop-2.5.0-cdh5.3.6叢集搭建.flv 004.課程環境搭建-

大資料專案實戰之 --- 某App管理平臺的手機app日誌分析系統（三）

一、建立hive分割槽表 ---------------------------------------------------- 1.建立資料庫 $hive> create database applogsdb; 2.建立分割槽表編寫指令碼。

電商大資料專案（二）-推薦系統實戰之實時分析以及離線分析

電商大資料專案-推薦系統實戰（一）環境搭建以及日誌，人口，商品分析http://blog.51cto.com/6989066/2325073電商大資料專案-推薦系統實戰之推薦演算法http://blog.51cto.com/6989066/2326209電商大資料專案-推薦系統實戰之實時分析以及離線分析htt

大資料之Spark（七）--- Spark機器學習，樸素貝葉斯，酒水評估和分類案例學習，垃圾郵件過濾學習案例，電商商品推薦，電影推薦學習案例

一、Saprk機器學習介紹 ------------------------------------------------------------------ 1.監督學習 a.有訓練資料集,符合規範的資料 b.根據資料集，產生一個推斷函式

python資料分析與挖掘學習筆記（6）-電商網站資料分析及商品自動推薦實戰與關聯規則演算法

這一節主要涉及到的資料探勘演算法是關聯規則及Apriori演算法。由此展開電商網站資料分析模型的構建和電商網站商品自動推薦的實現，並擴充套件到協同過濾演算法。關聯規則最有名的故事就是啤酒與尿布的故事，非常有效地說明了關聯規則在知識發現和資料探勘中起的作用和意義。其中有

大資料之Spark（一）--- Spark簡介，模組，安裝，使用，一句話實現WorldCount，API，scala程式設計，提交作業到spark叢集，指令碼分析

一、Spark簡介 ---------------------------------------------------------- 1.快如閃電的叢集計算 2.大規模快速通用的計算引擎 3.速度: 比hadoop 100x,磁碟計算快10x 4.使用: java

電商大資料專案-推薦系統實戰之推薦演算法

(1)電商大資料專案-推薦系統實戰http://blog.51cto.com/6989066/2325073 （七）推薦系統常用演算法協同過濾演算法協同過濾演算法（Collaborative Filtering：CF）是很常用的一種演算法，在很多電商網站上都有用到。CF演算法包括基於使用者的CF（User-

初學者如何快速開發大資料分析平臺

大資料在近幾年受到越來越多的關注，如何將大資料快速落地於生產實踐，產生相應的經濟價值一直是一個值得關注的問題。當談到大資料，人們首先想到的是，是不是的linux,是不是的學習java,這給大資料技術的應用帶來一定的困難。如果，有一款通用的大資料平臺，只需要針對具體的業務系統修改資料庫和演

大資料之storm（一） --- storm簡介，核心元件，工作流程，安裝和部署，電話通訊案例分析，叢集執行，單詞統計案例分析，調整併發度

一、storm簡介 --------------------------------------------------------- 1.開源，分散式，實時計算 2.實時可靠的處理無限資料流，可以使用任何語言開發 3.適用於實時分析，線上機器學習

電商大資料分析平臺（三）nginx配置及flume讀取日誌資訊

一、nginx配置

二、flume配置

三、測試執行

相關推薦