通過實時日誌分析_進行訪問日誌的快速統計

阿新 • • 發佈：2019-02-20

原文連結

簡介

很多個人站長在搭建網站時使用nginx作為伺服器，為了瞭解網站的訪問情況，一般有兩種手段：

使用CNZZ之類的方式，在前端頁面插入js，使用者訪問的時候觸發js，記錄訪問請求。
利用流計算、或離線統計分析nginx的access log，從日誌中挖掘有用資訊。

兩種方式各有優缺點：

CNZZ使用起來比較簡單，各種指標定義清楚。但這種方式只能記錄頁面的訪問請求，像ajax之類的請求是無法記錄的，還有爬蟲資訊也不會記錄。
利用流計算、離線計算引擎可以支援個性化需求，但需要搭建一套環境，並且在實時性以及分析靈活性上比較難平衡。

兩種手段相互補充，才能對網站的狀況有更加深入的瞭解。

日誌服務在查詢基礎上新推出來SQL支援實時日誌分析功能，極大的降低了站長們分析access log的門檻，本文將詳細介紹如何使用日誌服務分析access log中的各種指標。

Nginx訪問日誌格式

一個典型的nginx訪問日誌配置：

      log_format  main  '$remote_addr - $remote_user [$time_local] "$request" $http_host '
                        '$status $request_length $body_bytes_sent "$http_referer" '
                        '"$http_user_agent 
"  $request_time';

      access_log  access.log  main;

欄位解釋：

remote_addr : 客戶端地址
remote_user : 客戶端使用者名稱
time_local : 伺服器時間
request : 請求內容，包括方法名，地址，和http協議
http_host : 使用者請求是使用的http地址
status : 返回的http 狀態碼
request_length : 請求大小
body_bytes_sent : 返回的大小
http_referer : 來源頁
http_user_agent : 客戶端名稱
request_time : 整體請求延時

收集訪問日誌到日誌服務

首先把日誌收集到日誌服務
把日誌收集到日誌服務後，設定每一列的型別：

注：其中request拆分城method 和uri兩列

日誌樣例：

分析訪問日誌

通常，對access log的訪問需求有，檢視網站的pv，uv，熱點頁面，熱點方法，錯誤請求，客戶端型別，來源頁面等等。下文將逐個介紹各個指標的計算方法。

PV統計不僅可以一段時間總的PV，還可以按照小的時間段，檢視每段時間的，比如每5分鐘pv

統計程式碼

*|select from_unixtime( __time__- __time__% 300) as t, 
     count(1) as pv  
     group by __time__- __time__% 300 
     order by t limit 60

統計結果

統計一小時內每5分鐘的UV

統計程式碼：

*|select from_unixtime( __time__- __time__% 300) as t,
        approx_distinct(remote_addr) as uv  
        group by __time__- __time__% 300 
        order by t limit 60

統計一小時內總的UV

統計程式碼：
```
*|select approx_distinct(remote_addr)  
```
統計結果：

最近一小時訪問最多的10個頁面

*|select url,count(1) as pv group by url order by pv desc limit 10

最近一小時各種請求方法的佔比

*| select method, count(1) as pv group by method

最近一小時各種http狀態碼的佔比

*| select status, count(1) as pv group by status

最近一小時各種瀏覽器的佔比

*| select user_agent, count(1) as pv group by user_agent

最近一小時referer來源於不同域名的佔比
```
*|select url_extract_host(http_referer) ,count(1) group by url_extract_host(http_referer)
```
注：url_extract_host為從url中提取域名
最近一小時使用者訪問不同域名的佔比
```
*|select  http_host ,count(1) group by http_host
```
一些高階功能

除了一些訪問指標外，站長常常還需要對一些訪問請求進行診斷，檢視一下處理請求的延時如何，有哪些比較大的延時，哪些頁面的延時比較大。

通過每5分鐘的平均延時和最大延時, 對延時的情況有個總體的把握

*|select from_unixtime(__time__ -__time__% 300) as time, 
         avg(request_time) as avg_latency ,
         max(request_time) as max_latency  
         group by __time__ -__time__% 300 
         limit 60

知道了最大延時之後，我們需要知道最大延時對應的請求頁面是哪個，方便進一步優化頁面響應。
```
*|select from_unixtime(__time__ - __time__% 60) , 
  max_by(url,request_time)  
  group by __time__ - __time__%60
```
從總體把握，我們需要知道網站的所有請求的延時的分佈, 把延時分佈在十個桶裡邊，看每個延時區間的請求個數
```
*|select  numeric_histogram(10,request_time)
```
除了最大的延時，我們還需要知道最大的十個延時，對應的值是多少
```
*|select max(request_time,10)
```

當我們知道了/0這個頁面的訪問延時最大，為了對/0頁面進行調優，接下來需要統計/0這個頁面的訪問PV,UV,各種method次數，各種status次數,各種瀏覽器次數，平均延時，最大延時

url:"/0"|select count(1) as pv, approx_distinct(remote_addr) as uv, histogram(method) as method_pv,histogram(status) as status_pv, histogram(user_agent) as user_agent_pv, avg(request_time) as avg_latency,  max(request_time) as max_latency

同時，我們也可以限定只檢視request_time 大於1000的請求的pv，uv，以及各個url的請求次數

request_time > 1000 |select count(1) as pv, approx_distinct(remote_addr) as uv, histogram(url) as url_pv

原文連結

通過實時日誌分析_進行訪問日誌的快速統計

原文連結簡介很多個人站長在搭建網站時使用nginx作為伺服器，為了瞭解網站的訪問情況，一般有兩種手段：使用CNZZ之類的方式，在前端頁面插入js，使用者訪問的時候觸發js，記錄訪問請求。利用流計算、或離線統計分析nginx的access log，從日誌中挖掘有

dubbo之日誌適配及訪問日誌

訪問日誌 DDU ring toc accesslog span rate slf4j spa 日誌適配自 2.2.1 開始，dubbo 開始內置 log4j、slf4j、jcl、jdk 這些日誌框架的適配 1，也可以通過以下方式顯示配置日誌輸出策略：命令行

lamp-日誌設置（訪問日誌切割、不記錄靜態文件日誌、緩存文件過期時間）

lamp 訪問日誌訪問日誌切割設置靜態文件不記錄日誌設置緩存靜態文件過期時間訪問日誌不記錄指定類型的文件在網站大多數元素為靜態文件，比如圖片、css、js等，這些靜態文件都可以不用記錄，我們只需要記錄哪個ip訪問了那個網頁就可以；編輯配置文件 vim /usr/local/ap

6.訪問日誌靜態文件,訪問日誌切割，靜態元素過期時間

訪問日誌靜態文件；訪問日誌切割靜靜態元素過期時間 [toc] 10.22 訪問日誌不記錄靜態文件很多網站大多為靜態網頁，網頁內部的圖片、css文件等同樣有其網址鏈接，如果不設置，這些無效的信息也將被存入訪問日誌中，會導致訪問日誌文件大小快速增加，占用大量存儲空間。我們可以通過設置不記錄某些文

大資料技術學習筆記之網站流量日誌分析專案：Flume日誌採集系統1

一、網站日誌流量專案 -》專案開發階段： -》可行性分析 -》需求分析

Hadoop學習筆記—20.網站日誌分析專案案例（三）統計分析

網站日誌分析專案案例（三）統計分析：當前頁面一、藉助Hive進行統計1.1 準備工作：建立分割槽表　　為了能夠藉助Hive進行統計分析，首先我們需要將清洗後的資料存入Hive中，那麼我們需要先建立一張表。這裡我們選擇分割槽表，以日期作為分割槽的指標，建表語句如下：（這裡關鍵之

日誌分析方法概述 & Web日誌挖掘分析的方法

本文討論的日誌處理方法中的日誌，僅指Web日誌。其實並沒有精確的定義，可能包括但不限於各種前端Web伺服器——apache、lighttpd、tomcat等產生的使用者訪問日誌，以及各種Web應用程式自己輸出的日誌。在Web日誌中，每條日誌通常代表著使用者的一次訪問行為，例如下面就是一條典型的apac

日誌分析平臺ELK之日誌收集器logstash

　　前文我們聊解了什麼是elk，elk中的elasticsearch叢集相關元件和叢集搭建以及es叢集常用介面的說明和使用，回顧請檢視考https://www.cnblogs.com/qiuhom-1874/p/13758006.html；今天我們來了解下ELK中的日誌收集器logstash；　　logst

日誌分析平臺ELK之日誌收集器logstash常用外掛配置

　　前文我們瞭解了logstash的工作流程以及基本的收集日誌相關配置，回顧請參考https://www.cnblogs.com/qiuhom-1874/p/13761906.html；今天我們來了解下logstash的常用input外掛和filter外掛的相關配置；　　先說filter外掛吧，繼續上一篇部

日誌分析平臺ELK之日誌收集器filebeat

　　前面我們瞭解了elk叢集中的logstash的用法，使用logstash處理日誌挺好的，但是有一個缺陷，就是太慢了；當然logstash慢的原因是它依賴jruby虛擬機器，jruby虛擬機器就是用java語言開發的ruby虛擬機器，本身java程式執行在jvm上就已經很慢了，而logstash還要執行在用

使用Flume+Kafka+SparkStreaming進行實時日誌分析

每個公司想要進行資料分析或資料探勘，收集日誌、ETL都是第一步的，今天就講一下如何實時地（準實時，每分鐘分析一次）收集日誌，處理日誌，把處理後的記錄存入Hive中，並附上完整實戰程式碼 1. 整體架構思考一下，正常情況下我們會如何收集並分析日誌呢？

通過監控Nginx日誌來實時屏蔽高頻惡意訪問的IP

節點 warn continue pre new pen lin requests 兩種目前在我的VPS上主要通過兩種方式來限制ip的訪問次數。通過Nginx的limit_req配置來限制同一ip在一分鐘內的訪問次數通過Nginx deny封禁一天內超過指定次數的i

python腳本分析nginx訪問日誌

char data uri Coding php utf8 客戶 read oot 日誌格式如下： 223.74.135.248 - - [11/May/2017:11:19:47 +0800] "POST /login/getValidateCode HTTP/1.1"

ELK服務搭建（開源實時日誌分析ELK平臺部署）（低版本—簡單部署）

搜索引擎應用程序官方網站服務器安全性 elk 開源實時日誌分析ELK平臺部署日誌主要包括系統日誌、應用程序日誌和安全日誌。系統運維和開發人員可以通過日誌了解服務器軟硬件信息、檢查配置過程中的錯誤及錯誤發生的原因。經常分析日誌可以了解服務器的負荷，性能安全性，從而及時采取措施糾正

開源實時日誌分析ELK平臺部署

jruby 最新版 tput home 賬號 stdin $2 sum 頁面 ELK架構圖： 1. JDK環境-------------------1.1 下載最新JDK，解壓到/usr/local/java目錄。1.2 設置環境變量打開/etc/profile，添加下面

ELK搭建實時日誌分析平臺(elk+kafka+metricbeat)-搭建說明

elk搭建實時日誌分析平臺數據流向：metricbeat->kafka->logstash->elasticsearch->kibana.應用分布：主機應用備註192.168.30.121java version "1.8.0_144"zookeeper-3.4.10.tar.gzka

ELK搭建實時日誌分析平臺(elk+kafka+metricbeat)-KAFKA搭建

kafka搭建（elk+kafka+metricbeat）一、kafka搭建建立elk目錄：mkdir /usr/loca/elk安裝zookeeper：192.168.30.121：192.168.30.122：192.168.30.123：3. kafka安裝： a. 192.168.30.121

sparkStreaming結合sparkSql進行日誌分析

pass mysql foreach eat instance dataframe sel park array package testimport java.util.Propertiesimport org.apache.spark.SparkConfimport o

ELK實時日誌分析平臺(elk+kafka+metricbeat)-logstash(四)

elk-logstash搭建1. 安裝並測試： 2. 添加配置： 3. 啟動檢查：本文出自 “linux” 博客，請務必保留此出處http://1054054.blog.51cto.com/1044054/1968431ELK實時日誌分析平臺(elk+kafka+metricbeat)-logs

shell 腳本分析nginx 訪問日誌狀態碼

shell 腳本分析 nginx 1.獲取nginx 日誌訪問狀態碼；grep -ioE "HTTP\/1\.[1|0]\"[[:blank:]][0-9]{3}" nginx_app.api.zhaoyifen.ssl.log grep -ioE "HTTP\/1\.[1|0]\"[[:blan

通過實時日誌分析_進行訪問日誌的快速統計

簡介

Nginx訪問日誌格式

收集訪問日誌到日誌服務

分析訪問日誌

一些高階功能

相關推薦