1. 程式人生 > >awk 分析 nginx 日誌

awk 分析 nginx 日誌

開發十年,就只剩下這套架構體系了! >>>   

Nginx日誌格式:'$remote_addr - $remote_user [$time_local] "$request" $status $body_bytes_sent "$http_referer" "$http_user_agent" "$http_x_forwarded_for"'

日誌記錄:

1)統計日誌中訪問最多的10個IP

思路:對第一列進行去重,並輸出出現的次數

方法1:

awk '{a[$1]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log

方法2:

awk '{print $1}' access.log |sort |uniq -c |sort -k1 -nr |head -n10

說明:a[$1]++ 建立陣列a,以第一列作為下標,使用運算子++作為陣列元素,元素初始值為0。處理一個IP時,下標是IP,元素加1,處理第二個IP時,下標是IP,元素加1,如果這個IP已經存在,則元素再加1,也就是這個IP出現了兩次,元素結果是2,以此類推。因此可以實現去重,統計出現次數。

 

2)統計日誌中訪問大於100次的IP

方法1:awk '{a[$1]++}END{for(i in a){if(a[i]>100)print i,a[i]}}' access.log

方法2:awk '{a[$1]++;if(a[$1]>100){b[$1]++}}END{for(i in b){print i,a[i]}}' access.log

說明:方法1是將結果儲存a陣列後,輸出時判斷符合要求的IP。方法2是將結果儲存a陣列時,並判斷符合要求的IP放到b陣列,最後列印b陣列的IP。

 

3)統計2019年3月14日一天內訪問最多的10個IP

思路:先過濾出這個時間段的日誌,然後去重,統計出現次數

方法1:awk '$4>="[14/Mar/2019:00:00:01" && $4<="[14/Mar/2019:23:59:59" {a[$1]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log

方法2: sed -n '/\[14\/Mar\/2019:00:00:01/,/\[14\/Mar\/2019:23:59:59/p' access.log |sort |uniq -c |sort -k1 -nr |head -n10  #前提開始時間與結束時間日誌中必須存在

 

4)統計訪問最多的前10個頁面($request)

awk '{a[$7]++}END{for(i in a)print a[i],i|"sort -k1 -nr|head -n10"}' access.log

 

5)統計每個URL訪問內容的總大小($body_bytes_sent)

awk  '{a[$7]++;size[$7]+=$10}END{for(i in a)print a[i],size[i],i}' access.log

 

6)統計每個IP訪問狀態碼數量($status)

awk  '{a[$1" "$9]++}END{for(i in a)print i,a[i]}' access.log

 

7)統計訪問狀態碼為404的IP及出現次數

awk '{if($9~/404/)a[$1" "$9]++}END{for(i in a)print i,a[i]}' acce