Spark SQL 分析 Nginx 訪問日誌

阿新 • • 發佈：2018-12-17

前言

專案地址

github: Spark SQL 分析 Imooc 訪問日誌

環境說明

Java版本：1.8
Scala版本：2.11.12
Hadoop版本：hadoop-2.6.0-cdh5.14.0
spark版本：spark-2.3.1-bin-2.6.0-cdh5.14.0（自己編譯）
MySQL版本：5.7.22
zeppelin版本：0.8

資料集

Imooc 訪問日誌檔案：access.20161111.log

資料量：一千多萬條訪問日誌、5G多

日誌格式：

60.165.39.1 - - [10/Nov/2016:00:01:53 +0800] "POST /course/ajaxmediauser HTTP/1.1" 200 54 "www.imooc.com" "http://www.imooc.com/code/1431" mid=1431&time=60 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0" "-" 10.100.136.64:80 200 0.014 0.014
14.145.74.175 - - [10/Nov/2016:00:01:53 +0800] "POST /course/ajaxmediauser/ HTTP/1.1" 200 54 "www.imooc.com" "http://www.imooc.com/video/678" mid=678&time=60&learn_time=551.5 "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36" "-" 10.100.136.64:80 200 0.014 0.014

百度雲盤下載地址：連結：https://pan.baidu.com/s/1VfOG14mGW4P4kj20nzKx8g 提取碼：uwjg

開發測試資料：access.1w.log（10000條）

需求

統計某天最受歡迎的TopN課程
統計某天各個省市各自的 TopN 課程
按照流量進行統計 TopN 課程
某天最受歡迎的文章
某天進行code最多的課程
統計某天最勤奮的 IP
歡迎補充…

統計結果視覺化(zeppelin展示)

開發步驟

資料清洗

根據需求，從日誌中解析出我們需要的資訊，譬如可能有：

訪問的系統屬性：作業系統、瀏覽器等等

訪問特徵：url、referer (從哪個url跳轉過來的)、頁面上的停留時間等
訪問資訊：session_id、訪問ip(訪問城市)等

主程式

SparkStatFormatJob.scala 第一步，清洗出 ip, time, url, traffic
SparkStatCleanJob.scala 第二步，最終清洗轉換得到 url、cmsType、cmsId、traffic、ip、city、time、day
AccessConvertUtil.scala 定義DataFrame schema，將日誌資訊轉為物件，幫助RDD轉為DataFrame
DateUtils.scala 時間格式轉換

步驟

使用 Spark SQL 解析訪問日誌
解析出課程編號型別
根據IP解析出城市名稱
使用 Spark SQL 將訪問時間按天進行分割槽輸出

關鍵程式碼

清洗第一步

accessFile.map(line => {
      val splits = line.split(" ") // 按空格分割
      val ip = splits(0) // 第一個是IP
      // 原始日誌的第三個和第四個欄位拼接起來就是完整的訪問時間： [10/Nov/2016:00:01:02 +0800] ==> yyyy-MM-dd HH:mm:ss
      val time = splits(3) + " " + splits(4)
      val url = splits(11).replaceAll("\"", "") // 第11個是 URL
      val traffic = splits(9) // 第9個是流量
      List(DateUtils.parse(time), url, traffic, ip)
    })
      // 過濾
      .filter(item => !"10.100.0.1".equals(item(3)))
      .filter(item => !"-".equals(item(1)))
      // 拼成一個物件 (DateUtils.parse(time), url, traffic, ip)
      .map(item => item(0) + "\t" + item(1) + "\t" + item(2) + "\t" + item(3))
      // 儲存
      .saveAsTextFile(Constants.protocol + Constants.tempOut)

清洗第二步

val filterRDD = accessRDD.map(line => AccessConvertUtil.parseLog(line))
val accessDF = spark.createDataFrame(filterRDD, AccessConvertUtil.struct)

// 儲存到 parquet
accessDF.coalesce(1).write.format("parquet").mode(SaveMode.Overwrite).partitionBy("day").save(Constants.protocol + Constants.cleanedOut)

清洗結果樣例


+--------------------------------------------+-------+-----+-------+---------------+----+-------------------+--------+
|url                                         |cmsType|cmsId|traffic|ip             |city|time               |day     |
+--------------------------------------------+-------+-----+-------+---------------+----+-------------------+--------+
|http://www.imooc.com/code/1852              |code   |1852 |2345   |117.35.88.11   |陝西省 |2016-11-10 00:01:02|20161110|
|http://www.imooc.com/learn/85/?src=360onebox|learn  |85   |14531  |115.34.187.133 |北京市 |2016-11-10 00:01:27|20161110|
|http://www.imooc.com/course/list?c=fetool   |course |0    |66     |120.198.231.151|廣東省 |2016-11-10 00:01:27|20161110|
|http://www.imooc.com/code/10047             |code   |10047|54     |101.36.73.155  |北京市 |2016-11-10 00:01:27|20161110|
+--------------------------------------------+-------+-----+-------+---------------+----+-------------------+--------+

Spark SQL 統計 TopN

主程式

TopNStatJob.scala Spark SQL 統計主類
StatDao.scala 將各個統計作業的統計結果寫到資料庫
MySQLUtils.scala 管理 MySQL JDBC 連線

關鍵程式碼

/**
  * 統計某天各個省市各自的 TopN 課程
  */
def cityAccessTopNStat(spark: SparkSession, accessDF: DataFrame, day: String): Unit = {
  import spark.implicits._
  val cityAccessTopNDF = accessDF.filter($"day" === day && $"cmsType" === "video" && $"cmsId" =!= "0")
    .groupBy("city", "day", "cmsId")
    .agg(count("cmsId").as("times"))

  // Window 函式在Spark SQL的使用: 視窗函式 row_number 的作用是根據表中欄位進行分組，然後根據表中的欄位排序，
  //  給組中的每條記錄新增一個序號；且每組的序號都是從1開始，可利用它的這個特性進行分組取top-n
  val top3DF = cityAccessTopNDF.select(
    cityAccessTopNDF("day"), cityAccessTopNDF("city"),
    cityAccessTopNDF("cmsId"), cityAccessTopNDF("times"),
    row_number().over(Window.partitionBy(cityAccessTopNDF("city")) // 根據 city 分組，根據 times 降序排序
      .orderBy(cityAccessTopNDF("times").desc)).as("times_rank")
  ).filter("times_rank <= 3")

  // 儲存到 MySQL，需建立結果表 day_video_city_access_topn_stat
  try {
    top3DF.foreachPartition(partition => {
      val list = new ListBuffer[DayCityVideoAccessStat]

      partition.foreach(item => {
        val day = item.getAs[String]("day")
        val cmsId = item.getAs[Long]("cmsId")
        val city = item.getAs[String]("city")
        val times = item.getAs[Long]("times")
        val timesRank = item.getAs[Int]("times_rank")
        list.append(DayCityVideoAccessStat(day, cmsId, city, times, timesRank))
      })
      StatDao.insertDayCityVideoAccessTopN(list)
    })
  } catch {
    case e: Exception => e.printStackTrace()
  }
}

統計結果樣例

+--------+-------+-----+-----+----------+
|day     |city   |cmsId|times|times_rank|
+--------+-------+-----+-----+----------+
|20161110|北京市    |1309 |20   |1         |
|20161110|北京市    |3369 |16   |2         |
|20161110|北京市    |4018 |15   |3         |
|20161110|遼寧省    |1336 |2    |1         |
|20161110|遼寧省    |9028 |1    |2         |
|20161110|遼寧省    |8141 |1    |3         |
|20161110|浙江省    |3078 |19   |1         |
|20161110|浙江省    |12552|16   |2         |
|20161110|浙江省    |3237 |14   |3         |
+--------+-------+-----+-----+----------+

專案開發說明

1、 CDH相關的軟體下載地址：http://archive.cloudera.com/cdh5/cdh/5/，spark自己編譯的，看官方文件即可

2、IDEA需要安裝Scala外掛

3、 Windows上開發需解壓Hadoop和spark原始碼，然後在環境變數中配置HADOOP_HOME和SPARK_HOME

4、 windows上需下載相應版本的 winutils.exe 檔案放到 $HADOOP_HOME/bin

5、解析IP地址使用 ipdatabase ，三個步驟：

1）git clone https://github.com/wzhe06/ipdatabase.git
2）編譯下載的專案：mvn clean package -DskipTests
3）安裝jar包到自己的maven倉庫
mvn install:install-file -Dfile=/home/whirly/source/ipdatabase/target/ipdatabase-1.0-SNAPSHOT.jar -DgroupId=com.ggstar -DartifactId=ipdatabase -Dversion=1.0 -Dpackaging=jar

6、需要建立相應的資料庫和資料表，用於儲存統計結果，具體的表結構見 imooc_log.sql ，Navicat 匯入MySQL即可，建立庫表完畢後須修改 MySQLUtils.scala 中的配置資訊

7、 zeppelin 可匯入最受歡迎的TopN課程.json 檔案檢視結果，也可以使用視覺化方案，譬如echarts、highcharts、D3.js、HUE等等…

更多內容可訪問我的個人部落格：http://laijianfeng.org
關注【小旋鋒】微信公眾號，及時接收博文推送
原文地址：Spark SQL 分析 Imooc 訪問日誌

長按關注【小旋鋒】微信公眾號

Spark SQL 分析 Nginx 訪問日誌

前言專案地址 github: Spark SQL 分析 Imooc 訪問日誌環境說明 Java版本：1.8 Scala版本：2.11.12 Hadoop版本：hadoop-2.6.0-cdh5.14.0 spark版本：spark-2.3.1

python腳本分析nginx訪問日誌

char data uri Coding php utf8 客戶 read oot 日誌格式如下： 223.74.135.248 - - [11/May/2017:11:19:47 +0800] "POST /login/getValidateCode HTTP/1.1"

shell 腳本分析nginx 訪問日誌狀態碼

shell 腳本分析 nginx 1.獲取nginx 日誌訪問狀態碼；grep -ioE "HTTP\/1\.[1|0]\"[[:blank:]][0-9]{3}" nginx_app.api.zhaoyifen.ssl.log grep -ioE "HTTP\/1\.[1|0]\"[[:blan

使用python分析nginx訪問日誌

一、在nginx配置檔案中新增日誌的格式，並開啟記錄訪問日誌的功能 #nginx配置檔案 #新增的欄位、 access_log on; log_format '$remote_addr - $remote_user [$time_local] "$reque

Nginx 訪問日誌配置

cte 4.0 clr live get ide onf 定義 window [[email protected]/* */ conf]# cat nginx.conf worker_processes 1; error_log logs/error

nginx訪問日誌 logstash 配置文件實例2

nginx訪問日誌 logstash 配置文件實例1

logstash日誌格式： log_format usgateway ‘$http_clientip\t$http_ServiceName\t$http_uid\t$http_sid\t[$time_local]‘ ‘\t$reques

ELK+syslog+nginx訪問日誌收集+分詞處理

elk nginx syslog mapping 一、nginx訪問日誌配置:1、日誌格式配置：log_format json ‘{"@timestamp":"$time_iso8601",‘ ‘"host":"$server_addr",‘

LNMP-Nginx訪問日誌

log nginx 訪問日誌1、定義日誌格式 [[email protected]/* */ ~]# vi /usr/local/nginx/conf/nginx.conf log_format log001 ‘$remote_addr $http_x_forwarded_for

LNMP架構（nginx訪問日誌，Nginx日誌切割，靜態文件不記錄訪問日誌）

tab ane pac 12月計劃 asdasd sans min ref 一、nginx訪問日誌[root@lnmp ~]# vim /usr/local/nginx/conf/nginx.conf （修改Nginx的配置文件）搜索/log_form

Nginx訪問日誌、Nginx日誌切割、靜態文件不記錄日誌和過期時間介紹

LinuxNginx訪問日誌1. 進入配置文件[root@gary-tao src]# vim /usr/local/nginx/conf/nginx.conf //搜索log_format參考更改配置成如下：log_format aming '$remote_addr $http_x_forwar

2018-3-14 12周3次課 Nginx訪問日誌、日誌分割、日誌不記錄靜態文件和過期時間

Nginx12.10 Nginx訪問日誌·日誌格式：[root@localhost ~]# vim /usr/local/nginx/conf/nginx.conf搜索log_format（雖然紅框中有三行，但實際上時一行配置，以分號為結尾）combined_realip 定義日誌格式名字，此處定義成什麽，那

12.10 Nginx訪問日誌 12.11 Nginx日誌切割 12.12 靜態文件不記錄日誌和過期

12.10 Nginx訪問日誌 12.112.10 Nginx訪問日誌 [root@martin001 vhost]# vim test.com.conf除了在主配置文件nginx.conf裏定義日誌格式外，還需要在虛擬主機配置文件中增加access_log /tmp/test.com.log martin

nginx訪問日誌配置+日誌切割+不記錄靜態文件日誌+設置靜態文件過期時間

nginx日誌 nginx日誌切割 nginx設置靜態文件過期時間與不記錄 nginx設置日誌格式 nginx訪問日誌查看nginx.conf文件 vim /usr/local/nginx/conf/nginx.conf 中間有一行是定義log的格式 log_format combined_

Nginx訪問日誌、日誌切割、靜態文件管理

Nginx訪問日誌、日誌切割、靜態文件管12.10 訪問日誌 Nginx日誌格式： [root@centos-01linux ~]# vim /usr/local/nginx/conf/nginx.conflog_format combined_realip ‘$remote_addr $http_x_for

今晚九點|如何使用 Python 分析 web 訪問日誌？

python 日誌主題：如何使用 Python 分析 Web 訪問日誌內容 Python 基礎字符串、字典、文件、時間 Web 訪問日誌實戰提問主講師：KK 多語言混搭工程師，熱愛開源技術，喜歡GET新技能，5年 PHP、Python 項目開發經驗，帶領團隊完成多個中、

nginx訪問日誌，日誌切割，靜態文件不記錄日誌和過期時間

nginx訪問日誌日誌切割靜態文件不記錄日誌靜態文件不記錄過期時間 nginx訪問日誌日誌格式vim /usr/local/nginx/conf/nginx.conf //搜索log_format 編輯虛擬主機配置文件，配置日誌格式，（註意日誌後面的名稱與主配置文件保持一致）驗證訪問其

Nginx訪問日誌（access_log）配置

location 緩沖區 per 防盜鏈 rem mime pes erro error Nginx訪問日誌主要有兩個參數控制 log_format #用來定義記錄日誌的格式（可以定義多種日誌格式，取不同名字即可） access_log #用來指定日至文件的路徑及使用的何種

十二周三課 Nginx訪問日誌、 Nginx日誌切割、靜態文件不記錄日誌和過期時間

nginxNginx訪問日誌 Nginx的文件格式存在於主配置文件中。/usr/local/nginx/conf/nginx.conf然後搜索log_format找到他的配置文件這樣我們就可以進行日誌的格式配置了。我們常用如下配置。$remote_addr客戶端IP(公網IP)$http_x_forward

Python分析web訪問日誌

Python分析web訪問日誌Python分析web訪問日誌通用日誌格式127.0.0.1 - - [14/May/2017:12:45:29 +0800] "GET /index.html HTTP/1.1" 200 4286遠程 - - 主機 IP 請求時間時區方法資源協

Spark SQL 分析 Nginx 訪問日誌

前言

專案地址

環境說明

資料集

需求

統計結果視覺化(zeppelin展示)

開發步驟

資料清洗

主程式

步驟

關鍵程式碼

Spark SQL 統計 TopN

主程式

關鍵程式碼

統計結果樣例

專案開發說明

相關推薦