hive 的日誌處理統計網站的 PV 、UV案例與給合 python的數據清洗數據案例

阿新 • • 發佈：2018-04-12

大數據 hadoop hive 數據清洗

一：hive 清理日誌處理統計PV、UV 訪問量
二： hive 數據python 的數據清洗

一：日誌處理

統計每個時段網站的訪問量:

1.1 在hive 上面創建表結構：

在創建表時不能直接導入問題
create table db_bflog.bf_log_src (
remote_addr string,
remote_user string,
time_local string,
request string,
status string,
body_bytes_sent string,
request_body string,
http_referer string,
http_user_agent string,
http_x_forwarded_for string,
host string
)
ROW FORMAT SERDE ‘org.apache.hadoop.hive.serde2.RegexSerDe‘
WITH SERDEPROPERTIES (
  "input.regex" = "(\"[^ ]*\") (\"-|[^ ]*\") (\"[^\]]*\") (\"[^\"]*\") (\"[0-9]*\") (\"[0-9]*\") (-|[^ ]*) (\"[^ ]*\") (\"[^\"]*\") (-|[^ ]*) (\"[^ ]*\")"
)
STORED AS TEXTFILE;

技術分享圖片

1.2 加載數據到 hive 表當中：

load data local inpath ‘/home/hadoop/moodle.ibeifeng.access.log‘ into table db_bflog.bf_log_src ;

技術分享圖片

1.3 自定義UDF函數

1.3.1：udf函數去除相關引號

package org.apache.hadoop.udf;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

/**
 * * New UDF classes need to inherit from this UDF class.
 * 
 * @author zhangyy
 *
 */
public class RemoveQuotesUDF extends UDF {

    /*
    1. Implement one or more methods named "evaluate" which will be called by Hive.
    2."evaluate" should never be a void method. However it can return "null" if needed.
    */
    public Text evaluate(Text str){
        if(null == str){
            return null;
        }

        // validate 
        if(StringUtils.isBlank(str.toString())){
            return null ;
        }

        // lower
        return new Text(str.toString().replaceAll("\"", ""));
    }

    public static void main(String[] args) {
        System.out.println(new RemoveQuotesUDF().evaluate(new Text("\"GET /course/view.php?id=27 HTTP/1.1\"")));
    }
}

1.3.2：udf函數時間格式進行轉換

package org.apache.hadoop.udf;

import java.text.SimpleDateFormat;
import java.util.Date;
import java.util.Locale;

import org.apache.commons.lang.StringUtils;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

/**
 * * New UDF classes need to inherit from this UDF class.
 * 
 * @author zhangyy
 *
 */
public class DateTransformUDF extends UDF {

    private final SimpleDateFormat inputFormat = new SimpleDateFormat("dd/MMM/yy:HH:mm:ss", Locale.ENGLISH) ;
    private final SimpleDateFormat outputFormat = new SimpleDateFormat("yyyy-MM-dd HH:mm:ss") ;

    /*
    1. Implement one or more methods named "evaluate" which will be called by Hive.
    2."evaluate" should never be a void method. However it can return "null" if needed.
    */
    /**
     * input:
     *      31/Aug/2015:00:04:37 +0800
     * output:
     *      2015-08-31 00:04:37
     */
    public Text evaluate(Text str){
        Text output = new Text() ;

        if(null == str){
            return null;
        }

        // validate 
        if(StringUtils.isBlank(str.toString())){
            return null ;
        }

        try{
            // 1) parse 
            Date parseDate = inputFormat.parse(str.toString().trim());
            // 2) transform
            String outputDate = outputFormat.format(parseDate) ;
            // 3) set
            output.set(outputDate);
        }catch(Exception e){
            e.printStackTrace();
        }

        // lower
        return output;
    }

    public static void main(String[] args) {
        System.out.println(new DateTransformUDF().evaluate(new Text("31/Aug/2015:00:04:37 +0800")));
    }
}

將RemoveQuotesUDF 與 DateTransformUDF 到出成jar 包 放到/home/hadoop/jars 目錄下面：

技術分享圖片

1.4 去hive 上面生成 udf 函數

  RemoveQuotesUDF 加載成udf函數 ：

  add jar /home/hadoop/jars/RemoveQuotesUDF.jar ;

  create temporary function My_RemoveQuotes as "org.apache.hadoop.udf.RemoveQuotesUDF" ;

  DateTransformUDF 加載成udf 函數：

  add jar /home/hadoop/jars/DateTransformUDF.jar ;

  create temporary function My_DateTransform as "org.apache.hadoop.udf.DateTransformUDF" ;

技術分享圖片

1.5 創建生成所要要求表：

create table db_bflog.bf_log_comm(
remote_addr string,
time_local string,
request string,
http_referer string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ‘,‘
STORED AS ORC tblproperties ("orc.compress"="SNAPPY");

技術分享圖片

從原有表中提取相關的數據處理：

insert into table db_bflog.bf_log_comm select remote_addr, time_local, request, http_referer from db_bflog.bf_log_src ;

技術分享圖片

執行sql 統計每小時的pv 訪問量：

select t.hour,count(*) cnt
from
(select substring(my_datetransform(my_removequotes(time_local)),12,2) hour from bf_log_comm) t
group by t.hour order by cnt desc ;

技術分享圖片

二： hive 數據python 的數據清洗

  統計國外一家影院的每周看電影的人數
  測試數據下載地址：

 wget http://files.grouplens.org/datasets/movielens/ml-100k.zip
 unzip ml-100k.zip

2.1 創建hive 的數據表

 CREATE TABLE u_data (
  userid INT,
  movieid INT,
  rating INT,
  unixtime STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘\t‘
STORED AS TEXTFILE;

技術分享圖片

2.2 加載數據：

LOAD DATA LOCAL INPATH ‘/home/hadoop/ml-100k/u.data‘
OVERWRITE INTO TABLE u_data;

技術分享圖片

2.3 創建weekday_mapper.py 腳本

import sys
import datetime

for line in sys.stdin:
  line = line.strip()
  userid, movieid, rating, unixtime = line.split(‘\t‘)
  weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
  print ‘\t‘.join([userid, movieid, rating, str(weekday)])

2.4 創建臨時hive 表用於提取數據：

 CREATE TABLE u_data_new (
  userid INT,
  movieid INT,
  rating INT,
  weekday INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ‘\t‘;

增加python 腳本到hive

add FILE /home/hadoop/weekday_mapper.py;

技術分享圖片

2.5 從舊表中數據提取

INSERT OVERWRITE TABLE u_data_new
SELECT
  TRANSFORM (userid, movieid, rating, unixtime)
  USING ‘python weekday_mapper.py‘
  AS (userid, movieid, rating, weekday)
FROM u_data;

技術分享圖片

2.6 查找所需要的數據：

SELECT weekday, COUNT(*)
FROM u_data_new
GROUP BY weekday;

技術分享圖片

hive 的日誌處理統計網站的 PV 、UV案例與給合 python的數據清洗數據案例

大數據 hadoop hive 數據清洗一：hive 清理日誌處理統計PV、UV 訪問量二： hive 數據python 的數據清洗一：日誌處理統計每個時段網站的訪問量: 1.1 在hive 上面創建表結構：在創建表時不能直接導入問題 create table db_b

Flume+Kafka+Storm+Redis構建大數據實時處理系統：實時統計網站PV、UV+展示

大數據實時計算 Storm [TOC] 1 大數據處理的常用方法前面在我的另一篇文章中《大數據采集、清洗、處理：使用MapReduce進行離線數據分析完整案例》中已經有提及到，這裏依然給出下面的圖示：前面給出的那篇文章是基於MapReduce的離線數據分析案例，其通過對網站產生的用戶訪問

網站PV、UV以及檢視方法(轉載)

PV：PV 是Page Views的縮寫，即頁面瀏覽量，使用者每一次對網站中的每個網頁訪問均被記錄一次。注意，訪客每重新整理一次頁面，pv就增加一次。 UV：UV是Unique Visitor的縮寫，即獨立訪客數。指訪問某個站點的不同IP地址的人數。在同一天的00:00-24:00內，uv只記錄第一次進入網

從Nginx的access日誌統計PV、UV和熱點資源

port 需求 lba jquery 實現有用控制臺 pen for 需求：在阿裏雲-CDN管理控制臺的監控頁面裏，有對PV、UV和熱點資源的統計。於是自己也寫了腳本來獲取相關數據。分析： PV：指網站的訪問請求數。包含同一來源IP的多次請求。 UV

網站流量與效能分析指標——PV、UV、PR、IP、QPS、併發數、吞吐量、響應時間

QPS：每秒查詢率(Query Per Second) ，每秒的響應請求數，也即是最大吞吐能力。 QPS = req/sec = 請求數/秒 QPS統計方式 [一般使用 http_load 進行統計] QPS = 總請求數 / ( 程序總數 * 請求時間 ) QPS：單個程序每秒請求伺服器的成功次數

統計--------同比、環比、PV、UV、VV、IP

同比、環比同比增長率=（本期數－同期數）÷同期數×100% 環比增長速度=（本期數－上期數）÷上期數×100% 同比發展速度，一般指是指本期發展水平與上年同期發展水平對比，而達到的相對發展速度。環比發展速度，一般是指報告期水平與前一時期水平之比，表明現象逐期的發展速度。 PV、U

網站分析之 --- PV、UV、IP、VV

PV是網站分析的一個術語，用以衡量網站使用者訪問的網頁的數量。對於廣告主，PV值可預期它可以帶來多少廣告收入。一般來說，PV與來訪者的數量成正比，但是PV並不直接決定頁面的真實來訪者數量，如同一個來訪者通過不斷的重新整理頁面，也可以製造出非常高的PV。 1、什麼是PV值　　PV（pa

網站指標PV、UV、IP的概念釋疑

http://any9.com/2629.html ------ pv（page view，瀏覽量）頁面的瀏覽次數，衡量網站使用者訪問的網頁數量；使用者每開啟一個頁面就記錄1次，多次開啟同一頁面則瀏覽量累計。uv（unique visitor，獨立訪客） 1天內訪問某站

PV、UV、GMV

就是 blank 金額 sina col EDA 地址客戶 family 原文地址：電商術語：客單價、UV、PV、轉化率、銷售額作者：馨聞蓮博 UV(獨立訪客)：Unique Visitor,訪問您網站的一臺電腦客戶端為一個訪客。00:00-24:00內相同的客戶端只

PV、UV、IP分別是什麼意思？

PV、UV、IP是我們在運營和網站管理中常用的概念，那麼這三個概念究竟是什麼意思呢？方法/步驟 PV（Page View）訪問量, 即頁面瀏覽量或點選量，衡量網站使用者訪問的網頁數量；在一定統計週期內使用者每開啟或重新整理一個頁面就記錄1次，多次開啟或重新整理同一頁面則瀏覽量累計。

【Common】-NO.122.common.1 - pv、uv、ip，tps、qps、rps術語

Style：Mac Series：Java Since：2018-09-10 End：2018-09-10 Total Hours：1 Degree Of Diffculty：5 Degree Of Mastery：5 Practical Level：5 Desired Goal：5 Arc

【總結整理】pv、uv

1、pv的全稱是page view，譯為頁面瀏覽量或點選量，通常是衡量一個網站甚至一條網路新聞的指標。使用者每次對網站中的一個頁面的請求或訪問均被記錄1個PV，使用者對同一頁面的多次訪問，pv累計。例如，使用者訪問了4個頁面，pv就+4 2、uv的全稱是unique view，譯為通過網際網路訪問、瀏覽這個

PV、UV、IP、TPS、QPS、RPS、兩天、吞吐量、併發使用者數術語

跟網站打交道，經常可以聽到資料分析之類的專有名詞，如pv多少、ip多少、tps多少之類的問題。下面就這些常見的資料給出其釋義。 PV 即 page view，頁面瀏覽量使用者每一次對網站中的每個頁面訪問均被記錄1次。使用者對同一頁面的多次重新整理，訪問量累計。 UV 即 Unique

TPS、QPS、PV、UV等

TPS（吞吐量）: 單位時間內處理請求的數量，即每秒處理的事務數。 QPS: 每秒查詢率(Query Per Second) ,每秒的響應請求數，也即是最大吞吐能力；一般使用 http_load 進行統計。每天80%的訪問集中在20%的時間裡，這2

PV、UV和IP區別

PV(訪問量)：即Page View, 即頁面瀏覽量或點選量，使用者每次重新整理即被計算一次。 UV(獨立訪客)：即Unique Visitor,訪問您網站的一臺電腦客戶端為一個訪客。00:00-24

java基於poi的excel表格處理(自定義註解、針對List與enum進行處理)

Java基於poi的excel表格處理背景：由於網上太少有方便的工具來操作了，所以手動造了個輪子… 例子：說明：在欄位上新增@ExcelInfo註解，其中row為“行數-1”，col為“列數-1”。如需進行特

Postman系列五：Postman中電商網站cookie、token檢驗與引數傳遞實戰

一：Postman中電商網站cookie實戰　　Postman介面請求使用cookie兩種方式：　　　　1.直接在header（頭域）中新增cookie，適用於已知請求cookie頭域的情況　　　　2.使用Postman的cookie管理機制，即可以手動新增，同時Postman也會將操作流程中獲取的引數

c++類的拷貝、賦值與銷毀（拷貝構造函數、拷貝賦值運算符析構函數）

錯誤保存編譯 oid 生成標準庫 int 為什麽 explicit 拷貝構造函數如果一個構造函數的第一個參數是自身類類型的引用，且任何額外參數都有默認值，則此構造函數是拷貝構造函數。拷貝構造函數第一個參數必須是一個引用類型。此參數幾乎總是一個con

超過 C++、壓制 Java 與 C，Python 拔得 TIOBE 年度程式語言！

作者 | 屠敏出品 | CSDN（ID：CSDNNews）如同兩個月前，TIOBE 程式語言社群於官網預料的那般，2018 年的年度程式語言終將在一眾老牌程式語言如 Java、C、C++、Python、Visual Basic .NET 中誕生。近日，T

怎麽區分PV、IV、UV以及網站統計名詞解釋

互聯網 strong 廣域網更換 tcp ip地址目前名詞解釋筆記本 PV（Page View）訪問量，即頁面訪問量，每打開一次頁面PV計數+1，刷新頁面也是。IV（Internet Protocol）訪問量指獨立IP訪問數，計算是以一個獨立的IP在一個計算時段內訪

hive 的日誌處理統計網站的 PV 、UV案例 與 給合 python的數據清洗數據案例

一： 日誌處理

1.1 在hive 上面創建表結構：

1.2 加載數據到 hive 表當中：

1.3 自定義UDF函數

1.3.1：udf函數去除相關引號

1.3.2：udf函數時間格式進行轉換

1.4 去hive 上面 生成 udf 函數

1.5 創建生成所要要求表：

從原有表中提取 相關的數據處理：

執行sql 統計每小時的pv 訪問量：

二： hive 數據python 的數據清洗

2.1 創建hive 的數據表

2.2 加載數據：

2.3 創建weekday_mapper.py 腳本

2.4 創建臨時hive 表 用於提取數據：

2.5 從舊表中數據提取

2.6 查找所需要的數據：

相關推薦

hive 的日誌處理統計網站的 PV 、UV案例與給合 python的數據清洗數據案例

一：日誌處理

1.4 去hive 上面生成 udf 函數

從原有表中提取相關的數據處理：

2.4 創建臨時hive 表用於提取數據：