1. 程式人生 > >通過用戶日誌分析理解數據處理流程

通過用戶日誌分析理解數據處理流程

應用 上網 img 配置信息 mapr 9.png com 來源 進入

註:圖片如果損壞,點擊文章鏈接:https://www.toutiao.com/i6625473586012357123/

用戶的操作日誌

系統界面

技術分享圖片

查看日誌信息

進入到/usr/local/resin/log查看access_log

技術分享圖片

我們把文件下載到本地查看

技術分享圖片

每一行就是一條數據,是用戶訪問的一條記錄,我們以一條數據為準

技術分享圖片

看到這些數據我們應該知道:

1、應用系統的web服務器(數據來源)

2、每個字段的名稱和含義(數據意義)

因為例子我們已經知道是nginx服務器,如果實際情況中一定要弄清楚數據字段的含義。

那麽我們來查看nginx服務器的配置:

查看配置:/etc/nginx/nginx.conf

技術分享圖片

其中的配置信息

技術分享圖片

我們變化一下,可以看到有下面的字段

技術分享圖片

結合之前的數據和字段內容我們得到:

技術分享圖片

日誌數據字段我們弄清楚之後,我們就要對日誌文件進行處理了。

日誌文件很多時候不能保證正好是如此的,即數據不符合我們的要求,例如:缺少某個字段、時間格式轉換等。確保數據質量,數據質量差會出現很多問題,比如空指針異常,這就需要清洗原始數據成為我們需要的。比較常用的MapReduce、hive。比如我們的需要有以下的幾種(裏面的情況可以上網去查詢下用途,這裏提供個思路)

技術分享圖片

那我們總結下基本的數據處理流程:

技術分享圖片

?

通過用戶日誌分析理解數據處理流程