1. 程式人生 > >網站日誌挖掘介紹:目的、蒐集方式、流程等

網站日誌挖掘介紹:目的、蒐集方式、流程等

問題導讀

1.什麼網站日誌挖掘的目的是什麼?
2.網站分析資料主要有哪三種收集方式?
3.web日誌挖掘包含哪些流程?



收集web日誌的目的 Web日誌挖掘是指採用資料探勘技術,對站點使用者訪問Web伺服器過程中產生的日誌資料進行分析處理,從而發現Web使用者的訪問模式和興趣愛好等,這些資訊對站點建設潛在有用的可理解的未知資訊和知識,用於分析站點的被訪問情況,輔助站點管理和決策支援等。 1、以改進web站點設計為目標,通過挖掘使用者聚類和使用者的頻繁訪問路徑,修改站點的頁面之間的連結關係,以適應使用者的訪問習慣,並且同時為使用者提供有針對性的電子商務活動和個性化的資訊服務,應用資訊推拉技術構建智慧化Web站點。 2、以分析Web站點效能為目標,主要從統計學的角度,對日誌資料項進行粗略的統計分析,得到使用者頻繁訪問頁、單位時間的訪問數、訪問數量隨時間分佈圖等。現有的絕大多數的Web日誌分析工具都屬於此類。 3、以理解使用者意圖為目標,主要是通過與使用者互動的過程收集使用者的資訊,Web伺服器根據這些資訊對使用者請求的頁面進行裁剪,為使用者返回定製的頁面,其目的就是提高使用者的滿意度和提供個性化的服務。 收集方式
網站分析資料主要有三種收集方式:Web日誌、JavaScript標記和包嗅探器。 1. Web日誌 web日誌處理流程:  1.png (213.18 KB, 下載次數: 0)
下載附件  [url=]儲存到相簿[/url] 
10 小時前 上傳


從上圖可以看出網站分析資料的收集從網站訪問者輸入URL向網站伺服器發出http請求就開始了。網站伺服器接收到請求後會在自己的Log檔案中追加一條記錄,記錄內容包括:遠端主機名(或者是IP地址)、登入名、登入全名、發請求的日期、發請求的時間、請求的詳細(包括請求的方法、地址、協議)、請求返回的狀態、請求文件的大小。隨後網站伺服器將頁面返回到訪問者的瀏覽器內得以展現。 2. JavaScript標記 JavaScript標記處理流程:
 2.png (232.63 KB, 下載次數: 0)
下載附件  [url=]儲存到相簿[/url] 
10 小時前 上傳


上圖所示JavaScript標記同Web日誌收集資料一樣,從網站訪問者發出http請求開始。不同的是,JavaScript標記返回給訪問者的網頁程式碼中會包含一段特殊的JavaScript程式碼,當頁面展示的同時這段程式碼也得以執行。這段程式碼會從訪問者的Cookie中取得詳細資訊(訪問時間、瀏覽器資訊、工具廠商賦予當前訪問者的userID等)併發送到工具商的資料收集伺服器。資料收集伺服器對收集到的資料處理後存入資料庫中。網站經營人員通過訪問分析報表系統檢視這些資料。 3. 包嗅探器 通過包嗅探器收集分析的流程:
 3.png (236.22 KB, 下載次數: 0)
下載附件  [url=]儲存到相簿[/url] 
10 小時前 上傳


上圖可以看出網站訪問者發出的請求到達網站伺服器之前,會先經過包嗅探器,然後包嗅探器才會將請求傳送到網站伺服器。包嗅探器收集到的資料經過工具廠商的處理伺服器後存入資料庫。隨後網站經營人員就可以通過分析報表系統看到這些資料。 web日誌挖掘過程 整體流程參考下圖:  4.png (23.7 KB, 下載次數: 0)
下載附件  [url=]儲存到相簿[/url] 
10 小時前 上傳


1、資料預處理階段 
    根據挖掘的目的,對原始Web日誌檔案中的資料進行提取、分解、合併、最後轉換為使用者會話檔案。該階段是Web訪問資訊挖掘最關鍵的階段,資料預處理包括:關於使用者訪問資訊的預處理、關於內容和結構的預處理。 2、會話識別階段 
    該階段本是屬於資料預處理階段中的一部分,這裡將其劃分成單獨的一個階段,是因為把使用者會話檔案劃分成的一組組使用者會話序列將直接用於挖掘演算法,它的精準度直接決定了挖掘結果的好壞,是挖掘過程中最重要的階段。 3、模式發現階段 
    模式發現是運用各種方法和技術從Web同志資料中挖掘和發現使用者使用Web的各種潛在的規律和模式。模式發現使用的演算法和方法不僅僅來自資料探勘領域,還包括機器學習、統計學和模式識別等其他專業領域。 模式發現的主要技術有:統計分析(statistical analysis)、關聯規則(association rules)、聚類(clustering)、歸類(classification)、序列模式(sequential patterns)、依賴關係(dependency)。 (1)統計分析(statistical analysis):常用的統計技術有:貝葉斯定理、預測迴歸、對數迴歸、對數-線性迴歸等。可用來分析網頁的訪問頻率,網頁的訪問時間、訪問路徑。可用於系統性能分析、發現安全漏洞、為網站修改、市場決策提供支援。 (2)關聯規則(association rules):關聯規則是最基本的挖掘技術,同時也是WUM最常用的方法。在WUM中常常用在被訪問的網頁中,這有利於優化網站組織、網站設計者、網站內容管理者和市場分析,通過市場分析可以知道哪些商品被頻繁購買,哪些顧客是潛在顧客。 (3)聚類(clustering):聚類技術是在海量資料中尋找彼此相似物件組,這些資料基於距離函式求出物件組之間的相似度。在WUM中可以把具有相似模式的使用者分成組,可以用於電子商務中市場分片和為使用者提供個性化服務。 (4)歸類(classification):歸類技術主要用途是將使用者資料歸入某一特定類中,它與機器學習關係很緊密。可以用的技術有:決策樹(decision tree)、K-最近鄰居、Naïve Bayesian classifiers、支援向量機(support vector machines)。 (5)序列模式(sequential patterns):給定一個由不同序列組成的集合,其中,每個序列由不同的元素按順序有序排列,每個元素由不同專案組成,同時給定一個使用者指定的最小支援度閾值,序列模式挖掘就是找出所有的頻繁子序列,即子序列在序列集中的出現頻率不低於使用者指定的最小支援度閾值。 (6)依賴關係(dependency):一個依賴關係存在於兩個元素之間,如果一個元素A的值可以推出另一個元素B的值,則B依賴於A。 4、模式分析階段 
    模式分析是Web使用挖掘最後一步,主要目的是過濾模式發現階段產生的規則和模式,去除那些無用的模式,並把發現的模式通過一定的方法直觀的表現出來。由於Web使用挖掘在大多數情況下屬於無偏向學習,有可能挖掘出所有的模式和規則,所以不能排除其中有些模式是常識性的,普通的或終端使用者不感興趣的,故必須採用模式分析的方法使得挖掘出來的規則和知識具有可讀性和最終可理解性。常見的模式分析方法有圖形和視覺化技術、資料庫查詢機制、數理統計和可用性分析等。 收集資料包括 收集的資料主要包括: 全域性UUID、訪問日期、訪問時間、生成日誌項的伺服器的IP地址、客戶端試圖執行的操作、客戶端訪問的伺服器資源、客戶端嘗試執行的查詢、客戶端連線到的埠號、訪問伺服器的已驗證使用者名稱稱、傳送伺服器資源請求的客戶端IP地址、客戶端使用的作業系統、瀏覽器等資訊、操作的狀態碼(200等)、子狀態、用[email protected]使用的術語表示的操作的狀態、點選次數。 使用者識別 對於網站的運營者來說,如何能夠高效精確的識別使用者非常關鍵,這會對網站運營帶來極大的幫助,如定向推薦等。 使用者識別方法如下:  5.png (34.04 KB, 下載次數: 0)
下載附件  [url=]儲存到相簿[/url] 
10 小時前 上傳


使用HDFS儲存 資料收集到伺服器之後,根據資料量可以考慮將資料儲存在hadoop的HDFS中。 如果不熟悉HDFS,可以參考: 在現在的企業中,一般情況下都是多臺伺服器生成日誌,日誌包括nginx生成的,也包括在程式中使用log4j生成的自定義格式的。 通常的架構如下圖:  6.png (86.65 KB, 下載次數: 0)
下載附件  [url=]儲存到相簿[/url] 
10 小時前 上傳


使用mapreduce分析nginx日誌 nginx預設的日誌格式如下:
  • 222.68.172.190 - - [18/Sep/2013:06:49:57 +0000] "GET /images/my.jpg HTTP/1.1" 200 19939
  • "http://www.angularjs.cn/A00n" "Mozilla/5.0 (Windows NT 6.1)
  • AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36"

複製程式碼

變數的解釋如下:
  • remote_addr: 記錄客戶端的ip地址, 222.68.172.190
  • remote_user: 記錄客戶端使用者名稱稱, –
  • time_local: 記錄訪問時間與時區, [18/Sep/2013:06:49:57 +0000]
  • request: 記錄請求的url與http協議, “GET /images/my.jpg HTTP/1.1″
  • status: 記錄請求狀態,成功是200, 200
  • body_bytes_sent: 記錄傳送給客戶端檔案主體內容大小, 19939
  • http_user_agent: 記錄客戶瀏覽器的相關資訊, “Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/29.0.1547.66 Safari/537.36″
可以直接使用mapreduce來進行日誌分析:  7.png (9.59 KB, 下載次數: 0)
下載附件  [url=]儲存到相簿[/url] 
10 小時前 上傳


在hadoop中計算後定時匯入到關係型資料庫中進行展現。 要明細的分析可以參考這篇: 也可以使用hive來代替mapreduce進行分析。 總結 web日誌收集是每個網際網路企業必須要處理的過程,當收集上來資料,並且通過適當的資料探勘之後,會對整體網站的運營能力及網站的優化帶來質的提升,真正的做到資料化分析和資料化運營。 來源:http://www.cnblogs.com/skyme/p/4316057.html

相關推薦

網站日誌挖掘介紹目的蒐集方式流程

問題導讀1.什麼網站日誌挖掘的目的是什麼?2.網站分析資料主要有哪三種收集方式?3.web日誌挖掘包含哪些流程?收集web日誌的目的 Web日誌挖掘是指採用資料探勘技術,對站點使用者訪問Web伺服器過程中產生的日誌資料進行分析處理,從而發現Web使用者的訪問模式和興趣愛好等,這些資訊對站點建設潛在有用的可理

關於在部署jsp網站時遇到問題MySql連線不上Tomcat的閃退

最近在公司內部搭建一個網站,由於以前沒有相關經驗,以及在實際操作中遇到了幾個問題,想著以後會用到,特次記錄。 1、關於搭建網站。 由於使用的公司內部的伺服器,所以不存在買域名等問題。 在伺服器上部署

跟我一起資料探勘(20)——網站日誌挖掘

收集web日誌的目的 Web日誌挖掘是指採用資料探勘技術,對站點使用者訪問Web伺服器過程中產生的日誌資料進行分析處理,從而發現Web使用者的訪問模式和興趣愛好等,這些資訊對站點建設潛在有用的可理解的未知資訊和知識,用於分析站點的被訪問情況,輔助站點管理和決策支援等。 1、

前端(十五)—— JavaScript事件繫結事件方式事件的冒泡和預設事件滑鼠事件鍵盤事件表單 事件文件事件圖片事件頁面事件

JS事件:繫結事件方式、事件的冒泡和預設事件、滑鼠事件、鍵盤事件、表單 事件、文件事件、圖片事件、頁面事件 一、事件的兩種繫結方式 ******* 1、on事件繫結方式 document.onclick = function() { console.log("文件點選"); } // on事件只

Hibernate第四天Hibernate的查詢方式抓取策略

 目錄 1Hibernate的查詢的方式 1.1Hibernate的查詢方式:OID查詢 1.1.1使用get方法 1.1.2使用load方法 1.2Hibernate的查詢方式:物件導航檢索 1.3Hibernate的查詢方式:HQL檢索 1.3.1初始化一些

執行緒生命週期實現方式start()和run()的區別!

<pre name="code" class="java">public class demo1 { public static void main(String args[]) { Thread t = new Thread() { publi

學習總結CSS(一)定義方式選擇器選擇器權重

.pseudo { width: 100% } .pseudo tr { width: 100% } .pseudo1 { font-size: 13px; height: 30px; width: 25% } .pseudo2 { font-size: 13px; height: 30px; width:

7.打開文件文件讀寫操作with方式文件常用函數

進行 不能 決定 height r+ 列表 inf pen ron 打開文件: 在python3中,打開文件的函數是:open(file, mode=‘r‘, buffering=None, encoding=None, errors=None, newline=Non

python筆記二(數據類型和變量編碼方式字符串的編碼字符串的格式化)

其他 所有 操作 邊表 引號 限制 tool love bar 一、數據類型   python可以直接處理的數據類型有:整數、浮點數、字符串、布爾值、空值。   整數   浮點數   字符串:雙引號內嵌套單引號,可以輸出 i‘m ok.       也可以用\來實現,\n

淺談藍芽耳機的聽診器效應佩戴方式藍芽耳機型別

隨著科學技術的飛速發展,越來越多的新思維、新技術開始切切實實地影響著我們的生活。耳機領域也隨著近幾年技術的更新換代開始了一場龐大的革命即無線藍芽耳機取代有線耳機。相信大家雖然可能正在使用無線藍芽耳機但是卻對這個領域知之甚少,今天我就來簡單談談一些朋友反饋給我比較多的問題。 在聊藍芽耳機

雲展網教程 | 編輯書櫥標題密碼開啟方式同步資料夾

雲展網提供了書櫥功能,方便使用者通過書櫥整合展示一系列書籍。下面我們對書櫥的相應內容進行設定: 標題:書櫥的名稱,顯示在書櫥上方,微信等分享平臺分享書櫥時顯示的標題。 密碼:使用者訪問書櫥需要輸入密碼才能看見書籍。密碼設定可見情況下設定。 同步資料夾:勾選是否同步資料夾,選擇是的情

【比特幣】比特幣的產生原理運作方式特點區塊鏈

摘要:要近期比特幣已經成為主流討論的熱門話題,自8月12日突破4000美元以來,比特幣的價格達到了前所未有的高點。根據CoinDesk比特幣價格指數,比特幣的價格今年迄今已上漲逾300%,總市

JS特點引用方式書寫格式註釋方式程式碼除錯及變數

JavaScript與ECMAScript關係:前者是程式語言,後者是實現前者的規範。 一、特點 1、主要用來向html頁面新增動態效果(資料互動行為); 2、可以直接巢狀在html頁面中,但是建議使用單獨js檔案,這樣有利於結構和行為分離; 3、指令碼語言,不需要經過預編譯,在程式執行

計算機網路基礎(計算機網路的發展階段OSI參考模型協議傳輸方式地址)

計算機網路好比一個人的神經系統,一個人身上的所有感覺都經由神經系統傳遞到大腦,與之類似,世界各地的資訊也通過網路傳遞到每一個人的計算機上。 一、計算機網路發展的7個階段 年代 內容 20世紀50年代 批處理時代 20世

JAVA檔案工具類之——檔案寫入(byte陣列String方式url寫入方式

/** * 將byte陣列寫入檔案 * * @param path * @param fileName * @param content * @throws I

OC中多執行緒的使用概念建立方式生命週期使用注意

     程序 什麼是程序:在我們的系統中正在執行的程式 程序的作用:負責給應用程式分配記憶體空間(該空間是受保護的,獨立的) 執行緒 什麼是執行緒:執行緒是CPU排程的最小單元,由CPU排程 執行緒的作用:負責執行應用程式中的程式碼,在系統中執行著的程式的程式碼只能由執

大資料Hive的案例引數動態分割槽分桶檢視索引執行方式許可權管理Hive的優化_03_03

一、案例:統計出掉線率最高的前10基站 需求:統計出掉線率最高的前10基站 資料: record_time:通話時間 imei:基站編號 cell:手機編號 drop_num:掉話的秒數duration:通話持續總秒數 1.建表 create table cell_mon

Commons-Configuration2簡介使用方式程式碼範例 -- 自動重新載入配置檔案監聽器處理器自定義檢測器

大綱:本專欄內容主要講述Commons-Configuration2的常用和核心的使用方式,並不會逐一講解其全部的功能。 github地址: 本章概述: 主要講述了Commons-Configuration2的基本環境(jar包依賴) 講述了在1.x版本

Python開源專案介紹網站日誌分析工具

CodingGo技術社群自由的程式設計學習平臺 日誌分析 日誌分析在web系統中故障排查、效能分析方面有著非常重要的作用。該工具的側重點不是通常的PV,UV等展示,而是在指定時間段內提供細粒度(最小分鐘級別,即一分鐘內的日誌做抽象和彙總)的異常定位和效能分析。 環境安裝

JAVAEE——SSH項實戰06統計信息管理Spring註解開發和EasyUI

disabled path -a ted efault pen ret 發送 tran 作者: kent鵬 轉載請註明出處: http://www.cnblogs.com/xieyupeng/p/7190925.html 一、統計信息管理    二、Spring