1. 程式人生 > >網站使用者行為資料收集和分析方法

網站使用者行為資料收集和分析方法

來源
為改善網站的可用性, 一般採用可用性工程方法, 其核心是以使用者為中心的設計方法論(UCD)。綜合介紹了目前國內外對於使用者行為資料收集和分析方法所進行的研究, 各種方法的特點, 並介紹一些利用相應方法所開發出的工具例項, 使得建設的網站更加符合使用者的需要, 以保障使用者與網站之間溝通的順暢。

  隨著In ternet 的不斷髮展, 各種各樣的網站如雨後春筍般成倍增長, 各個商業網站之間的競爭越來越激烈, 隨之而來的是, 網站的建設不可避免的出現了很多問題。從最近一次國外對15 個大型網站進行統計分析表明, 使用者在尋找自己所需要的資訊時, 只有42% 的概率可以找到, 而在大部分的時間裡使用者都無法找到自己所需要的資訊, 這使得使用者在瀏覽網站時經常遭遇挫折, 嚴重影響了使用者對網站的興趣和信任。正如 J acob N ielsen 所指出的“如果你想通過網站找到某些資訊, 那麼在一般情況下很難找到, 就算能夠找到, 也要經過一番周折。從以往的經驗可以得知, 除非專案管理團隊在整個網站設計過程中就特別考慮網站的可用性, 否則結果往往令人失望”。針對網站的特點, 目前國內外提出了很多依靠計算機輔助來自動收集和分析使用者行為資料的方法, 本文以下部分將重點介紹基於伺服器日誌收集和分析使用者行為資料的方法和從客戶端收集和分析使用者行為資料的方法, 並對根據不同的方法所開發出的一些工具進行了介紹。

  1 基於伺服器日誌收集和分析使用者行為資料的方法

  目前, 對於網站來說, 自動獲得使用者行為資料最流行的方法之一是基於伺服器日誌的方法(Server log) ,就是通過從w eb 伺服器所產生的日誌檔案來獲取有用的資料。伺服器日誌檔案就是用來記錄w eb 伺服器的活動, 提供了詳細的客戶和伺服器的互動活動日誌, 其中包括客戶的請求和伺服器的響應。通過日誌檔案收集到的資料形式依賴於具體的w eb 伺服器型別, 不同的w eb 伺服器產生的資訊是不一樣的。

  1. 1 基於伺服器日誌方法的優點通過日誌檔案可以獲得很有價值的網站使用情況的資料。 ① 日誌檔案是由w eb 伺服器自動生成, 所以花費比較小。 ② 與人為建造的可用性實驗室環境相比, 通過日誌檔案獲得的資料更能夠反映真實環境下使用者的真實情況。 ③ 與只對幾個使用者在幾小時內進行的測試所獲得的資料相比, 通過日誌檔案獲得的是大量的使用者在相當長一段時間內的行為資料, 這對分析使用者的行為是十分有利的, 可以利用資料探勘等技術對使用者進行分析。 ④ 開發基於日誌檔案的資料分析工具相對比較容易, 花費也不是太大。

  1. 2 基於伺服器日誌方法的缺點基於日誌的方法對於網站的可用性研究來說還存在著很多不足之處, 由於日誌檔案就是被設計用來產生站點級的效能統計資料, 因此不可避免的是, 日誌檔案所提供的資料與用來分析網站可用性所需的大量資料相比會有所不足, 對於研究潛在的可用性問題只能提供少量的資料甚至還可能提供一些誤導性的資料。這是因為一旦w eb 伺服器把使用者請求的頁面傳送出去之後, 如果使用者不發出請求, 則頁面和使用者之間發生了什麼w eb 伺服器並不記錄。下面是一些從日誌檔案中獲取的資料不足或有誤導性資料的例子。

  ① 誰正在訪問網站。如果想知道誰正在訪問網站, 要求日誌檔案必須包含一個個人ID 或者登入到伺服器的登入標示, 但是目前的網站一般不需要使用者登入, 大多情況下由日誌檔案提供的客戶端資訊是客戶的IP 地址, 而這些IP 地址很多情況下是由In ternet 提供商提供的動態IP。並且有時用通過代理伺服器來訪問In ternet (例如, 學校的校園網) , 這樣就不能正確得知是哪個使用者在訪問網站。

  ② 使用者訪問網站的路徑。如果日誌檔案能夠記下使用者所瀏覽的每個頁面, 那麼自然可以清楚的記錄使用者的訪問路徑, 然而, 當把使用者的瀏覽器設定為可使用快取(cache) 時(通常是預設設定) , 使用者所瀏覽的一些頁面就不能被w eb 伺服器所記錄, 例如, 使用Back 按鈕瀏覽的頁面就不能被記錄。而且, 如果同一頁面中提供了多個選擇可連結到同一個頁面的話, 使用者到底是使用哪一個連結過去, 這一資訊從log 檔案中也難以獲得, 但是這一資訊對改善網站的可用性也是很重要的。如果是通過圖片連結,w eb 伺服器可能會記下使用者單擊的座標位置, 從而可以獲得使用者的確切資訊, 如果沒有使用這種技術的話, 就很難捕獲這一資訊。而且, 當用戶通過鍵入U RL 地址, 或通過書籤來訪問頁面時,w eb 伺服器也不能記錄這一資訊。

  ③ 使用者在每頁的停留時間。日誌檔案記錄的是資料開始傳輸的時間, 而不是傳輸完成的時間。而且也不清楚, 在頁面下載的過程中, 使用者到底在什麼時間開始瀏覽頁面。除非在頁面顯示的時候, 使用者因有事離開了, 不然可以通過比較使用者的當前請求和下一次請求之間的時間來粗略計算使用者在此頁面停留的大概時間 (通過後一次的請求時間減去第一次的請求時間得到, 但對於從cache 中獲取的頁面來說就出現很大偏差)。

  ④ 使用者離開站點的位置。日誌檔案記錄了在使用者會話期間所傳送的最後一頁, 但是這可能並不是使用者所看到的最後一頁。其中有兩個原因: 第一, 使用者所看到的最後一頁可能是從cache 中得到。第二, 使用者可能已經有事離開了很長時間, 而這段時間已經超過了 w eb 伺服器所定義的使用者會話時間。

  ⑤ 使用者是否成功完成自己想要做的事情。這是最根本的可用性問題, 只是通過單獨的日誌檔案統計是很難回答的, 如果是“使用者是否完成了交易? 使用者是否成功地下載了檔案?”之類的問題, 答案還是很容易推斷。然而, 如果要回答“使用者是否找到了所需要的資訊?”類似這樣的問題, 僅通過日誌檔案就很難回答了。

  1. 3 基於伺服器日誌檔案方法獲取資料的輔助工具 Click T races A nalyzer 是分析網站使用者行為的一套工具, 為進一步瞭解使用者的瀏覽行為提供了強大的功能, 它把大量的複雜資料用非常簡單的方法表達出來, 使可用性人員在分析使用者行為時一目瞭然。

  2 客戶端收集和分析使用者行為資料的方法

  由於通過日誌檔案獲得的資訊會出現失真的情況, 而且有很多重要的資料只通過日誌檔案很難獲得, 這些資訊對研究網站的可用性問題卻很重要, 因此為了進一步獲得更多的有價值的可用性資料, 發現更多的網站可用性問題, 逐漸產生了很多技術用於從客戶端(page- side) 直接獲得使用者與網站的互動情況。由於是直接從客戶端獲得資料, 所以, 能夠獲得大量的難以從伺服器端獲得的使用者行為資料, 這對進一步分析使用者瀏覽網站行為, 改善潛在的網站可用性問題提供了更大的幫助。

  2. 1 客戶端收集使用者行為資料的優點

  ① 由於使用者是在真實的環境下所進行的操作(如在家裡或辦公室) , 減少了人為地干擾因素, 因此獲得的資料更加真實。

  ② 與基於日誌檔案的方法相比, 從客戶端收集到的資料更加精確, 能夠克服如上描述的很多問題。

  ●不受動態分配IP 地址或代理伺服器的影響: 通過使用客戶端跟蹤技術(如由w eb 伺服器對每個訪問站點的客戶機自動分配ID 並將其記錄在客戶端的 Cook ies 中, 每次使用者瀏覽網站,w eb 伺服器可通過訪問客戶端的Cook ies 就知道此客戶機是否訪問過本網站)。

  ●正確的使用者瀏覽路徑: 由於是在客戶端記錄使用者行為, 因此客戶端程式碼可自動跟蹤使用者的瀏覽路徑, 不管是否通過本機快取或通過代理伺服器。例如, 使用者的實際瀏覽路徑是從A B, 點選Back 鈕, A C, 但是從log 檔案中得到的路徑是A B` C。頁面瀏覽時間: 舉例如圖1 (頁面是由cgi 指令碼產生的動態檔案)。這是使用Click st ream 收集工具與基於伺服器的日誌檔案產生的資料比較, 日誌檔案丟失了很多重要資料。