1. 程式人生 > >聚類分析在使用者分類中的應用

聚類分析在使用者分類中的應用

聚類分析定義 

聚類分析屬於探索性的資料分析方法。通常,我們利用聚類分析將看似無序的物件進行分組、歸類,以達到更好地理解研究物件的目的。聚類結果要求組內物件相似性較組間物件相似性較。在使用者研究中,很多問題可以藉助聚類分析來解決,比如,網站的資訊分類問題、網頁的點選行為關聯性問題以及使用者分類問題等等。其中,使用者分類是最常見的情況。
 

聚類分析的基本過程

  • 選擇聚類變數
  • 聚類分析
  • 找出各類使用者的重要特徵
  • 聚類解釋&命名

選擇聚類變數  

在設計問卷的時候,我們會根據一定的假設,儘可能選取對產品使用行為有影響的變數,這些變數一般包含與產品密切相關的使用者態度、觀點、行為。但是,聚類分析過程對用於聚類的變數還有一定的要求: 

  • 這些變數在不同研究物件上的值具有明顯差異;
  • 這些變數之間不能存在高度相關。

因為,首先,用於聚類的變數數目不是越多越好,沒有明顯差異的變數對聚類沒有起到實質意義,而且可能使結果產生偏差;其次,高度相關的變數相當於給這些變數進行了加權,等於放大了某方面因素對使用者分類的作用。  網際網路的一些事

識別合適的聚類變數的方法: 

  • 對變數做聚類分析,從聚得的各類中挑選出一個有代表性的變數;
  • 做主成份分析或因子分析,產生新的變數作為聚類變數。

聚類分析 

相對於聚類前的準備工作,真正的執行過程顯得異常簡單。資料準備好後,丟到統計軟體(通常是spss)裡面跑一下,結果就出來了。 

這裡面遇到的一個問題是,把使用者分成多少類合適?通常,可以結合幾個標準綜合判斷:

 

  • 看拐點(層次聚類會出來聚合係數圖,如右圖,一般選擇拐點附近的幾個類別)
  • 憑經驗或產品特性判斷(不同產品的使用者差異性也不同)
  • 在邏輯上能夠清楚地解釋

找出各類使用者的重要特徵  

確定一種分類方案之後,接下來,我們需要返回觀察各類別使用者在各個變數上的表現。根據差異檢驗的結果,我們以顏色區分出不同類使用者在這項指標上的水平高低。如下圖,紅色代表“遠遠高於平均水平”,黃色代表“平均水平”,藍色代表“遠遠低於平均水平”。其他變數以此類推。最後,我們會發現不同類別使用者有別於其他類別使用者的重要特徵。 

 

|| 聚類解釋&命名  

在理解和解釋使用者分類時,最好可以結合更多的資料,例如,人口統計學資料、功能偏好資料等等(如下圖)……最後,選取每一類別最明顯的幾個特徵為其命名,就大功告成啦! 

 

參考資料: 

《社會統計分析方法——spss軟體應用》

相關推薦

分析在使用者分類應用

聚類分析定義  聚類分析屬於探索性的資料分析方法。通常,我們利用聚類分析將看似無序的物件進行分組、歸類,以達到更好地理解研究物件的目的。聚類結果要求組內物件相似性較高,組間物件相似性較低。在使用者研究中,很多問題可以藉助聚類分析來解決,比如,網站的資訊分類問題、網頁的點選

機器學習筆記(3)——使用分析演算法對文字分類分類數k未知)

聚類分析是一種無監督機器學習(訓練樣本的標記資訊是未知的)演算法,它的目標是將相似的物件歸到同一個簇中,將不相似的物件歸到不同的簇中。如果要使用聚類分析演算法對一堆文字分類,關鍵要解決這幾個問題: 如何衡量兩個物件是否相似 演算法的效能怎麼度量 如何確定分類的個數或聚類

Discovering Latent Domains for Multisource Domain Adaptation 在域適應應用

論文地址:http://www.icsi.berkeley.edu/pubs/vision/Hoffman_ECCV2012.pdf。 簡介 這篇論文為Hoffman發於2012年ECCV,雖然是12年的,但是新穎之處在於其將聚類的方法用到了域適應中。該方法針對於多源域域適應場景,並

無監督分類分析(K均值)

1.K均值聚類 K均值聚類是最基礎的一種聚類方法。K均值聚類,就是把看起來最集中、最不分散的簇標籤分配到輸入訓練樣本{xi}中。具體而言就是通過下式計算簇y的分散狀況: 在這裡,∑i,yi=y表示

sklearnkmeans分析常用命令

from sklearn.cluster import KMeansfrom sklearn.externals import joblibimport numpyfinal = open('c:/test/final.dat' , 'r')data = [line.str

分析幾種演算法的比較

將資料庫中的物件進行聚類是聚類分析的基本操作,其準則是使屬於同一類的個體間距離儘可能小,而不同類個體間距離儘可能大,為了找到效率高、通用性強的聚 類方法人們從不同角度提出了近百種聚類方法,典型的有K-means方法、K-medoids方法、CLARANS方法,BIRCH方

分析的常見資料型別

聚類演算法中兩種有代表性的資料結構 (1)資料矩陣:用p個變量表示n個物件,每一行代表一個物件的p個屬性值,相當於一條記錄。 (2)相異度矩陣 dissimilarity matrix:存放n個物件兩兩之間的相異度的n*n個矩陣 其中d(i,j)表示物件i和物件j之間

分析距離度量方法比較

聚類分析中如何度量兩個物件之間的相似性呢?一般有兩種方法,一種是對所有物件作特徵投影,另一種則是距離計算。前者主要從直觀的影象上反應物件之間的相似度關係,而後者則是通過衡量物件之間的差異度來反應物件之間的相似度關係。           如圖(1)所示:假設X座標軸

Spark MLlibKMeans演算法的解析和應用

聚類演算法是機器學習中的一種無監督學習演算法,它在資料科學領域應用場景很廣泛,比如基於使用者購買行為、興趣等來構建推薦系統。 核心思想可以理解為,在給定的資料集中(資料集中的每個元素有可被觀察的n個屬性),使用聚類演算法將資料集劃分為k個子集,並且要求每個子集內部的元素之間的差異度儘可能低,而不同子集元素的差

分析——層次

logs 較高的 bsp 分析 類對象 定義 .com blog image 聚類的定義:聚類分析將分類對象分成若幹類,相似的歸為同一類,不相似的歸為不同的類,在同一類內對象之間具有較高的相似度,不同類之間的對象差別較大。 層次聚類法: 聚類分析——層次聚類

分析方法

實際應用 多少 三種 輸入 k-means 情況 度量 分析方法 差異 一、層次聚類(系統聚類) 原理:合並法(分解法方向相反算法相同,SPSS只提供合並法) 1、將每一個樣本作為一類,如果是k個樣本就分k成類 2、按照某種方法度量樣本之間的距離,並將距離最近的兩個樣本合並

分析之譜

空間聚類 family 數據集 .cn 存在 聚類算法 array 全局最優 傳統 聚類根據給定的樣本數據集定義一個描述成對數據點相似度的親合矩陣,並且計算矩陣的特征值和特征向量 , 然後選擇合適 的特征向量聚類不同的數據點。 譜聚類可以在任意形狀的樣本空間聚類,且

算法分類及總結

理解 迷糊 舉例 分享 mean 容易 9.png 文章 sca 版權聲明:本文為博主原創文章,未經博主允許不得轉載,或者轉載的時候標出源文章網址。 一、原型聚類    1.k均值聚類(k-means聚類)      其算法流程如下;         下面我們對西瓜

分析

class 其中 應對 其它 聚類 eric arch del 兩種 什麽是聚類分析?聚類算法有哪幾種?請選擇一種詳細描述其計算原理和步驟。 聚類分析(clusteranalysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術。 聚類分析也叫分類分

Python分析作業代寫代做、人工智能Python作業代寫

data nal clas 決心 learn 前臺 數值算法 課程 一個 分析要求: 1. 對所給463條評語進行分詞聚類,分析其所反映的活動類型 以下是人工分析得出的主要活動類型的參考舉例: 2. 按年份統計各種活動類型每年所提及的頻次 比如:親子閱覽,這一活動在13

【R統計】分析

聚類分析 1.10 上海 alt 雲南 12.1 average 6.5 mes 題目: 為了深入地了解我國人口的文化程度,利用1990年全國普查數據對全國30個省、直轄市、自治區進行聚類分析,分別選用了三個指標:(1)大學以上文化程度的人口占全部人口的比例(DXBZ);

【R統計】基於相似系數的分析

ant 建模 sub plc str 選擇 pre light 均值 題目: 對48名應聘者數據的自變量作聚類分析,選擇變量的相關系數作為變量間的相似系數(cij),距離定義為dij=1-cij。分別用最長距離法、均值法、重心法和Ward法作聚類分析,並畫出相應的譜系圖。

R: 分析

.net 註意 們的 每次 應用領域 str 就是 比較 記錄 判別與聚類的比較: 聚類分析和判別分析有相似的作用,都是起到分類的作用。 判別分析是已知分類然後總結出判別規則,是一種有指導的學習; 聚類分析則是有了一批樣本,不知道它們的分類,甚至連分成幾類也不知道,希望用某

數據分析 第四篇:分析(劃分)

think trace stat pid 函數返回 around 構建 之前 得出 聚類是把一個數據集劃分成多個子集的過程,每一個子集稱作一個簇(Cluster),聚類使得簇內的對象具有很高的相似性,但與其他簇中的對象很不相似,由聚類分析產生的簇的集合稱作一個聚類。在相同的

數學模型:3.非監督學習--分析 和K-means

rand tar 聚類分析 復制 clust tle 降維算法 generator pro 1. 聚類分析 聚類分析(cluster analysis)是一組將研究對象分為相對同質的群組(clusters)的統計分析技術 ---->> 將觀測對象的群體按照