基於聚類（Kmeans）演算法實現客戶價值分析系統(電信運營商)

阿新 • • 發佈：2018-12-11

開發環境 jupyter notebook

一、電信運營商–客戶價值分析

從客戶需求出發，瞭解客戶需要什麼，他們有怎麼樣的特徵，電信運營商為客戶設定不同的優惠套餐

爭取更多的使用者：推出不同的優惠套餐降低客戶流失率提高收入增加 ARPU 值（average revenue per user 每個使用者平均收益）精準的市場營銷策略定製

二、使用聚類模型—分析專案需求

由於客戶多，消費行為複雜，很難人工對客戶打標籤，這種情況下：
採用無監督學習的聚類演算法更恰當

通過對客戶的特徵，日常消費行為進行分析，瞭解其偏好， 
為降低客戶流失率和爭取新使用者提供個性化營銷依據

目標客戶：
	公眾客戶
	商業客戶
	大客戶

初步目標
	中高階使用者
	中端使用者
	離網趨勢使用者
	其它需求使用者
	
通過聚類，將公眾客戶分為多個類別
聚類完成後，對分組資料的各方面做一個觀察，年齡、性別、消費情況

三、聚類模型的原理和方法

3.1 聚類（物以類聚，人以群分）

聚類（無監督）分類（有監督，已經知道事務類別）

3.2 聚類效果評價標準（聚成幾個類比較合適）

層次聚類（hierarchical clustering）是一種很直觀的演算法，一層一層地進行，把小的cluster 逐步聚攏（agglomerative clustering））,也可以將大的cluster逐步分割（divisive cluster）。逐步聚攏用的多

層次聚類的 dendrogram 樹（親緣關係樹狀圖解） scipy.cluster.hierarchy.linkage進行層次聚類的時候，可以使用 scipy.cluster.hierarchy.dendrogram

畫圖，畫出一棵二叉樹，高度表示兩個後代相互之間的距離

如何切割 dendrogram 樹

四、程式碼：

4.1 資料感知

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from scipy.cluster.hierarchy import linkage,dendrogram

custinfo = pd.read_csv(r'.\\data\\custinfo.csv')
custcall = pd.read_csv(r'.\\data\\custcall.csv' 
)
custcall.head()

$~$	Customer_ID	Peak_calls	Peak_mins	OffPeak_calls	OffPeak_mins	Weekend_calls	Weekend_mins	International_mins	month
0	K100130	12	10.587465	5	4.479312	0	0.000000	4.381410	4
1	K100130	14	11.530076	7	4.878109	1	3.045756	4.771490	6
2	K100130	10	9.109470	4	3.854007	0	0.000000	3.769771	1
3	K100130	12	10.530956	5	4.455404	0	0.000000	4.358024	3
4	K100130	11	9.507319	4	4.022327	0	0.000000	3.934413	2

4.2 資料預處理

# 資料聚合:--對整個DataFrame數值求平均值,刪除最後一列【month】
custcall2 = custcall.groupby(custcall['Customer_ID']).mean()
custcall3 = custcall2.drop('month', 1)

# 資料合併
data = pd.merge(custinfo,custcall3,left_on='Customer_ID',right_index=True)
data.index = data['Customer_ID']
data = data.drop('Customer_ID',1) 

# 資料探索：(mean,std,min,max,25%,50%,75%)
desc = data.describe()
print(desc)   

gender_cnt = pd.value_counts(data['Gender'])
print(gender_cnt)
tariff_cnt = pd.value_counts(data['Tariff'])
print(tariff_cnt)
handset_cnt = pd.value_counts(data['Handset'])
print(handset_cnt)

for col in data.columns:
    if not col in [u'Gender',u'Tariff',u'Handset']:
        fig = plt.figure()
        ax=fig.add_subplot(1,1,1)
        data[col].hist(bins=20)
        ax.set_title(col)
        fig.show()

這裡寫圖片描述

4.3 模型建立

data_feature = data.drop('Age',1)
data_feature = data_feature.drop('Gender',1)
data_feature = data_feature.drop('Tariff',1)
data_feature = data_feature.drop('Handset',1)
data_zs = 1.0*(data_feature - data_feature.mean())/data_feature.std()       #資料標準化  

Z = linkage(data_zs, method = 'ward', 
            metric = 'euclidean')                #譜系聚類圖（歐式距離）
P = dendrogram(Z, 0)                             #畫譜系聚類圖
plt.show()
   
k = 4                                            #聚類的類別
iteration = 500                                  #聚類最大迴圈次數

model = KMeans(n_clusters = k, 
               n_jobs = 1, 
               max_iter = iteration)             #分為k類，併發數1，數值大系統卡死
model.fit(data_zs)                               #開始聚類


r1 = pd.Series(model.labels_).value_counts()     #統計各個類別的數目
r2 = pd.DataFrame(model.cluster_centers_)        #找出聚類中心

r = pd.concat([r2, r1], axis = 1)                #橫向連線（0是縱向），得到聚類中心對應的類別下的數目
r.columns = list(data_zs.columns) + [u'class']   #重命名錶頭
print(r)

#類中心比較
# r[cols].plot(figsize=(10,10))
r2.columns = list(data_feature.columns)
r2.plot(figsize=(10,10))
plt.show()


#詳細輸出原始資料及其類別
res = pd.concat([data, 
                 pd.Series(model.labels_, index = data.index)], 
                axis = 1)                              #詳細輸出每個樣本對應的類別
res.columns = list(data.columns) + [u'class']          #重命名錶頭
res.to_excel('.\\data\\result.xls')                    #儲存結果

pd.crosstab(res['Tariff'],res['class'])
pd.crosstab(res['Handset'],res['class'])
pd.crosstab(res['Gender'],res['class'])

res[[u'Age',u'class']].hist(by='class')
res[u'Age'].groupby(res['class']).mean()

這裡寫圖片描述

4.4 概率密度圖

def density_plot(data):                        #自定義作圖函式
    plt.rcParams['axes.unicode_minus'] = False #用來正常顯示負號
    p = data.plot(kind='kde', 
                  linewidth = 2, 
                  subplots = True, 
                  sharex = False,
                  figsize=(10,15) )
    [p[i].set_ylabel(u'密度',fontproperties='SimHei') for i in range(k)]
    plt.legend()
    return plt
"""
    看密度圖的話可以看到更多的細節，但是對比效果不明顯。
    pd_: 概率密度圖檔名字首
"""
pic_output = '.\\data\\pd_'                   
for i in range(k):
    density_plot(data[res[u'class']==i]).savefig(u'%s%s.png' %(pic_output, i))

這裡寫圖片描述

基於聚類（Kmeans）演算法實現客戶價值分析系統(電信運營商)

開發環境 jupyter notebook 一、電信運營商–客戶價值分析從客戶需求出發，瞭解客戶需要什麼，他們有怎麼樣的特徵，電信運營商為客戶設定不同的優惠套餐爭取更多的使用者：推出不同的優

使用Python進行層次聚類（一）——基本使用+主成分分析繪圖觀察結果+繪製熱圖

Python常用資料探勘的工具包 python對於資料處理非常有好的語言，比如常用的scikit-learn和scipy都可以用來進行機器學習和資料探勘。同時為了使得結果視覺化，Python還提供了非常好用的視覺化工具包matplotlib和seaborn。

原型聚類（一）k均值演算法和python實現

原型聚類原型聚類演算法假設聚類結構能通過一組原型刻畫，在現實聚類任務中極為常用。通常情形下，演算法先對原型進行初始化，然後對原型進行迭代更新求解。這裡的“原型”我認為實際上就是“原來的模型”，這類演算法企圖模擬出生成資料集的模型。 k均值演算法（k-means

原型聚類（二）學習向量量化（LVQ）和python實現

學習向量量化(Learning Vector Quantization,LVQ)和k-means類似，也屬於原型聚類的一種演算法，不同的是，LVQ處理的是有標籤的樣本集，學習過程利用樣本的標籤進行輔助聚類，個人感覺這個演算法更像是一個分類演算法。。。若存在一個

無監督學習——聚類（k-means演算法）

無監督學習是一種對不含標記的資料建立模型的機器學習正規化。無監督學習應用領域： - 資料探勘 - 醫學影像 - 股票市場分析 - 計算機視覺

劃分方法聚類（三） Canopy+K-MEANS 演算法解析

前面的博文已經系統的講述了K-MEANS演算法以及由K-MEANS演算法改進而來的一系列演算法。在這裡我們將Canopy與K-MEANS聯絡起來。首先講一下前面提到的Canopy演算法

呼叫WEKA包進行kmeans聚類（java）

所用資料檔案：data1.txt @RELATION data1 @ATTRIBUTE one REAL @ATTRIBUTE two REAL @DATA 0.184000 0.482000 0.152000 0.540000 0.152000 0.5960

劃分方法聚類（二）K-MEANS演算法的改進

　　　本文將主要針對K-MEANS演算法主要缺點的改進進行講述。（1）離群點，噪聲點的改進：針對離群點、噪聲點，通過離群點檢測演算法，去掉離群點與噪聲點。資料探勘方面，經常需要在做特徵工程和模型訓

機器學習——聚類（clustering）：K-means演算法（非監督學習）

1、歸類聚類（clustering）：屬於非監督學習（unsupervised learning）,是無類別標記（class label） 2、舉例 3、K-means演算法（1）K-means演算法是聚類（clustering）中的經典演算法，資料探勘的十大經典演算

虹膜識別與虹膜定位（續）演算法實現

在http://blog.csdn.net/piaoxuezhong/article/details/77966132中大致總結的虹膜識別與虹膜定位的原理，本篇結合現有的方法，例項測試實現，做下記錄：資料庫：中科院虹膜識別資料庫下載及說明請參見：

機器學習之聚類（二）

在機器學習和資料探勘中，我們經常需要知道個體間差異的大小，進而評價個體的相似性和類別。最常見的是資料分析中的相關分析，資料探勘中的分類和聚類演算法，如 K 最近鄰（KNN）和 K 均值（K-Means）等等。根據資料特性的不同，可以採用不同的度量方法

scipy做層級聚類（轉）

#!/usr/bin/python3 # -*- coding: utf-8 -*- ###cluster.py #匯入相應的包 import scipy import scipy.cluster.hierarchy as sch from scipy.cluster.vq import vq,k

使用Python進行層次聚類（三）——層次聚類簇間自然分割方法和評價方法

簇間自然分割方法今天，主要研究一下層次聚類在進行資料運算的時候，對資料結果進行自然簇分離而需要分析的API————inconsistent()。該函式是計算層次聚類不一致係數的，不一致係數越大，表明使用該閾值進行聚類的偏差越大。這樣按照該不一致係數下的閾值進

無向圖求最短路徑迪傑斯特拉（dijkstra）演算法實現

Dijkstra演算法說明 http://ibupu.link/?id=29namespace ConsoleApp14 { class Program { public static int M = -1; static

使用Python進行層次聚類（二）——scipy中層次聚類的自定義距離度量問題

今天，總結一下如何使用層次聚類演算法裡面的自定義距離度量層次聚類上次已經總結過。這次僅僅說明層次聚類的距離引數，這裡的距離引數可以使用自定義函式。我們進入該函式的文件頁面我們看到linkage的說明文件上面的函式scipy.cluster.hiera

密度聚類（DBSCAN）

DBSCAN 基本概念與演算法原理有資料集D={x1,x2,...,xm}，引數param={ϵ,MinPts} 有如下基本概念： ϵ-鄰域：資料集D中除xi外的其他樣本與xi距離小於ϵ的樣本集合。記作Nϵ(xj)={xj∈D|dist(xi,

譜聚類（spectral clustering)及其實現詳解

Preface 開了很多題，手稿都是寫好一直思考如何放到CSDN上來，一方面由於公司技術隱私，一方面由於面向物件不同，要大改，所以一直沒貼出完整，希望日後可以把開的題都補充全。先把大綱列出來：一、從狄多公主圈地傳說說起二、譜聚類的演算

sklearn中聚類（部分）

下圖為主要介紹的幾個聚類方法： 1、 k均值（K-means） ▲在指定n個類別後，最小化類別中樣本到類別均值樣本的距離，公式如下：其中，Ci為劃分，ui為每個劃分的均值向量，k=n。K-均值是相當於一個小、全等、對角協方差矩陣的期望最大化演算法。 ▲該方法

硬聚類（HCM）和模糊聚類（FCM）在彩色影象分割中的具體應用

示例工程見: 一年前我寫過模糊聚類演算法（FCM）和硬聚類演算法（HCM)的VB6.0實現及其應用一文，之後，有不少同仁向我詢問如何將這個演算法應用在彩色影象的分割上，鑑於影象資料的特殊性，這裡簡單的談談在影象中聚類演算法的需要注意一些細節。 C均值

聚類（下）

1.原型聚類原型聚類亦稱“基於原型的聚類”（prototype-based clustering）,此類演算法假設聚類結構能通過一組原型刻畫，在現實聚類任務中常用。通常，演算法先對原型進行初始化，然後對原型進行迭代更新求解。 1）K-Means演算法（

基於聚類（Kmeans）演算法實現客戶價值分析系統(電信運營商)

一、電信運營商–客戶價值分析

二、使用聚類模型—分析專案需求

三、聚類模型的原理和方法

四、程式碼：

4.1 資料感知

4.2 資料預處理

4.3 模型建立

4.4 概率密度圖

相關推薦