商業資料分析案例:客戶流失分析之—資料理解與資料準備
二、資料理解與資料準備
在資料理解與資料準備階段,對資料做初步的探索性分析,瞭解資料質量狀況,考察資料的大致分佈情況,此外還要將各方面的資料合併,整理成可以進行資料探勘的寬表形式(即行代表記錄、列代表變數的二維表),並進一步根據業務上的考慮,生成一些有業務含義的衍生變數。
1、分析的資料基礎
(1)資料表1: 客戶基本資訊表(custinfo.csv)

(2)資料表2: 客戶通話情況表(custcall.csv)
這張表是客戶的月度通話行為資料,根據客戶通話詳單記錄彙總而來。高峰時期是指典型的工作時間(週一至週五早8:00至晚6點),非高峰時間是指典型的不含週末的非工作時間(週一早0:00至早8:00、週一至週四晚6點至次日早8點和週五晚6點至週五晚 24:00),週末時間是指週六早0:00至週日晚24:00的時間。具體變數含義及取值範圍見下表:

(3)資料表3:客戶是否流失標記表(churn.csv)

(4)資料表4: 話費方案表(tari行.csv)
這張表是話費方案衰,也就是營銷中所謂的套餐規則。假設話費方案的形式相同,都是每個月交一定的固定費用,會送一定的免費國內通話時間,超過該時間段部分會按照高峰時期、非高峰時期和週末進行計費,另外國際長途也會根據通話方案的不同,按照不同的標準收費,具體變數含義及取值範圍參見下表:

2、生成資料探勘表
從業務系統中取出的資料都是根據業務的需要考慮設計的,但往往不能達到取得良好 資料探勘結果的目的,這時需要對資料進行各種變換或者生成相關的衍生變數。

在資料準備過程中,從業務和資料分析的角度出發,對資料做了如下處理:
• 將客戶6個月的各類通話行為資料進行月度彙總,生成若干彙總變數,這些變數體現了客戶通話行為的絕對值狀況。主要有以下指標資料:
1)高峰時期、非高峰時期、週末時期電話數
2)高峰時期、非高峰時期、週末時期通話時長
3)國際電話時長
4)國內電話話費
• 生成若干比例指標和強度相對指標,用來反映客戶通話情況的相對值狀況,包括如下內容11個指標:
1)國內電話數合計、國內通話時長合計、所有通話時長合計
2)高峰時期、非高峰時期、週末時期、全部國內平均每次通話時長
3)高峰時期、非高峰時期、週末時期通話時長佔比(與國內通話時長比)以及國際通話時長佔比
• 生成若干反映客戶話費狀況的指標,尤其是其中的話費方案合理性指標,反映了客戶選擇的話費方案是否與客戶的實際消費狀況相匹配,主要如下內容6個指標:
1)客戶付費通話時長
2)客戶國內實際通話費用及總通話費用
3)平均每分鐘國內通話成本與平均每分鐘總通話成本
4)話費方案是否合理標記變數
• 生成若干反映客戶通話行為趨勢和波動狀況的指標,包括如下內容6個指標:
1)高峰時期通話時長趨勢與波動
2)非高峰時期通話時長趨勢與波動
3)週末時期通話時長趨勢與波動。
