python資料分析與挖掘實戰第七章拓展思考

阿新 • • 發佈：2019-01-18

流失客戶分類模型

1 資料預處理
如果動手做過的人可能面臨的第一個問題就是，這資料讀進pandas怎麼弄編碼結果都是錯的。如果你存在這樣的問題，那麼我建議你使用NotePad++載入檔案以後，改成無BOM的UTF-8編碼，然後就可以正常讀取了。
資料預處理部分
根據書上的條件，預處理需要分以下幾條：
1、老客戶：飛行次數大於6次
2、已流失客戶：第二年飛行次數’L1Y_Flight_Count’ 低於第一年飛行次數’P1Y_Flight_Count’ 的50%，型別為0
3、準流失客戶：第二年飛行次數’L1Y_Flight_Count’ 在第一年飛行次數’P1Y_Flight_Count’ 的 50%-90% 之間，型別為1
4、未流失客戶：第二年飛行次數大於第一年飛行次數的90%以上, 型別為2
5、單位里程票價：這也是沒有現成的，我採用的是(（第一年總票價+第二年總票價）/總里程)
6、單位里程積分：（總積分/總里程）

然後因為有些客戶沒有票價，造成了單位里程票價為0，這類客戶不是很多，所以我也就全部丟棄掉了。最後，把小數部分都取成2位。得到結果如下圖：
這裡寫圖片描述

然後進行標準化，這次我採用的是max-min標準化。得到的結果是：
這裡寫圖片描述

到這裡資料應該算準備完成了。但我在這裡遇見了一個問題，在把這個資料匯入KMeans的時候，會報一個ValueError的錯誤。所以需要通過以下程式碼，解除錯誤。

# data_zc就是上面的表
from sklearn.preprocessing import Imputer
data_zcc = pd.DataFrame(Imputer().fit_transform(data_zc))

進行Kmeans分類，程式碼不貼了，基本就是書上一樣的，不過這裡只分3個質心。

然後劃分80%資料為訓練集，20%為測試集。在這裡其實我有一個很大的疑惑以至於我對整個過程表示懷疑。通過KMeans對以上的資料進行了分類，那麼訓練集和測試集有本質性的區別嗎？為什麼不把測試集做為增量資料和訓練集一起進行訓練分類呢？當然，如果訓練級如果確實數量很大，那麼從效能角度而言，確實分開比較好。

這裡寫圖片描述

好了，無論如何，我也把訓練資料分成了三類。
那麼下面就是要分析一下，這三類究竟是什麼情況了。

分析結果
0群：會員等級高，平均出行間隔短，平均里程長，積分兌換次數高，單位里程票價和單位里程積分高，人數最少，那麼我認為這就是可以算是鐵桿客戶，這一類客戶當然是VIP咯。但是這一類客戶的MEMBER_TYPE並不都是2，也就是說部分客戶已經減少了通過航空公司出行的量，針對這一部分客戶應當加強回訪，找出這一部分客戶為什麼會減少出行的原因，進行改進。

我們看一下這群體客戶的原始資料。
這裡寫圖片描述
很明顯，這一群的客戶資料都好好看。

1群：可以說所有資料都在中等水平，但是呢MEMBER_TYPE值缺最低，那麼意味著這一類的客戶裡面，第二年的飛行里程已經達不到第一年的50%了。那麼這一類客戶基本上說是已經流失的客戶了。

我們也看一下這個群體的客戶原始資料。
這裡寫圖片描述
很明顯，這一群體裡面第二年的乘機次數都有明顯的下降。對於這一群體中的會員卡等級較高且第一年乘機次數較多的客戶，應當進行回訪，瞭解客戶為什麼會減少乘機次數，找出原因進行改進。爭取把這一部分流失的客戶重新召回。

2群：所有值都處於最低，人數也最廣。但是MEMBER_TYPE確是最高的值。我們先來看一下，這一群體的資料究竟是怎樣的。

根據資料，我們可以認為，這一群體應該是剛剛加入這家航空公司不久的會員，所以會員等級等等資料並不是那麼好看，但是他們都有一個共同的特徵，就是他們的飛行次數在增加。也就是他們正處於一個上升區間，把這一群體的客戶努力轉變為0群客戶，那麼就可以增加忠誠使用者的數量。這顯然是至關重要的。那麼可以通過給這些會員更多的晉升VIP等級，更好的折扣加強使用者存在感等等營銷方式呵護這一群體。

個人評論
對於結果分析部分，其實我個人並不是很有信心，因為相同的資料在不同人的眼裡結論是不一樣的。在我們國家航空公司並沒有很多，最主要的也就是幾大航空公司，對於客戶而言選擇飛行的時間日期可能比選擇航空公司而言的優先度更高一些，所以我大體認為三個群體對應的是三種人群。

第0群，這一類就是傳說中的空中飛人，經常出差工作，飛來飛去是航空公司的常客。

第1群，曾經他們是空中飛人，但是現在可能轉換工作不太需要出差了，所以出行次數變少。

第2群，將要成為空中飛人的人或者每年有固定飛行計劃的人，又不需要出差的工作轉為常常需要出差飛行的工作，或者這些客戶一年就飛個3-4次，比如去某個城市開個季度會議之類，所以飛行量不是很大，但是次數也比較固定。

python資料分析與挖掘實戰第七章拓展思考

流失客戶分類模型

python資料分析與挖掘實戰第七章拓展思考

python資料分析與挖掘實戰第六章拓展思考

python資料分析與挖掘實戰第九章拓展練習

python資料分析與挖掘實戰-第六章拓展偷漏稅使用者識別

《Python資料分析與挖掘實戰》第7章——kmeans

《Python資料分析與挖掘實戰》第13章——迴歸+DNN

《Python資料分析與挖掘實戰》第15章——文字挖掘

『Python資料分析與挖掘實戰』第五章：挖掘建模

python資料分析與挖掘實戰筆記二：第99頁神經網路訓練出現的錯誤'Some keys in session_kwargs are not supported at this time: %s'

《Python資料分析與挖掘實戰》第10章（上）——DNN

《Python資料分析與挖掘實戰》第8章——Apriori關聯規則

《Python資料分析與挖掘實戰》第六章學習拓展——偷漏稅使用者識別

《Python資料分析與挖掘實戰》第八章學習-關聯規則Apriori

菜鷄日記——《Python資料分析與挖掘實戰》實驗6-1 拉格朗日插值法

Python資料分析與挖掘實戰 pdf下載

推薦書籍《Python資料分析與挖掘實戰》附下載連結

《Python資料分析與挖掘實戰》筆記（一）：資料探勘基礎

Python資料分析與挖掘實戰—挖掘建模

Python資料分析與挖掘實戰（Pandas,Matplotlib常用方法）

Python資料分析與挖掘實戰程式碼糾錯程式碼3-1

python資料分析與挖掘實戰 第七章 拓展思考

流失客戶分類模型

相關推薦

python資料分析與挖掘實戰第七章拓展思考