商業資料分析案例:客戶流失分析之—探索性分析
三、資料探索性分析
1、離散型變數的探索性分析方法
對無序型離散變數而言,以本案例中的手機品牌為例,對於名義型離散變數,關注的是該變數的取值分別有哪些,各個取值佔比是多少。從表格上看,列出離散變數各個取值的數量和佔比即可:

對有序型商散變數而言,有序型離散變數之間是可以比較大小的,因此還可以通過累積頻數和祟積頻率的方式來對資料進行展現。以話務量級別為例,可以做出話務量級別頻數表,從表中的累積百分比可以看出,13.7%的客戶屬於低使用率,而95.8%的客戶在高使用率及以下。

2、連續型變數的探索性分析方法
對於連續型變數,通常可以使用描述統計量和圖形兩種方法來進行探索性分析。
• 使用描述統計量:對於連續型變數,常見的描述統計量包括反應變數集中趨勢的均值、中位數等;反應分散趨勢的最小值、最大值、全距、標準差、變異係數等; 反應分佈形態的偏度和峰度。
• 使用圖形:對於連續型變數,主要通過直方圖和箱線圖的方式來對資料的分佈狀況進行考察。
3、變數之間關係的探索性分析方法
1) 離散變數與離散變數
離散變數與離散變數之間的關係可以使用條形圖進行檢視,將其中一個變數在圖形中 用不同的顏色顯示來直觀地觀察出變數之間的關係,也可以使用網路圖開顯示,通過各個要素之間是有線條聯絡、線條粗線來顯示是否有關係以及關係強弱。
例如,不同手機品牌的流失情況有著明顯區別,在網路圖中可以得到和條形圖一樣的結論,即ASAD90、CAS30、SOPIO和SOP20四個品牌的手機與流失關係密切。

如果希望得到兩個離散變數之間關係的量化描述,可以使用交叉表來顯示,從下圖中可以看出每個手機品牌的流失與不流失人數及百分比,而最下面的卡方值和概率則表明從統計意義上兩者是否無關,在這個案例中,看到概率=0,是一個很小的數值,說明兩者的關係是顯著的。

2) 離散變數與連續變數
對於離散變數和連續變數之間的關係,可以使用直方圖進行檢視,將其中的離散變數在圖形中用不同的顏色顯示來直觀地觀察變數之間的關係。也可以使用箱線圖來檢視連續變數與離散變數之間的關係。在圖形中,每個箱線圖代表一個離散變數的取值。
例如,對於連續變數高峰時期通話時長與流失之間的關係,使用箱線圖以體現兩個變數之間的關係。

如果希望得到離散變數與連續變數之間的量化關係,則可以使用統計分析中的方差分析方法,從下圖中可以看出,從統計意義上講,在0.05顯著性水平下。流失客戶與不流失客戶的高峰時期通話時長有著顯著差異。

3) 連續變數與連續變數
對於連續變數與連續變數之間的關係,可以使用散點圖進行直觀展示。例如,對於高峰時期通話數和高峰時期電話時長的關係,可以得到下圖的結果:

因此,在本案中,我們使用如下的分析內容:

從上圖可以看出,性別與流失的關係似乎不是很密切,男性和女性流失比例相差不大。

手機品牌與流失相關性很大,其中ASAD90、CAS30、SOP10及SOP20的流失比例尤其高,猜測這些手機品牌可能使用體驗(例如,訊號強度、使用方便性) 較差,或許這是造成客戶體驗下降從而流失的根本原因,當然這只是根據資料得到的結論,實際情況如何,還需要和業務人員充分討論,如果證實了猜測,那麼或許對這些客戶推薦(或贈送)其他手機品牌將是一種非常有效的挽留手段。

話務量級別與流失之間有一定的關係,低使用率客戶流失比率要高一些,這和我們的業務經驗一致。

話費合理性與流失之間關係密切。在3種話費方案不合理(HighCAT50、HighCAT100 及High Play100)的情形下客戶流失比率遠高於話費合理情形的流失比率,這提示我們的客戶是非常聰明的。儘管在話費不合理情況下,可以短期內獲得超額利潤,但是難以長久,可以建議業務部門關誼這一點,向客戶推薦更加適合的話費方案。
對高峰時期通話行為相關的連續變數與流失之間的關係的探索性分析,得到:




流失似乎和高峰時期通話行為的關係並不是特別密切,但大致可以看出高峰時期通話時間較少、高峰時期通話時長取值很低或者很高、高峰時期通話時長被動大、高峰時期平均每次通話時長較長的客戶似乎流失傾向更大一些。至於流失與各連續變數關係更細緻的分析,我們將通過後面的建模過程來完成。