1. 程式人生 > >【Paper Note】基於決策樹演算法的電信運營商客戶流失預測

【Paper Note】基於決策樹演算法的電信運營商客戶流失預測

隨著網際網路業務的速發展,移動業務市場的客戶流失預警成為每一個電信運營商重點關注的內容,在商務智慧與機器學習快速發展的當下,運用資料探勘的方法,實現對電信客戶的挽留、轉化、精準營銷越來越彰顯其商業價值。如何最大程度地挽留在網使用者、吸取新客戶,是電信企業最關注的問題之一。競爭對手的促銷、公司資費軟著陸措施的出臺和政策法規的不斷變化,影響了客戶消費心理和消費行為,導致客戶的流失特徵不斷髮生變化。對於電信運營商而言,客戶的流失會給電信企業帶來市場佔有率下降、營銷成本增加、利潤下降等一系列問題。在發展使用者每月增加的同時,如何挽留和爭取更多的使用者,是一項非常重要的工作。

2.運營商客戶流失因素分析

2.1 缺失值及資料冗餘處理

電信客戶資訊中,部分屬性如:VIP等級、本地主叫時長等存在資料缺失,對於這部分資料的預處理,時間上穩定的使用者資訊,如果資料缺失,以最近一個月的套餐資訊代替;對於無法補充的使用者資訊,以NA替換;對於連續性資訊的丟失,將該值前後時間上相鄰的兩個值的平均值。處理重複資料時,根據資料完整性及資料錄入時間進行判斷,選取完整性最高的資料或同等條件下最新的資料,剔除重複資料。

2.2 因素分析

部分屬性的探索性分析過程如下:

(1)性別與使用者流失

探索性資料分析作為資料探勘前的資料處理方式,有助於分析人員擺脫條件假設的束縛,通過對原始資料的探索,尋求資料間的內在聯絡,從而幫助分析人員找出資料間的規律,選擇適當的模型進行資料建模。

對於性別的缺失值,我們可以觀察到性別中的3種標籤呈現出不同的流失程度,男性流失率為0.034,女性為0.030,NA為0.021,轉換為3個啞變數。其他離散性變數處理方式相同。

(2)合約時間與使用者流失

使用者合約到期時時間與使用者流失關係如圖4所示,橫座標0為NA,可以看出,合約在短期內到期或呈缺失值的使用者流失程度最高,其次到合約到期時間在中等長度的使用者,2019年以後合約才到期的使用者流失率最低,流失率基本為0%,因此分為三個型別。

3. 客戶流失預測模型

3.1 C5.0演算法

C5.0演算法是決策樹C4.5的改進演算法,在精度上採用boosting方法,以資訊增益率(GainsRatio)作為樣本分枝屬性,增強C4.5演算法多屬性的分枝的健壯性,在決策樹建立之前,每個輸出變數屬性是完全隨機的,以資訊熵來表示資訊的不確定性為:

(1)

在決策樹建立過程中,隨著信宿接收到資訊,考察輸入變數 ,則條件熵為:

(2)

於是,資訊增益為:

(3)

資訊增益的物理意義在於:屬性 的發生對於特徵U的不確定性減少量。C4.5和C5.0演算法中,將資訊增益與資訊熵的比值,即資訊增益率來選擇屬性,資訊增益率為:

(4)

資訊增益率作為一種提升演算法,更能反映出屬性的資訊混亂趨勢,因此選擇資訊增益率最大的輸入變數作為最佳分組變數,這主要是因為它消除信宿對信源的平均不確定性的能力最強。由此進行的樣本分組,輸出變數在兩個組內部取值的趨同程度自高,即各組內部的 差別大。

3.2 誤差分析

針對每個節點,以其中的眾樹類別作為預測類別。設第i個節點中包含n個樣本,有 個預測錯誤的樣本。於是,可利用觀測到的錯誤率 ,在近似正態分佈假設的基礎上,對該節點的真實誤差 進行估計。由於估計是在訓練樣本上的,因此應給出一個置信度 。於是,真實錯誤率的置信區間為:

(5)

    其中, 為臨界值。可得第i個節點真實誤差的估計上限,即悲觀估計為:

(6)

4.客戶流失預測例項分析

4.1 多因素分析

資料屬性過多造成決策樹模型複雜,但通過探索性資料分析可知,一些屬性對於決策樹的生成並無影響,因此,在建立決策樹模型前,需要對資料的各個屬性進行多因素分析,從而找出重要因素,這樣可以簡化決策樹模型,降低時間複雜度,提升模型效率。其屬性權重分佈如下:


通過對原始資料的多因素分析,可以得出以下結論:入網時間(INNET_MONTH)、有通話天數(CALL_DAYS)、有主叫天數(CALLING_DAYS)、簡訊傳送條數(P2P_SMS_CNT_UP)、主叫呼叫圈(CALL_RING)和年齡(CERT_AGE)與流失呈負相關,本月費用(ACCT_FEE)和有被叫天數(CALLED_DAYS)與流失程度呈正相關。這些特徵與現實生活情況相近,變數篩選力度大,因此,在建立決策樹模型時,可以通過考慮這些重要客觀因素來簡化決策樹分枝,從而高效輸出決策樹模型。預測變數的重要性如圖所示。


4.2 分類樹C5.0演算法預測運營商客戶流失

建立決策樹模型,模型規則輸出如圖所示。


通過決策樹模型的輸出,可以得到各個屬性對使用者流失特徵的決定作用,決策樹模型的特點之一就是視覺化效果好,通過決策樹輸出規則圖可以清楚確定每一個決策分枝的分類規則,從而確定使用者流失特徵。

4.3結果分析

在資料建模過程中,樣本資料十萬餘條,其中60%作為訓練樣本集,30%作為測試樣本集,10%作為驗證樣本集,通過建立的決策樹模型,得到的預測精度高達92.72%,其詳細情況見表2。

          訓練  準確性  測試   準確性    驗證  

準確性

正確

166599

92.46%

81381

90.33%

27845

92.72%

錯誤

13586

7.54%

8712

9.67%

2186

7.28%

總計

180185

90093

30031

 1


由此,我們根據建立的決策樹模型,輸出其重要屬性的置信度值,通過每個屬性的置信度值,可以清晰反映資料屬性的重要性,在使用者流失的決策樹模型中可以很好的發揮其作用。

資料下載連結:https://pan.baidu.com/s/10cGtAHvoCBOPKDdSr6vgOw