1. 程式人生 > >論文筆記1《基於ID3決策樹改進演算法的客戶流失預測分析》

論文筆記1《基於ID3決策樹改進演算法的客戶流失預測分析》

《電腦科學》 2010

部分摘要:指出了該演算法的取指偏向性以及運算效率不高等缺點,在此基礎上提出了改進的ID3演算法,該演算法通過引入先驗知識度引數,有效克服ID3演算法中的取值偏向性和運算效率不高等問題。

演算法改進:針對傳統的ID3演算法的缺點與不足進行以下三點嘗試性的改進。

(1)  引入權重因子m,設屬性A有n種取值,那麼m=1/n(可根據經驗設定);

則G(A)=[I(p,n)-E(A)]*m

(2)  定義函式H(p,1-p)=-p*log(p)-(1-p)log(1-p), 【其中logx以2為底】;

(3)  事後剪枝;自下而上檢查內部節點,如果子樹產生的錯誤大於葉節點表示代替它所產生的錯誤,就剪掉子樹;

評價:

客戶流失評價矩陣:

預測流失

預測不流失

合計

實際流失

TP

FN

TP+FN

實際不流失

FP

TN

FP+TN

合計

TP+FP

FN+TN

TP+FN+FP+TN

TP(True Position);FP(False Position);

FN(False Negatives);TN(True Negatives)

預測命中率=*100%

預測覆蓋率=*100%

預測命中率是描述模型精確度的指標(在本文中是預測流失中實際流失的比例)

預測覆蓋率是描述模型普適性的指標(本文中是實際流失中預測正確的比例)

實驗結果對比:

取2009年5月份前的歷史資料,隨機抽取2000條記錄進行建模,預測模型對訓練集的預測結果:

預測流失

預測不流失

合計

實際流失

304

60

364

實際不流失

20

1616

1636

合計

324

1676

2000

預測命中率=*100%=93.33%

預測覆蓋率=*100%=83.62%

取2009年5月份的歷史資料,隨機抽取2000條記錄進行預測,則模型對測試集的預測結果:

預測流失

預測不流失

合計

實際流失

252

98

348

實際不流失

106

1548

1652

合計

358

1642

2000

預測命中率=*100%=70.39%

預測覆蓋率=*100%=72.41%

結果對比檢驗表明,模型的預測命中率與覆蓋率比訓練情況稍差,但依然保持了比較好的預測效能。

另外,為了驗證改進演算法的有效性,採用同樣的資料集建模,在相同的計算機平臺上將改進後的決策樹演算法的效率和原來ID3決策樹演算法的效率進行對比,其計算效率提高了23.5左右,這充分說明使用該改進演算法能夠以更高的效率和準確率構造決策樹,基本達到了實驗要求。

部分結束語:

結果表明,改進演算法不僅能更快更高效地建立模型,而且可以提供更高的檢測率和更低的誤檢率。改進的ID3演算法的關鍵是引入調整因子,而調整因子如何確定是以後要進一步研究的工作。