基於 Logistict 迴歸的評分卡模型
點選「京東數科技術說」可快速關注
「摘要」 信用評分模型是將模型變數WOE編碼方式離散化之後運用logistic迴歸模型進行的一種二分類變數的廣義線性模型。利用信用評分模型得到的客戶信用評分,可作為是否准予授信或為授信額度和利率提供參考。
在實際應用中,評分卡模型的作用日漸突出。如:評分卡模型可幫助銀行、金融機構等更有效地管理資產風險,優化賬戶管理策略。銀行通過信用評分模型,降低誤判率,提高收入,並且能準確預測違約率,控制不良貸款比率。
今天,筆者將為大家介紹基於Logistic迴歸的評分卡模型,分享量化團隊分析師構建評分卡模型的全過程,並逐步介紹模型演算法、模型評價指標等具體實現方式。
1
評分卡分類
A卡(Applicationscore card)新客戶申請審批
-
更準確地評估申請人的未來表現(違約率),降低壞帳率;
-
加快(自動化)審批流程, 降低營運成本;
-
增加審批決策的客觀性和一致性,提高客戶滿意度;
B卡(Behaviorscore card)現有客戶管理
-
更好的客戶管理策略, 提高贏利;
-
減少好客戶的流失;
-
對可能拖欠的客戶,提早預警;
C卡(Collectionscore card)早期催收
-
優化催收策略,提高欠帳的回收率;
-
減少不必要的催收行為,降低營運成本。
2
模型開發全流程
用一張圖為大家展示,量化團隊分析師開發評分卡模型的全流程,以及具體實現方式:
Step1:變數初選
通過等頻分箱或最優分箱離散原始資料,計算IV值,剔除預測能力差的指標。
-
資訊值(information value,簡稱”IV”)是常用的進行自變數篩選的指標,計算簡單,並且有經驗的判斷法則,IV值的計算公式為:
Step2:變數剔除
通過變數聚類或者計算相關係數的方法剔除變數,這一步主要目的是解決多重共線性問題。多重共線性(Multicollinearity)是指線性迴歸模型中的解釋變數之間由於存在精確相關關係或高度相關關係而使模型估計失真或難以估計準確。
Step3:資料離散化
資料離散化的目的是降低異常值的影響,同時增加模型的可解釋性,通過BESTKs、卡方合併、決策樹等有監督演算法將連續變數離散化幾個區間,然後進行WOE轉換。
-
證據權重(Weight of Evidence,簡稱“WOE”)
WOE是對原始自變數的一種編碼形式,要對一個變數進行WOE編碼,需要首先把這個變數進行分組處理(也叫離散化、分箱)。
Step4:初步建模
將原始指標用WOE進行替換後,用logistic迴歸估計引數,並剔除引數估計為負的變數。
下面讓我們來了解一下信用評分卡模型所依賴的Logistic迴歸演算法。何為“迴歸”呢?當有一些資料點,用一條直線對這些點進行擬合(該直線稱為最佳擬合直線),這個擬合過程就叫回歸。那麼,利用Logistic迴歸進行分類的主要思想就是根據現有資料對分類邊界線建立迴歸公式,以此進行分類。“迴歸”源於最佳擬合,即使用最優化演算法,找到最佳擬合引數集。
-
Logistic迴歸的實現:對於輸入特徵,每個特徵乘以一個迴歸係數,將所有結果值相加帶入Sigmoid函式中,從而得到一個0~1之間的數值,根據實際情況設定相關閾值,從而達到預測的目的。
-
最優化演算法:如何找到最優迴歸係數,是Logistic迴歸的關鍵問題。
即:找到上式的 機器學習中常用的最優化演算法有:梯度下降法(GradientDescent)、牛頓法和擬牛頓法(Newton's method & Quasi-NewtonMethods)、共軛梯度法(Conjugate Gradient)等等,接下來簡單介紹梯度下降法。
-
梯度下降法(Gradient Descent):梯度下降即沿著某函式的梯度方向,找到該函式的最小值,如果梯度記為▽,則函式f(x,y)的梯度為:
則梯度下降演算法的迭代公式為: , 其中, 為步長。
Step5:人工干預
根據指標的業務意義、上下限、人數佔比、違約比例調整分箱規則,即業務干預。
Step6:WOE更新
人工干預後,得到新的分箱,根據新分箱,更新WOE。
Step7:模型更新
更新完WOE之後,利用新的WOE值估計迴歸引數。
Step8:分數轉化
根據Logistic迴歸估計的引數、分箱的WOE來確定每個區間的得分。
Step9:模型效果評估
我們利用AUC、KS等指標評估模型的預測能力。
-
AUC(Area Under Curve)
AUC實際上就是ROC曲線下的面積,ROC曲線反映了分類器的分類能力,結合考慮了分類器輸出概率的準確性,AUC量化了ROC曲線的分類能力,越大分類效果越好,輸出概率越合理。
-
KS (Kolmogorov-Smirnov)
K-S統計量被應用於信用評級模型主要是為了驗證模型對違約物件的區分能力,是表現模型區分能力的驗證指標;通常,如果模型的K-S統計量越大,表明模型區分正常客戶和違約客戶的能力越強。
Step10:模型監控
-
PSI (population stability index)
系統穩定性指數,主要考察了模型預測結果的穩定性,通過對建模樣本和監控樣本中客戶的評分或評級分佈的比較來判斷模型預測結果的穩定性。系統穩定性指數越小,越穩定,表明監控樣本的分數的分佈情況和建模樣本中的情況越相似,可以預期模型在監控樣本中的效能表現和建模樣本中的效能表現會很接近。
Step11:評分
下面的小示例,簡單為大家展示評分卡及其計分模式:
如果該模型的基礎分是50分,比如有個客戶,大專畢業,男性,擁有自有住房,工作10年以上,那麼他的分數就應該是:Score=50+14+9+24+12=109。
3
總 結
本文介紹了基於Logistic迴歸的評分卡模型的實現流程,介紹了Logistic演算法、IV值和WOE,以及評價模型的指標AUC、ks值、PSI等。在實際應用中,評分卡模型的作用日漸突出。量化團隊根據業務需要開發各種不同評分卡模型,並嘗試不同演算法建模,試圖更加科學、準確地構建模型,降低誤判率,增加審批的客觀性,提高客戶的滿意度。
關於我們
京東數科運營決策團隊基於大資料環境,結合豐富的業務場景,利用機器學習專業技術,不斷挖掘海量資料中蘊含的豐富資訊,我們已將一系列機器學習模型應用到多個領域中,並且堅持在演算法深度的道路上持續探索,致力於對未知資訊和事件做出更精準預測,使業務運營策略更加精準有效。
京東數科技術說&技術課堂
▼▼▼
由京東數科-技術研發部策劃組織
倡導“原創·實用·技術·專業”
致力於分享技術領域實戰經驗與技術乾貨
線上訂閱“京東數科技術說”,線下聆聽“技術課堂”
為加強技術分享、總結沉澱,提升數科技術影響力而搭建的
線上線下融合交流平臺
不只一技之長 · 我有N技在手
諮詢、建議、合作請聯絡:
劉嘉璐(liujialu)/張明瑛(zhangmingying3)


