1. 程式人生 > >為什麽要使用邏輯回歸制作評分卡

為什麽要使用邏輯回歸制作評分卡

缺失值 spa 行數 woe img 步驟 eight -i 為我

1、什麽是評分卡?

在銀行借貸場景中,評分卡是一種以分數形式來衡量一個客戶的信用風險大小的手段,一般來說,評分卡打出的分數越高,客戶的信用越好,風險越小。

2、評分卡怎麽使用?

對於需要借貸的個人或者公司,在借貸時需要填寫一張表格,表格內容包括年齡,收入,家庭人口數量等等。評分卡將每個特征劃分為幾個區間,每個區間有一個分數。根據客戶所填信息和評分卡,為客戶所填的每一個特征賦一個分數,最後相加計算這個用戶的總得分。依據總得分評估他的信用程度。

3、怎麽使用邏輯回歸制作評分卡?

制作評分卡需要大量客戶所填的信息(特征矩陣X),以及該客戶是否違約的信息(標簽Y)。

(1)對特征矩陣X進行數據預處理。包括去除重復值,填補缺失值(僅有極少數樣本缺失該特征可考慮直接刪除該特征,可使用均值填補家庭人數,隨機森林填補收入等),處理異常值,處理樣本不均衡問題(使用過采樣和欠采樣的方法),但是我們一般不對數據進行標準化處理(這是因為我們給出的評分卡是給業務人員看的,而客戶所填信息天生就是量綱不統一的)。

(2)找出每個特征最佳分箱數和分享邊界。最佳分箱數即使得該特征的IV值盡量在最佳IV值區間(盡量提高每個特征的重要性),並且使得該特征的箱內相似,箱間差異大。因此步驟是這樣的:首先確定一個較大的箱子數,進行等頻分箱,計算各箱WOE值和特征的IV值,然後依據卡方檢驗值合並相似箱子,再次計算各箱WOE值以及該特征IV值,直到箱子數量變為一個較小值。畫出箱子個數-IV值曲線,找出分箱個數和各箱邊界。

(3)對各個特征依據最佳分箱邊界進行分箱。分箱後得到特征的各箱邊界以及WOE值。

(4)處理訓練集和測試集的特征矩陣X。將特征矩陣中的值全部替換為對應箱子的WOE值。

(5)使用訓練集進行建模,使用測試集計算模型得分,並且利用學習曲線調整正則化系數C和最大叠代次數max_iter提高模型得分。

(6)制作評分卡。技術分享圖片根據該公式的值計算出系數A和B的值,根據邏輯回歸得到的截距lr.intercept_、各特征系數lr_coef_。用base_score = A - B*lr.intercept_公式計算該評分卡的基準值,用col_score = woeall["i_colName"] * (-B*lr.coef_[0][i])計算各特征的分數列表(每個箱子對應一個分數),其中woeall["i_colName"]是i特征的箱子列表和對應的WOE值列表。

4、為什麽要使用邏輯回歸制作評分卡?

因為評分卡制作其實就是將連續的特征離散化,且為每一個離散值賦一個分數。其中邏輯回歸的截距用於計算評分卡基準值;邏輯回歸系數用於表示各個特征在判別標簽時的重要程度;各箱的woe值用於邏輯回歸建模時代替特征矩陣X原始值帶入計算。

為什麽要使用邏輯回歸制作評分卡