1. 程式人生 > >信用風險模型(申請評分、行為評分)與資料準備(違約期限、WOE轉化)

信用風險模型(申請評分、行為評分)與資料準備(違約期限、WOE轉化)

巴塞爾協議定義了金融風險型別:市場風險、作業風險、信用風險。信用風險ABC模型有進件申請評分、行為評分、催收評分。


————————————————————————————————————

一、資料準備

1、排除一些特定的建模客戶

用於建模的客戶或者申請者必須是日常審批過程中接觸到的,需要排除以下兩類人:

異常行為:銷戶、按條例拒絕、特殊賬戶;

特殊賬戶:出國、卡丟失/失竊、死亡、未成年、員工賬戶、VIP;

其他:欺詐(根據反欺詐評分)、主動銷戶者(流失評分)

2、解釋指標的選取

(1)申請評分所需指標

其中2.1FICO信用分的計算方法給出了一些評判標準

(2)行為評分所需指標

圖片來自CDA-DSC課程中。


3、目標變數的確立

對於預測建模,定義目標變數是最重要、對建模結果影響最大的一步。銀行業信用評分解決方案預設的目標時間定義選擇二分類變數為:不良/逾期、良好。

不良/逾期:觀察視窗內,觀察視窗內,60/90/120天算逾期日期;

良好:從未或截止逾期;從未或在觀察期內截止逾期

其中關於不良/逾期需要界定以下兩項內容:確定違約日期時長、觀察視窗期設定。

————————————————————————————————————

二、確定違約日期時長、觀察視窗期設定


其中有兩個時期,觀察視窗期、預測視窗期。預測視窗期時間由賬齡分析獲取,觀察視窗期大約就是預測視窗的3-5倍。巴塞爾協議中規定預測視窗期一般為12個月,所以一般實務中以12個月為視窗期。在已知預測視窗期之下,通過轉移矩陣瞭解違約期具體時長。

(PS:雖然做了總結,但是還沒明白老師上課所講的,為什麼這麼做?怎麼出結果?)

評論區網友Love_sf留言:

視窗期為一年12個月,觀察視窗為預測視窗的3-5倍,即觀察視窗為9個月,預測視窗3個月,或者觀察視窗為10個月,預測視窗2個月,定義M2+或者M3+作為違約使用者,這樣才能用來建模預測壞使用者出現概率。

1、違約日期的確定——轉移矩陣

不同賬期客戶轉移到更壞概率不同,選取顯著變化的節點。


圖中可以看出,第一個月不還拖欠到下一個月的概率為M0=7.96%,第二個月不還拖欠到下個月的有M1=57.26%,M2=64.48%,M3=79%,M4=83.77%。

從這裡可以看出,第五個月是一個拐點,說明第五月之後就很難催到賬務。所以,催帳日期可以選擇3月。同時,超過5月包括5月的都屬於違約行為。

2、違約視窗期設定——賬齡分析

一般情況下巴塞爾協議硬性要求12個月及以上作為視窗期。一般情況下,觀察視窗=3-5倍的預測視窗。


決定信用評等模型開發所需資料期間長度,一般會從最新資料的留存時點開始推算,利用賬齡分析觀察目標客戶的違約成熟期長度,藉此設定觀察期長度(預測視窗的時間長度)。比如200901開卡的人,第10個月,穩定成熟了,績效時間可以確定為10-12個月;200902開卡的人,第11個月,穩定成熟了,11-12個月。

————————————————————————————————————

三、資料重編碼——WOE轉換

由於製作評分卡的某些需要,通常會在建立評分模型時將自變數(連續+離散都可以)做離散化處理(等寬切割,等高切割,或者利用決策樹來切割),但是模型本身沒辦法很好地直接接受分類自變數的輸入。所以信用評分卡中常用的WOE轉換。

WOE轉換=分箱法=Logit值,與等深、等寬不同是根據被解釋變數來重新定義一個WOE值(R語言︱噪聲資料處理、資料分組——分箱法(離散化、等級化))。

WOE的公式就是:WOE=ln(好客戶佔比/壞客戶佔比)*100%=優勢比

好客戶佔比=數量(x︱y=好)/總人數

WOE轉化的優勢:提升模型的預測效果,提高模型的可理解性。

1、WOE與違約概率具有某種線性關係

從而通過這種WOE編碼可以發現自變數與目標變數之間的非線性關係(例如U型或者倒U型關係)。提升預測效果

2、WOE變量出現負值情況。

在此基礎上,我們可以預料到模型擬合出來的自變數係數應該都是正數,如果結果中出現了負數,應當考慮是否是來自自變數多重共線性的影響。

3、標準化的功能。

WOE編碼之後,自變數其實具備了某種標準化的性質,也就是說,自變數內部的各個取值之間都可以直接進行比較(WOE之間的比較),而不同自變數之間的各種取值也可以通過WOE進行直接的比較。

4、WOE能反映自變數的貢獻情況。

自變數內部WOE值的變異(波動)情況,結合模型擬合出的係數,構造出各個自變數的貢獻率及相對重要性。一般地,係數越大,woe的方差越大,則自變數的貢獻率越大(類似於某種方差貢獻率),這也能夠很直觀地理解。

5、異常值處理。

很多極值變數通過WOE可以變為非異常值.


譬如解決分類之後,一些案例個數過少的情況。案例個數過少的情況一般情況下可以合併,也可以用WOE轉化來實現。

轉化之後可能值變成這個樣子,跳躍很大,可以作為用蓋帽法等方法解決。

——————————————————————————————————————————

延伸案例一:機器學習演算法基於信用卡消費記錄做信用評分

文章來源雲棲社群,作者傲海資料集介紹這是一份國外某機構開源的資料集,資料的內容包括每個使用者的一些性別、教育、婚姻、年齡等屬性,同時也包含使用者過去一段時間的信用卡消費情況和賬單情況。payment_next_month是目標佇列,表示使用者是否償還信用卡賬單,1表示償還,0表示沒有償還。資料供30000條。資料集下載地址:https://www.kaggle.com/uciml/default-of-credit-card-clients-dataset實驗流程先來看下實驗圖:現在對一些關鍵節點進行介紹:(1)拆分將輸入資料集分為兩部分,一部分用來訓練模型,另一部分用來預測評估。(2)分箱分箱元件類似於onehot編碼,可以將資料按照分佈對映成更高維度的特徵。我們以age這個欄位為例,分箱元件可以按照資料在不同區間的分佈進行分享操作,分箱結果如圖:最終分箱元件的輸出如圖,每個欄位都被分箱到多個區間上:(3)樣本穩定指數PSI樣本穩定指數是衡量樣本變化所產生的偏移量的一種重要指標,通常用來衡量樣本的穩定程度,比如樣本在兩個月份之間的變化是否穩定。通常變數的PSI值在0.1以下表示變化不太顯著,在0.1到0.25之間表示有比較顯著的變化,大於0.25表示變數變化比較劇烈,需要特殊關注。本案例中,可以綜合比較拆分前後以及分箱結果的樣本穩定程度,返回每個特徵的PSI數值:(4)評分卡訓練評分卡訓練的結果圖如下:評分卡的精髓是將複雜的比較難理解的一些模型權重用符合業務標準的分數表示。
  • intercepy表示的是截距
  • Unscaled是原始的權重值
  • Scaled是分數更改指標,比如對於pay_0這個特徵,如果特徵落在(-1,0]之間分數就減29,如果特徵落在(0,1]之間分數就加上27.
  • importance表示每個特徵對於結果的影響大小,數值越大表示影響越大
(5)評分卡預測展示每個預測結果的最終評分,在本案例中表示的是每個使用者的信用評分。結論總結

基於使用者的信用卡消費記錄,最終通過評分卡模型的訓練,我們在評分卡預測中可以拿到每個使用者的最終信用評分,這個評分可以應用到其它的各種貸款或者金融相關的徵信領域中去。評分卡相對於其他的模型的預測的優勢是將計算結果權重直接沉澱成直觀的分數,通過這樣的評分看模型,可以快速的瞭解每個使用者的信用分,每個客服人員的服務評分,每個手機的測評分數等等。