1. 程式人生 > >信用風險評分卡研究-第7章筆記

信用風險評分卡研究-第7章筆記

對數 信用 向量 工具 -a 包括 步驟 狀態 程序

引言
LOGISTIC回歸在信用評分卡開發中起到核心作用。由於其特點,以及對自變量進行了證據權重轉換(WOE),LOGISTIC回歸的結果可以直接轉換為一個匯總表,即所謂的標準評分卡格式。
通常,LOGISTIC回歸可以用一個名義或順序因變量的建模。然而,本書僅限於介紹二元因變量的情況,因為這是大多評分卡申請的情況。

本章將介紹LOGISTIC回歸的基本公式,用於建立模型的PROC LOGISTIC的主要選項,以及進行模型評價的常用指標。證據權重轉換將在第8章介紹,LOGISTIC回歸模型中變量選擇的方法在第9章介紹。

基本公式
首先,假設有N個包含違約狀態變量y的觀測值。違約狀態變量Y有兩種情況:0表示正常事件,1表示違約事件。同時,假設收集到R個預測變量,或自變量,也被稱為協變量,x1,...,xr,第i個觀測值的自變量和因變量的取值分別表示為xi1,...,xir和yi,基符號詳見表7.1.

P是違約的概率,而(1-p)是正常的概率。
比例P/(1-P)被稱為比率,即違約事件概率與正常事件概率的比值。因此,logit函數僅僅是比率的自然對數。而logistic回歸模型是用比率的對數作為因變量的線性模型。

logit函數並不是唯一可用於logistic回歸模型的轉換式。概括該過程,應用概率p的函數形式被稱為聯系函數。SAS/STAT中的PROC LOGISTIC 支持幾個這樣的聯系函數。當因變量是二元變量時,PROC LOGISTICS默認的聯系函數是logit函數。因為在標準信用評分卡的情況下,只用到logit函數,所以不需要深入探討這些函數。

在進一步介紹logistic回歸的公式和屬性之前,通過一個簡單的案例探討其基本特征。該例將介紹PROC LOGISTIC的核心說明。

例7.1 第6章介紹的樣本數據集CreditCard中包含了1200個信用卡客戶的數據。該數據既包含申請字段,也包含了行為字段。字段Status代表賬戶狀態,其中正常用0表示,違約用1表示。輸入數據需要的SAS代碼在文件夾CC_DataSet.sas中。列表7.1是用於分析字段Status的代碼,用PROC FREQ計算出違約率是33%。

PROC FREQ DATA=CREDITCARD;
TABLE STATUS;
RUN;
建立第一個模型將使用部分申請字段。列表7.2 表示使用logistic 回歸建立一個包含變量CustAge、TmAtddress、CustIncome和TmWBank的模型。

列表7.2 使用PROC LOGISTIC申請字段的第一個模型
PROC LOGISTIC DATA=CREDITCARD;
MODEL STATUS(EVENT=‘1‘)=CustAge TmAtAddress CustIncome TmWBnak;
RUN;

該模型的參數估計詳見表7.2

似然方程
用給定數據擬合LOGISTIC回歸模型,首先從似然函數和似然方程開始。最大似然法則(ML)通過構建一個代表從建議的模型得到數據的似然值而發生作用。然後,如果給定的參數數據最大化了似然函數的值,則該法認為得到了最優模型。
因此,實施最大似然法則包含三個步驟:
1、假設數據遵循一種待定的模型形式。在這種情況下,模型遵循公式7.4給定的形式,包含的未知參數B0,B1,...,Br。
2、如果數據遵循這咱特定模型形式,可以構建一個函數來計算給定數據的似然值。
3、估計模型參數以實現似然函數的最大化。
如前所述,有n個觀測值,每個都包含自變量x1,...,xr,這些變量包含在向x中,第i個觀測值將用符號xi1,...,xir,或向量xi表示。對於每個觀測值,可以知道二元因變量y的值取為0或1.因此,這些觀測值可以成對地表示(xi,yi),i=1,...,n。並且,假設這些觀測值是獨立的。信用評分卡的案例中,這意味著客戶的違約行為相互之間獨立的。
現在,擬合公式7.4中LOGISTIC回歸模型,並找出相應的參數向B。將數據點xi,i=1,...,n的值代入模型,可以得到事件(yi=1)的估計概率。將這些估計概率表示為ni,i=1,...,n。顯示,這些概率是自變量值的函數。因此,可以用n(xi)代替ni。這兩個符號將交替使用。
根據最大似然法則,當期望值ni,i=1,...,n等於相對應的實際結果yi,i=1,...,n時,要求似然函數能夠實現最大值。因為實際結果yi的取值只能是0和1,該函數的一種可行選擇是期望值的聯合概率。觀測值相互獨立的假設將似然函數簡化為單個觀測值估計概率的結果。似然函數這種選擇的數學表達式如下:

可以證明,只要滿足以下兩個條件,信息矩陣總是正定的,即具有可逆的且行列式為正的子矩陣:
1、自變量間不存在共線性。如果一個或多個變量可以表示為其他變量的線性組合,就可以說該組變量間存在共線性。例如,一個信用卡賬戶支付的總利息等於息率乘以未償還余額。共線性結果存在奇異信息矩陣中。
2、數據是非線性可分的。當自變量的線性組合可以將數據完全分類時,就發生了數據的線性可分。其數學表達為,對於所有給定的觀測值,可以找到一個或多個系列的非零的常量a1,...,ar,例如:

上述兩種情況下,似然函數的二階層數都不是正定的,而且數據不允許對有效的最大似然模型進行擬合。
在默認情況下,PROC LOGISTIC將檢驗自變量的共張線性。被證明是其他變量線性組合的自變量將自動從模型中移除,並被標識為一個空模參數。

PROC LOGISTIC 還將檢查線性可分性。當角在8次或更少次數的叠代中收斂,該算法就將其看成是不可分的證據。對可分性的檢驗可以通過選項NOCHECK禁用,但並不推薦如此。
當數據是線性可分時,LOGISTIC模型面臨兩個基本問題:
1、似然函數是無限的,即沒有最大值。
2、模型的參數估計將是無限的。PROC LOGISTIC中使用的數值算法得到的參數估計的值非常大。

好消息是,當PROC LOGISTIC 發現疑似線性可分時,會發出一個警示並在輸出結果中打印出一個建議作息,說明該解是可疑的。
實踐當中,當模型擬合使用的數據集只有當量的觀測值且包含大量二元自變量時,線可分更容易發生。這些二元變量可能是映射名義變量和連續變量分段的結果或來自實際的二元預測變量。

PROC LOGISTIC 提供了兩種求解似然函數,並估計模型參數的方法。

估計參數的標準誤較小的自變量被認為要比標準誤較大的自變量更應該納入模型。然而,考慮到參數值本身之間比較,沃爾德卡方統計量被定義為估計參數與其估計標準誤之比的平方。
沃爾德卡方統計服從自由度為1的卡方分布。因此,可以計算相當於該統計量的P值。該P值可以解釋為該變量不應被納入模型的概率。

在默認情況下,PROC LOGISTIC輸出一個表,其中包含模型參數、標準誤、沃德爾卡方統計量及其對應的P值。該表被命名為“最大似然估計分析表”。

列PR>CHISQ是變量不應該納入模型的顯著性檢驗,是基於沃爾德卡統計量的值,簡稱為參數估計的P值。例如,變量TmAtAddress的P值是0.922,這意味著該變量不應該納入模型的概率是92.2%,建議將該變量從模型中移除。當然,移除該變量將生成新的模型參數以及沃爾德卡統計量的值,並且不能保證留下來的所有變量都有可以被接受的P值。
接下來考慮參數估計的置信區間。沃爾德置信區間,也被稱為正態置信區間,基於參數會計是漸進正態分布的事實。因此,可以計算第i個參數,bi的100(1-a)沃爾德置信區間如下:

如果model語句中使用CLPARM=WALD選項,PROC LOGISTIC可以計算沃爾德參數置信區間。

LOGISTIC回歸模型的評估可以分幾個階段進行。首先,是考慮檢查似然函數的統計量。通過與僅包含截距項的模型進行比較,這些統計量可以評估將自變量引入模型的效應。
第一個統計量是似然函數包含和不包含變量時自身的對數。需要記住的是,n0和n1分別是y=0和y=1的觀測值的數量。這樣,只包含截距項的L1的值給定如下:

為了懲罰包含大量自變量的模型,制定了兩個標準:(1)赤池信息準備(AIC);(2)舒爾茨準則(SC)。舒爾茨準則也被稱為貝葉斯信息準則。

在這兩種情況下,只包含截距項和包含模型變量時準則值之間的差異越大,模型就越好。比較兩個模型時,AIC和SC值較小的模型較好。需要註意的是AIC引入了一個對模型復雜性的懲罰機制,表現為模型參數數量r的形式,r是樣本規模對數的比例。因些,AIC比SC更傾向於接受復雜的模型。
最後,在LOGISTIC回歸模型的情況下,廣義決定系數被定義為包含或不含有自變量的似然函數的值。

Hosmer-Lemeshow 檢驗的基本原理是將建模數據分成一定數據的段並比較每一段中實際和估計的違約數量,其顯著性通過卡方分布進行評估。

該檢驗將建模數據分成G段,按照估計的違約概率的升序排列。然後,計算每一段平分的估計概率,以及實際的違約數量。

通過找出自由度為g-m的卡方分布的p值可以計算出x2m的顯示性,其中m是用戶定義的數值。默認的m值是2.

PROC LOGISTIC 將Hosmer-Lemeshow檢驗歸類為擬合不足經驗。因此,當MODEL語句中的選項LACKFIT<m>被激活時,它將被計算並輸出顯示在主程序結果中。語句LACKFIT後面的可選值默認是2,在典型的評分卡應用中這通常是一個很好的值。PROC LOGISTIC 不允許用戶控制分段的數量,即公式7.40中的G.SAS/STAT文件中解釋了根據觀測值的數量和數據模式確定分組數量的方法。但同時也指出g的值近似等於10.

列表7.8是使用數據集CREDITCARD的一個LOGISTIC回歸模型的代碼,以及用明確定義的值m=2計算Hosmer-Lemeshow統計量

PROC LOGISTIC DATA=CREDITCARD;
MODEL STATUS(EVENT=‘1‘)
=CustAge TmAtAddress CustIncome TmWBank /LACKFIT(2);
RUN;

列表7.9是對極大似然估值以及Hosmer-Lemeshow檢驗結果的分析,其中包括兩個部分。第一部分是數據區,和觀測到的以及預期的反映數量值。第二部分列出來的x2m統計量的卡方顯著性檢驗的結果。

顯著性檢驗表明,模型嚴重擬合不足。由於變量TmAtAddress的顯著性較低,所以這種結果並不令人感到意外。

全局零假設的檢驗
接下來,對模型質量進行的評估是對所有參數都實際為零,即B=0的假設進行檢驗,該假設也稱為全局零假設。該假設的目的是檢驗當前的模型是否由於抽樣結果而偶然得到,而不是由真實的基礎模型生成的數據得到。通霄這,樣本量越大,自變量和違約變量之間的關聯性指標就越強;得到一個所有參數都是零的模型的可能性就越低。因而,該檢驗是用於判斷模型真實成立而不是產物的一個標準工具。
用於檢驗零假設的統計量有三個:
1、似然比統計量G;
2、分數統計量;
3、沃爾德統計;

G統計量服從自由度為R的卡方分布。在SAS中,通過調用函數PROBCHI(.,0)可以得到G統計的P值,該函數取兩個參數的最小值,第一個是G的值,第二個是自由度,即模型中自變量的個數,返回值是(1-p)。然而,並不真的需要人工執行該操作,因為PROC LOGISTIC將計算似然統計量的值以及其P值,並在輸出結果中命名為全局零假設檢驗:BETA=0。

如果LOGISTIC回歸模型中包含一個二元變量,G將和第4.5章定義的統計量相同。實際上,第4.4節中定義的似然比統計量也表示了為G,是當前這個G一般形式。下面用一個例子說明二者之間的關系。

列表7.10中的代碼證明了用PROC FREQ 計算的和擬合LOGISTIC回歸模型過程中計算的一般似然比檢驗統計量之間的關系。該代碼首先用數據集CREDITCARD擬合LOGITIC回歸模型,其中OTHERCC是唯一的預測變量。然後,該代碼用違約變量Status與OtherCC生成一個頻率表以及有關的關聯性檢驗。列表7.11是輸出結果中證實似然比檢驗統計量的值是否相等的相關部分。

列表7.10 LOGISTIC回歸似然比和一般似然比統計量
PROC LOGISTIC DATA=CREDITCARD;
MODEL STATUS(EVENT=‘1‘)=OTHERCC;
RUN;

PROC FREQ DATA=CREDITCARD;
TABLE STATUS*OTHERCC/CHISQ;
RUN;

分數統計量服從自由度為r的卡方分布
沃爾德統計量也服從自由度為R的卡方分布
分數統計量和沃爾德統計量都默認在輸出結果全局零假設:BETA=0中輸出。

概率比的置信區間
由於概率比僅僅是模型參數的指數化,因此可以用與模型參數相同的置信區間計算它們的置信區間。模型參數的置信區間在第7.5節中已經計算出來。現在需要做的是就是計算它們的指數。
因為概率比的對數等於模型參數的值,概率比無論從哪個方向遠離1.0的變量,都是比概率比接近單位值的變量更好的預測變量。因此,檢驗概率比置信區間的值應該專註於這些值是否覆蓋值1.0.如果這樣,意味著無法確認在給定的置信水平內,考察的變量是否能夠提高模型值。PROC LOGISTIC能夠計算出概率比並在輸出結果中以ODDS RATIO ESTIMATS的名字輸出。

列表7.13 是例7.15輸出結果中的ODDS RATIO ESTIMATES部分。其中列出了概率比及其置信區間。
需要註意的是,概率比恰好為1.0表明,變量CUSTINCOME對於模型貢獻很低。同時,變量TmAtAddress的置信區間覆蓋單位值。這意味著在置信區間內(95%),無法確定該變量能事提高模型值。
盡管有上述關於概率比的推論,還是應該考慮到這些變量的規模。例如,相對於變量TmAtAddress,變量CustInCome的數量值很大,因此,希望對應於變量CustIncome模型參數非常小,這樣才能便得概率比為1.

7.12 先驗概率和權重
迄今為止,所介紹的公式都是假設代表總體的建模樣本正常和違約事件的百分比相同。然而,在多數情況下,續約事件的百分比很小,所以隨機抽樣產生的建模數據集中只包含少量的違約事件。例如,如果違約百分比2%,一個包含10000條記錄的隨機樣本中只有200條違約記錄。無法期望用包含如此少違約記錄的樣本開發的模型能夠穩健。這種情況下,就必須使用均衡抽樣的方法。
但是,如果建立LOGITIC回歸模型所用的樣本不能代表總體,而是有不同的違約百分比,這意味著違約和正常的已知或先驗的概率不同。PROC LOGISTIC 提供了以下兩種同樣有效的解釋先驗概率的機制。
1、在MODEL語句中,使用PEVENT選項設定模型因變量事件的先驗概率的值。在本書的案例中,這些將是違約和正常百分比的真實值。
2、使用一個權重變量並用WEIGHT語句識別它。
因為在數據描述過程中,權重變量也可以用於其他程序,所以推薦使用第二種方法。
在第5.4.4節和第5.4.5節中,已經討論了均衡抽樣的使用可以及引入權重使樣本能夠代表原始總體。這是PROC LOGISTIC的WEIGHT語句中將使用的變量。適用於模型統計量解釋的方法和結果沒有改變。

信用風險評分卡研究-第7章筆記