信用評分卡模型總結10:評分卡的建立及sas部署實施
建立評分卡的基本過程可以總結為以下幾個步驟。
-
確定最終評分卡將被納入模型的變數
-
使用WOE值和模型引數,為不同變數的每一類或每一段相應的分配分值。模型的截距項用於計算評分卡的基準點。
-
每個變數類別或分段分配的分值都根據對應的變數取值範圍製成表格。
-
為了便於實施,經常要將評分卡表現為某種程式的形式。流行的實施語言是sas,sql和c。
sas實施過程中面臨的挑戰是模型引數及其對應的變數類別和分段woe的轉化。以下為生成評分卡的流程步驟。
-
用模型的迭代變數選擇法收集變數,這些變數可以用簡單列表的形式儲存在一個巨集變數中。
-
建模變數有兩種主要型別:名義變數和連續變數,名義變數可能包含字串或者數字值。這些變數的一部分需要進行轉化,主要是為了分類或降低名義變數的基數性,所有連續變數都要分段。分段後的變數名可以為原始變數名稱加上字尾_b,分段或降基的對映資料集可以命名為原始變數名加字尾_Map。
-
在擬合模型前,所有變數都要進行WOE轉換。轉化後的變數加字尾_woe,對映
-
最終的logistic迴歸模型包含的是原始變數的一個子集,模型在變數WOE形式的基礎上計算相關係數。模型引數儲存字啊一個模型資料集中。
因此,生成評分卡的最終格式的過程基本上可以追溯到最終logistic迴歸模型中出現不同變數的分段值和類別。為了方便該過程的實施,變數和資料集命名要遵循一定的系統性規則。
因此,生成評分卡需要的要素是刻度引數以及下列資料集:
-
最終模型引數資料集
-
WOE對映資料集(帶有後綴_woe)
-
分段及降低基數的對映資料集(帶有後綴_map)
對於字元型和數值型變數,可以分別用巨集%DummyGrps和%DummyGrpn進行虛擬變數降基。
巨集%GenSCDS將生成一個包含評分卡得分的中間資料集。該資料集將以SAS、C和SQL的形式生成不同的評分卡程式碼。該巨集的輸入項是包含模型引數估計、評分卡刻度引數的資料集。
-
最終模型中原始變數的名稱。
-
連續變數每段或名義變數每個類別的上限和下限及其等價的分值。
可以用上述的結果,重新生成幾種形式的評分卡。便於樣本內測試集及樣本外測試集直接使用。
或者也可以生成csv和sql,客戶可以直接使用。