1. 程式人生 > >信用風險評分卡研究-第2章筆記

信用風險評分卡研究-第2章筆記

研究 數據合並 而且 業務 可能 統計 字段 風險 表現

變量類型:
1、原始變量:這些變量是從數據庫中提取的,概括了交易、產品所有權標識和客戶人口統計資料待特征;特點:易於解釋,但是可能不是最有效的;
2、衍生變量指標:這些字段來源於原始變量,有明確的業務涵義。特別:需要計算,可能表現出比原始變量更好的預測力;
3、分析變量:這些變量是分析人員對原始數據進行轉換和計算加工而生成的具有較高的預測能力的變量。

分析變量與衍生業務指標的區別就在於缺少簡單或清晰的含義。
在很多企業,並沒有區分分析變量和衍生業務指標,它們都被稱為分析變量或建模變量;

數據準備過程的目的是準備建模視圖或數據挖掘視圖。
建模視圖包含以下變量:
1、記錄標識(ID變量);
2、候選自變量;

3、描述變量;
4、報告變量;
5、違約狀態字段;

建模視圖中包含的自變量可以分為如下三種類型:
1、名義變量:假設沒有順序關系、也沒有數量關系;這些變量的值不能進行數學運算;如客戶居住狀態是沒有數量和順序概念;
2、順序變量:也稱排名變量,在期類別中定義了順序概念的變量;如:居住時間長短;
3、連續變量:也被稱為取值表示真實數量規模的真正指標;如賬戶余額;

數據來源:
1、人口統計特征;
2、征信機構數據和外部評分;
3、交易記錄:提供兩種類型數據:頻率和匯總值;用於匯總數據的典型時間窗口分別是一、三、六和十二個月;
4、其他產品的所有權和使用記錄;

建模和實施窗口
行為評分卡是用特定時間段的建模視圖數據開發的。這個時間段被稱為建模窗口。建模窗口的長度可以從幾個月到幾年;取決於客戶群的特征和行為的變化率。

評分卡開發之後,預期會在一定的時間段內實施。這個階段被稱為實施窗口。類似於建模窗口,實施窗口的長度取決於評分總體的變化率。在信用卡申請中,典型的實施窗口在一年到三年之間;

數據校準:
行為評分卡開發中使用的變量在開發窗口的時間跨度內收集並進行校準。而且,對這些變量進行的任何計算都應該使用同樣的時間窗口。然後,對違約狀態變量和某些匯總或描述統計量的計算可以在這些時間因素的基礎上進行。

數據合並:
1、連續變量
2、名義變量和順序變量

數據整合
1、合並
2、聯結
3、數據步或PRCO SQL;

完整性檢驗
1、行級的唯一性
2、範圍和取值
3、缺失值

信用風險評分卡研究-第2章筆記