1. 程式人生 > >信用風險評估評分卡 之 極端值

信用風險評估評分卡 之 極端值

  • 極端值的產生:
    1.資料生成的過程來源於某些未知的函式形式的分佈,很難確定哪些觀測值是極端值;
    2.在獲取原始業務資料過程中,產生差錯。

  • 極端值的識別:
    1.為每個變數(feature)設定一個正常的取值範圍,超過一定範圍視為極端值。如連續feature,這些範圍設定為均值+/-3倍標準差。該方法只考慮單個變數。
    2.用已知資料擬合模型,嚴重偏離擬合模型的樣本/觀測值視為極端值。
    3.用聚類演算法將資料分為若干子集,只含有很小數量的簇(理想情況只包含一個樣本/觀測值),視為極端值。
    4.用決策樹發現包含少量觀測值的持續結點。
    總結:常用多種方法相結合,比如採用基於取值範圍的方法進行單變數分析識別極端值,然後用聚類方法在多元特徵上識別。

  • 極端值的處理
    大部分情況,刪除極端值,或者將其重置為總體中看起來更為典型的某個值。然而,當被認為的極端值的數量很大,比如超過總體10%,那麼需要將總體分為兩個獨立的資料集,分別開發獨立的評分卡
    極端值很少時可以刪除,另外可以用中位數,均值等替換。這裡寫圖片描述