信用風險評估之預測力指標（篩選特徵）

阿新 • • 發佈：2019-01-01

在建模時，被用來預測的變數（即feature）相互間不能有很強的相關性，最好完全不存在相關性。
評判變數間的預測力指標有皮爾森相關係數，斯皮爾曼相關係數，皮爾森卡方統計量，概率比，資訊值等。

1.皮爾森相關係數pearson
連續變數x,y（兩列feature）, 皮爾森相關係數ρ：

這裡寫圖片描述

取值區間[-1,1]。
0表示無相關性即相互獨立，越接近於0，相關性越小；
-1為負的強相關性；
+1為正的強相關性。

去均值化的ρ即為餘弦夾角公式：
這裡寫圖片描述
小結：
1》皮爾森相關係數會受資料錯誤或極端值的影響而不穩定。
2》皮爾森相關係數計算的是每個觀測值與均值間的差值，適合連續變數間的相關性計算，就不適合

順序/名義變數間的相關性計算。
3》越接近0，相關性越小。

2.斯皮爾曼相關係數spearman
斯皮爾曼相關係數的計算採用取值的等級，而不是取值本身。當取值按升序排列時，取值的等級就是該取值的順序。如12,5,8的等級為3,1,2。計算公式類似皮爾森相關係數：
這裡寫圖片描述
R,S是兩個變數的取值對應的等級。
小結：
1》斯皮爾曼相關係數適用於順序變數間的相關性計算。
2》斯皮爾曼相關係數對於資料錯誤和極端值不敏感。
3》越接近於0，相關性越小。

3.皮爾森卡方統計量
皮爾森卡方統計量用X²表示，衡量兩個名義變數間的相關性。
下面以一個例子來說明卡方統計量，如下為住房與就業的人數統計表。
這裡寫圖片描述

第i行第j列的預期頻數為：
這裡寫圖片描述

這裡寫圖片描述

也即表格中小括號中的計算資料。

卡方統計量的定義如下：
這裡寫圖片描述
X²服從自由度為df=(r-1)(c-1)的卡方分佈。r,c是表中資料的行與列。

其中，卡方分佈即伽馬分佈函式如下
這裡寫圖片描述

獨立性假設的概率：
這裡寫圖片描述
當概率值越小，標明兩個變數間獨立的概率越小，即兩變數間有很強的相關性。

上表資料對應的卡方統計量計算得：
這裡寫圖片描述

這裡寫圖片描述
說明就業和居住狀況之間存在很強的相關性。

4.似然比檢驗統計量
兩個變數是名義變數
這裡寫圖片描述

觀察樣本中計算的真實頻率分佈與已知概率總體分佈的差異：
這裡寫圖片描述

兩個名義變數x,y的似然比統計量定義為：
這裡寫圖片描述
為何4.22公式是服從卡方分佈的？？？暫時不理解，先記下來。

那麼，通過似然比檢驗統計量可以得出兩個變數間的相關性，具體判斷類似卡方統計量。

5.概率比
兩個變數是名義變數。
這裡寫圖片描述
如上表，
當變數x取x1時的違約比率odds=n11/n12;
當變數x取x2時的違約比率odds=n21/n22;
概率比的定義：

若概率比為1或趨近1，那麼兩個變數之間不存在相關性。

概率比在logistic迴歸建模製定打分卡起著關鍵作用。

6.F檢驗
F檢驗衡量一個連續變數與一個名義變數之間的關聯性。誰是因變數無所謂。

先舉例引入兩個引數MSTR,MSE，如下表：

這裡寫圖片描述

這裡寫圖片描述

這裡寫圖片描述

這裡寫圖片描述

這裡寫圖片描述

這裡寫圖片描述

p表示無關聯性的概率。p小表示，關聯性強。

7.基尼方差
基尼方差衡量三種情況的變數間的相關性：
1>一個連續變數，一個名義或順序變數；
2>兩個名義變數；
3>兩個順序變數。
考慮一個連續變數x和一個名義變數y的情況。基尼方差可以定義為：
G=1-SSE/STD
其中，SSE,STD見上。

8.熵方差
考慮一個類別變數x和一個連續y的情況。熵方差可以定義為：
E=1-SSE/STD
其中，SSE,STD見上。
關於基尼方差和熵方差，還不太明白。（參考《信用風險評分卡研究》）

9.資訊值
衡量兩個名義變數間的相關性，其中一個是二元的。比如x是名義變數，y是取兩個值0和1。
這裡寫圖片描述
IV值，可以用於評估某個自變數（feature）對因變數（label）的預測能力，IV值越大預測能力越強。

後續在建立評分卡時，會進一步介紹IV值。

信用風險評估之預測力指標（篩選特徵）

在建模時，被用來預測的變數（即feature）相互間不能有很強的相關性，最好完全不存在相關性。評判變數間的預測力指標有皮爾森相關係數，斯皮爾曼相關係數，皮爾森卡方統計量，概率比，資訊值等。 1.皮爾森相關係數pearson 連續變數x,y（兩列feat

演算法分析之蠻力法（暴力法）

目錄 1，蠻力法的概述及定義蠻力法——簡單說是一種簡單直接的演算法設計策略，也叫作暴力法，列舉法或者窮舉法，蠻力法解決問題常常簡單粗暴，常常基於問題的描述和所涉及的概念，定義直接求解，逐一列舉並且處理問題所涉及的所有情形，然後得到問題的

信用風險評估評分卡之極端值

極端值的產生： 1.資料生成的過程來源於某些未知的函式形式的分佈，很難確定哪些觀測值是極端值； 2.在獲取原始業務資料過程中，產生差錯。極端值的識別： 1.為每個變數（feature）設定一個正常的取值範圍，超過一定範圍視為極端值。如連續feature

信用風險評估評分卡建模方法及原理

pre was 建模 cli com tps course yun http 課程介紹信用風險評分卡為信用風險管理提供了一種有效的、經驗性的解決方法，是消費信貸管理中廣泛應用的技術手段。評分卡是信用風險評估領域常見的建模方法。評分卡並不加單對應於某一種機器學習算法，而是

C++知識點備忘錄之函式、指標（五）

1、引數為空 void say_hi():在C++中，括號為空與在括號中使用關鍵字void是等效的——意味著函式沒有引數。 2、傳遞陣列為將陣列型別和元素數量告訴陣列處理函式，請通過兩個不同的引數來傳遞他們： void fillArray(int a

Python資料探勘與機器學習_通訊信用風險評估實戰(4)——模型訓練與調優

系列目錄：訓練資料拆分把訓練資料拆分為訓練集和交叉驗證集，比例為7:3。x_train和y_train用來訓練模型，x_test和y_test用來交叉驗證。 data_train = data_train.set_index('Us

機器學習之線性分類器（Linear Classifiers）——腫瘤預測例項

線性分類器：一種假設特徵與分類結果存線上性關係的模型。該模型通過累加計算每個維度的特徵與各自權重的乘積來幫助決策。 # 匯入pandas與numpy工具包。 import pandas as pd import numpy as np # 建立特徵列表。 column_n

蠻力法之最近對問題（C實現）

#include <stdio.h> #include <math.h> /* 我們可以避免求平方根，竅門是忽略平方根函式，而只比較(x[i]-x[j])^2+(y[i]

阿里演算法專家：信用風險評估評分卡建模方法及原理

信用風險評分卡為信用風險管理提供了一種有效的、經驗性的解決方法，是消費信貸管理中廣泛應用的技術手段。評分卡是信用風險評估領域常見的建模方法。評分卡並不加單對應於某一種機器學習演算法，而是一種通用的建模框架，講原始資料通過分箱後進行特徵工程變換，繼而應用於線性模型

Python資料探勘與機器學習_通訊信用風險評估實戰(2)——資料預處理

系列目錄：資料說明通過對讀取資料的實踐，下面是資料集檔案對應讀取後的DataFrame說明。資料檔案 DataFrame DataTech_Credit_Train_Communication1.txt train

大資料新演算法在個人信用風險評估模型中使用效果的評估

上世紀80年代,美國費埃哲公司基於邏輯迴歸演算法構建了費埃哲信用評分體系，併成為美國信用評分市場的巨頭。然而，隨著大資料建模技術的日新月異,許多新演算法、新技術層出不窮。本專案選取了五種大資料新演算法，包括支援向量機（SVM）、決策樹、隨機森林、自適應提升（AdaBoost）

【機器學習】信用風險評估評分卡建模方法及原理

課程介紹信用風險評分卡為信用風險管理提供了一種有效的、經驗性的解決方法，是消費信貸管理中廣泛應用的技術手段。評分卡是信用風險評估領域常見的建模方法。評分卡並不加單對應於某一種機器學習演算法，而是一種通用的建模框架，講原始資料通過分箱後進行特徵工程變換，繼而應用於線性模型

Android架構分析之Android智慧指標（二）

作者：劉昊昱 Android版本：4.4.2 在上一篇文章中，我們分析了Android智慧指標中的強指標sp，本文我們來分析弱指標wp。為什麼需要弱指標wp呢？我們來考慮下面一種場景：有兩個類CParent和CChild，CParent類中有一個智慧指標指向CChil

Linux之修改主機名（永久生效）

etc 想要常常重新啟動重新 cnblogs 登錄用戶 sysconf Linux系統安裝好後，都會有默認的主機名，這裏以CentOS系統為例，默認的主機名為localhost.localdomain，為了便於使用，我們常常需要修改主機名，下面演示的是永久更改主機名

ActiveMQ（22）：Consumer高級特性之消息分組（Message Groups）

jms message groups activemq 一、簡介Message Groups就是對消息分組，它是Exclusive Consumer功能的增強。邏輯上，Message Groups 可以看成是一種並發的Exclusive Consumer。跟所有的消息都由唯一的consumer處理

Python學習之路——第二彈（認識python）

內容代碼結構計算戰術個人方法十分現在目的　　第一彈中我是說明了學習python的目的，主要為了自我提升的考慮，那麽為什麽我對python感興趣，python有什麽用了？本章就簡單說明下。　　python的用途很廣，而且代碼十分簡潔，不像java、c等其他

PHP後臺之調試手段（新手必備）

php debug 輸出變量 file_put_contents error_log 作為一個剛剛接觸世界上最好的語言php的新手，前端js可以直接console.log調試，在調試後端rpc的類半天找不到打印輸出的方法，普通的print和echo既不能輸出到頁面也不能輸出到文件，痛苦了半

開啟Python取經之路-CLASS-6（Part 1）

int code 中標 cnblogs 環境執行變量 spa -c 第一個python程序 HELLO WORLD 1 print("hello world") 單行註釋：# 多行註釋：‘‘‘....‘‘‘或者"""....""" 在linux編程中，要在程序中

列表操作之定義，切片（取元素）（Python）

fin 元組括號 all call 切片 python define 表操作學完列表，元組，字典，集合以後，發現他們長的有些像，傻傻分不清，現在回顧下，以代碼為例進行分析每一種操作的屬性。（英語不佳，錯誤請忽略）舉栗如下：names = ["hbb",‘tian‘,

2016"百度之星" - 初賽（Astar Round2A）--HDU 5690 |數學轉化+快速冪

分享 otto lld 方法 can a* sca uic left Sample Input 3 1 3 5 2 1 3 5 1 3 5 99 69 Sample Output Case #1: No Case #2: Yes Case #3: Yes