1. 程式人生 > >客戶貸款逾期預測[5] - 特徵工程

客戶貸款逾期預測[5] - 特徵工程

目錄

 

任務

資料探索

特徵刪除

缺失值處理

異常值處理

特徵生成

特徵合併

特徵縮放

資料歸一化

資料標準化

相關性分析

劃分訓練集、模型評估和選擇

參考


任務

        關於資料型別轉換以及缺失值處理(嘗試不同的填充看效果)以及你能借鑑的資料探索

特徵工程

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score,precision_score,recall_score,f1_score
from sklearn.metrics import roc_auc_score,roc_curve,auc

資料探索

       首先觀察一下資料構成:

data = pd.read_csv('data.csv',encoding='gbk')
data.head()

data.shape
(4754, 90)

特徵刪除

#刪除一些與識別個人身份相關的特徵
data.drop(['custid','trade_no','bank_card_no','id_name'],axis=1,inplace=True)
data.drop('Unnamed: 0',axis=1,inplace=True)

將資料劃分成X,y,並將X劃分為數值型和非數值型

#資料劃分為數值型、非數值型、標籤
X_num = (data.drop('status',axis=1)).select_dtypes('number').copy()
X_str = data.select_dtypes(exclude='number').copy()
y = data['status']

#刪除只有單一值的資料
for col in X_str:
    if len(X_str[col].unique()) == 1:
        print(col)
for col in X_num:
    if len(X_num[col].unique()) == 1:
        print(col)
        
X_str.drop('source',axis=1,inplace=True)

缺失值處理

X_num_miss = ( X_num.isnull().sum()/len(X_num) ).sort_values(ascending=False)
X_num_miss.head()
X_str_miss = (X_str.isnull().sum() / len(X_str)).sort_values(ascending=False)
X_str_miss

 

       可以看到,缺失率最高的特徵是student_feature,超過一半的資料缺失,其他的特徵缺失率都在10%以下。對於高缺失率的特徵,有兩種方法進行處理,一個是EM插補,另一個是多重插補。由於兩種方法比較複雜,這裡先將缺失值歸為一類,用0填充。

#X_num['student_feature'].value_counts()
X_num.fillna(0,inplace=True)

其他特徵用眾數填充缺失值

X_num.fillna(X_num.mode().iloc[0,:],inplace=True)
X_str.fillna(X_str.mode().iloc[0,:],inplace=True)
#用前後資料填充
#X_num.fillna(method='pad',inplace=True)
#X_um.fillna(method='bfill',inplace=True)
#用插值法填充
#X_num = X_num.interpolate()

異常值處理

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
for i, col in enumerate(X_num.columns):
    plt.figure(i + 1,figsize=(10, 5))
    #小提琴圖
    sns.violinplot(y=X_num[col],x=y)

        用IQR方法處理極端值,IQR = 上四分位數(Q3)-下四分位數(Q1)。異常值為大於上四分位數、小於下四分位數的值,也就是說用Q3+1.5IQR和Q1-1.5IQR對極端值進行修正,成為新的極大、極小值。

#極端值處理函式
def iqr_outlier(x, thre=1.5):
    x_cl = x.copy()
    q25, q75 = x.quantile(q=[0.25,0.75])
    iqr = q75 - q25
    top = q75 + thre * iqr
    bottom = q25 - thre * iqr
    
    x_cl[x_cl > top] = top
    x_cl[x_cl < bottom] = bottom 
    
    return x_cl

#對進行缺失值填充後的資料進行極端值修正
X_num_cl = pd.DataFrame()
for col in X_num.columns:
    X_num_cl[col] = iqr_outlier(X_num[col])
    
X_num = X_num_cl

特徵生成

    在處理離散型特徵時有幾種編碼方式:序號編碼、獨熱編碼、二進位制編碼。序號編碼用於處理類別間有大小關係的資料,獨熱編碼用於處理無序關係的資料,二進位制編碼是對資料先做序號編碼,然後將序號轉換為二進位制得到0\1特徵向量,這種方法相比於獨熱編碼來說轉換後的向量維數比較少,可以節約儲存空間。所以當特徵中的分類數較多的時候不妨使用二進位制編碼。
    這裡要處理的是reg_preference_for_trad特徵,資料之間沒有序關係,只有五類,適合用獨熱編碼將之轉換為啞變數。

X_str.head()

#獨熱編碼
X_str_dummy = pd.get_dummies(X_str['reg_preference_for_trad'])
#序號編碼
'''
dic = {}
for i,j in enumerate(set(X_str['reg_preference_for_trad']):
    dic[j] = i
X_str['reg_preference_for_trad'] = X_str['reg_preference_for_trad'].map(dic)
'''
#處理日期型特徵
X_date = pd.DataFrame()
X_date['latest_query_time_year'] = pd.to_datetime(X_str['latest_query_time']).dt.year
X_date['latest_query_time_month'] = pd.to_datetime(X_str['latest_query_time']).dt.month
X_date['latest_query_time_weekday'] = pd.to_datetime(X_str['latest_query_time']).dt.weekday
X_date['loans_latest_time_year'] = pd.to_datetime(X_str['loans_latest_time']).dt.year
X_date['loans_latest_time_month'] = pd.to_datetime(X_str['loans_latest_time']).dt.month
X_date['loans_latest_time_weekday'] = pd.to_datetime(X_str['loans_latest_time']).dt.weekday

特徵合併

X_cl = pd.concat([X_num,X_str_dummy,X_date],axis=1,sort=False)
X_cl.shape

(4754,91)

特徵縮放

資料歸一化

from sklearn.preprocessing import MinMaxScaler
X_min_max = MinMaxScaler().fit_transform(X_cl)

資料標準化

from sklearn.preprocessing import StandardScaler
X_std = StandardScaler().fit_transform(X_cl)

相關性分析

#data.cov()協方差矩陣
#data.corr()相似矩陣

劃分訓練集、模型評估和選擇

from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from xgboost.sklearn import XGBClassifier
from lightgbm.sklearn import LGBMClassifier

X_std_train,X_std_test,y_train,y_test = train_test_split(X_std,y,test_size=0.3,random_state=1122)

print("邏輯迴歸")
lr = LogisticRegression()
lr.fit(X_std_train,y_train)
print("決策樹")
dtc = DecisionTreeClassifier(max_depth=8)
dtc.fit(X_std_train,y_train)
print("svm線性核")
svm = SVC(kernel='linear',probability=True)
svm.fit(X_std_train,y_train)
print("xgboost")
xgbc = XGBClassifier()
xgbc.fit(X_std_train,y_train)
print("lightgbm")
lgbc = LGBMClassifier()
lgbc.fit(X_std_train,y_train)
print('all done!')
#模型評估
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.metrics import roc_auc_score, roc_curve, auc
import matplotlib.pyplot as plt

def model_metrics(clf, X_train, X_test, y_train, y_test):
    y_train_pred = clf.predict(X_train)
    y_test_pred = clf.predict(X_test)
    
    y_train_prob = clf.predict_proba(X_train)[:,1]
    y_test_prob = clf.predict_proba(X_test)[:,1]
    
    #準確率
    print('準確率:\n')
    print('訓練集: ','%.4f'%accuracy_score(y_train,y_train_pred), end=' ')
    print('測試集: ','%4f'%accuracy_score(y_test,y_test_pred),end=' ')
    
    #精準率
    print('精準率:\n')
    print('訓練集: ','%.4f'%precision_score(y_train,y_train_pred),end=' ')
    print('測試集: ','%.4f'%precision_score(y_test,y_test_pred),end=' ')
    
    #召回率
    print('召回率:\n')
    print('訓練集: ','%.4f'%recall_score(y_train,y_train_pred),end=' ')
    print('測試集: ','%.4f'%recall_score(y_test,y_test_pred),end=' ')
    
    #f1_score
    print('f1-score:\n')
    print('訓練集: ','%.4f'%f1_score(y_train,y_train_pred),end=' ')
    print('測試集: ','%.4f'%f1_score(y_test,y_test_pred),end=' ')
    
    #auc
    print('auc:\n')
    print('訓練集: ','%.4f'%roc_auc_score(y_train,y_train_prob),end=' ')
    print('測試集: ','%.4f'%roc_auc_score(y_test,y_test_prob),end=' ')
    
    #roc曲線
    fpr_train, tpr_train, thred_train = roc_curve(y_train,y_train_prob,pos_label=1)
    fpr_test, tpr_test, thred_test = roc_curve(y_test,y_test_prob,pos_label=1)
    
    label = ['Train - AUC:{:.4f}'.format(auc(fpr_train,tpr_train)),
             'Test - AUC:{:.4f}'.format(auc(fpr_test,tpr_test))]
    plt.plot(fpr_train,tpr_train)
    plt.plot(fpr_test,tpr_test)
    plt.plot([0,1],[0,1],'d--')
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.legend(label, loc = 4)
    plt.title('ROC Curve')
    
    
model_metrics(lr,X_std_train,X_std_test,y_train,y_test)

model_metrics(svm,X_std_train,X_std_test,y_train,y_test)

model_metrics(dtc,X_std_train,X_std_test,y_train,y_test)

model_metrics(xgbc,X_std_train,X_std_test,y_train,y_test)

model_metrics(lgbc,X_std_train,X_std_test,y_train,y_test)

比較

       評分相比於之前普遍有1%左右的提升。

參考

        資料預處理總結

        機器學習缺失值處理方法

        百面機器學習