機器學習 scikit-learn9 - 預測貸款使用者是否會逾期 - 特徵篩選 IV 和隨機森林

阿新 • • 發佈：2018-11-30

特徵挑選

1 說明
2 程式碼使用方法
3 核心程式碼說明

3.1 IV值挑選特徵
3.2 隨機森林挑選特徵
3.3 將 IV值和隨機森林的特徵結合
3.4 訓練模型輸出結果

4 結果對比
5 問題

1 說明

主要是根據 IV值和隨機森林這兩種方法來挑選特徵
程式碼連結： https://github.com/spareribs/kaggleSpareribs/blob/master/Overdue/ml/features/feature_iv_rf.py

2 程式碼使用方法

sklearn_gcv.py 預設使用Logistic Regression 做示例

【必須】執行 features 中的 base.py 先把資料處理好 [PS:需要根據實際情況修改]
【可選】執行 features 中的 feature_iv_rf.py 進行特徵篩選
【必須】再通過 code 中的 sklearn_train.py 訓練，觀察結果

3 核心程式碼說明

3.1 IV值挑選特徵

關於 IV值的計算方法可以參考這個部落格 https://blog.csdn.net/kevin7658/article/details/50780391/

IV 值計算參考 https://blog.csdn.net/l75326747/article/details/84326897
IV值範圍選擇參考 https://www.jianshu.com/p/bd350351aa5c
在這裡插入圖片描述

# 計算 IV 函式
def cal_iv(x, y, n_bins=6, null_value=np.nan, ):
    # 剔除空值
    x = x[x != null_value]

    # 若 x 只有一個值，返回 0
    if len(x.unique()) == 1 or len(x) != len(y):
        return 0

    if 
 x.dtype == np.number:
        # 數值型變數
        if x.nunique() > n_bins:
            # 若 nunique 大於箱數，進行分箱
            x = pd.qcut(x, q=n_bins, duplicates='drop')

    # 計算IV
    groups = x.groupby([x, list(y)]).size().unstack().fillna(0)
    t0, t1 = y.value_counts().index
    groups = groups / groups.sum()
    not_zero_index = (groups[t0] > 0) & (groups[t1] > 0)
    groups['iv_i'] = (groups[t0] - groups[t1]) * np.log(groups[t0] / groups[t1])
    iv = sum(groups['iv_i'])
    return iv

fea_iv = x_train.apply(lambda x: cal_iv(x, y_train), axis=0).sort_values(ascending=False)
print(fea_iv)

# 篩選 IV > 0.2 的特徵： 0.3 到0.5 之間的資料非常少，這裡取值0.02
imp_fea_iv = fea_iv[fea_iv > 0.02].index

3.2 隨機森林挑選特徵

可以參考 sklearn 官網的例子 https://scikit-learn.org/stable/auto_examples/ensemble/plot_forest_importances.html
主要是 feature_importances_ 輸出每個特徵的重要程度，理論上是 gini 值

# 隨機森林引數
clfs = {
    'rf': RandomForestClassifier(n_estimators=40, criterion='gini', max_depth=9),
}

隨機森林得到 feature_importances_ 的結果輸出

clf_name = "rf"
forest = clfs[clf_name]
forest.fit(x_train, y_train)
# print(sorted(zip(map(lambda x: round(x, 4), forest.feature_importances_), x_train.columns), reverse=True))
rf_impc = pd.Series(forest.feature_importances_, index=x_train.columns).sort_values(ascending=False)
print(rf_impc)

# 篩選 重要性前15個特徵
imp_fea_rf = rf_impc.index[:15]

3.3 將 IV值和隨機森林的特徵結合


# 合併特徵並篩選出有用特徵
imp_fea = list(set(imp_fea_iv) | set(imp_fea_rf))
X_imp = x_train[imp_fea]
print(type(X_imp))
# print(y_train)


# 歸一化處理
standardScaler = StandardScaler()
scaler = standardScaler.fit(X_imp)
X_imp = scaler.transform(X_imp)
print(X_imp)

3.4 訓練模型輸出結果

[LibLinear][LibSVM]測試模型 & 模型引數如下：
StackingCVClassifier(classifiers=[LogisticRegression(C=0.1, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l1', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False), SVC(C=1.0, cache_size=....0, reg_lambda=0.0, silent=True,
        subsample=1.0, subsample_for_bin=200000, subsample_freq=0)],
           cv=2,
           meta_classifier=LogisticRegression(C=0.1, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l1', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False),
           shuffle=True, store_train_meta_features=False, stratify=True,
           use_clones=True, use_features_in_secondary=False,
           use_probas=True, verbose=3)
====================
訓練集正確率: 0.8250
訓練集f1分數: 0.5403
訓練集auc分數: 0.6870

4 結果對比

結果看來，比原來模型提高了一丟丟

模型融合	特徵篩選
訓練集正確率: 0.8220 訓練集f1分數: 0.5331 訓練集auc分數: 0.6833	訓練集正確率: 0.8250 訓練集f1分數: 0.5403 訓練集auc分數: 0.6870

5 問題

問題1：如果不進行歸一化處理，lr模型會報錯

原因未知，需要找時間排查，先記下來 KeyError: “’[ 0 1 8 … 4749 4750 4751] not in index’\nPlease check that X and y are NumPy arrays. If X and y are pandas DataFrames,\ntry passing them as X.values and y.values.”
整理文件1：IV值的由來和計算方法
整理文件2：隨機森林挑選特徵的原理

機器學習 scikit-learn9 - 預測貸款使用者是否會逾期 - 特徵篩選 IV 和隨機森林

特徵挑選 1 說明 2 程式碼使用方法 3 核心程式碼說明 3.1 IV值挑選特徵 3.2 隨機森林挑選特徵 3.3 將 IV值和隨機森林的特徵結合 3.4 訓練模型輸出結果 4 結果對比 5

機器學習 scikit-learn6 - 預測貸款使用者是否會逾期 - 特徵工程

文章目錄說明核心程式碼說明 1 去掉一部分對結果沒有影響的資料 2 字元特徵處理 3 日期/時間型特徵 4 數值特徵問題參考文件說明這次時間比較緊迫，還是按照以前的思路完

機器學習 scikit-learn5 - 預測貸款使用者是否會逾期 - 模型效能評估

文章目錄核心程式碼程式碼使用方法資料輸出的程式碼繪圖的程式碼模型效能評估疑問核心程式碼程式碼路徑 https://github.com/spareribs/kaggleSparer

機器學習 scikit-learn1 預測貸款使用者是否會逾期

scikit-learn 一週演算法實踐集訓簡介程式碼說明程式碼目錄結構程式碼使用方法個人總結參考文件任務1. 邏輯迴歸模型實踐【2018.11.14 - 2018.11.15】任

機器學習 scikit-learn7 - 預測貸款使用者是否會逾期 - 網路搜尋交叉驗證

網路搜尋 - 目錄 1 說明 2 程式碼使用方法 3 核心程式碼說明 3.1 交叉驗證 TODO 3.2 使用網路搜尋獲得最優的引數 3.2.1 邏輯迴歸 4 問題 1 說

R語言使用機器學習算法預測股票市場

分析 article library 日期 ant else 3.4 set span quantmod 介紹 quantmod 是一個非常強大的金融分析報, 包含數據抓取,清洗,建模等等功能. 1. 獲取數據 getSymbols 　　默認是數據源是yahoo

機器學習scikit-learn概目

機器學習scikit-learn概目線性模型 (linear_model)： 1、線性-迴歸器 ① class sklearn.linear_model.LinearRegression() ② class sklearn.linear_model.Ri

機器學習scikit-learn

1.分類：監督學習，非監督學習，半監督學習（少量標籤），強化學習，遺傳演算法 2.安裝：pip install scikit-learn 建議直接用anaconda（兩個不用同事安裝使用容易出錯） **安裝問題：如果不用anaconda用pip建議看下這篇文章https://bbs.csdn

機器學習 scikit-learn4 模型實踐 - xgboost 和 lightgbm

xgboost 和 lightgbm - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 3.

機器學習 scikit-learn3 模型實踐 - 支援向量機和決策樹

支援向量機和決策樹 - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 3.3.1 Linea

機器學習 scikit-learn2 模型實踐 - 邏輯迴歸

邏輯迴歸 - 目錄 1 簡介 1.1 程式碼下載 1.2 程式碼使用方法 3 核心程式碼說明 3.1 模型配置 3.2 模型訓練 3.3 輸出結果 1 簡介 1.1 程式

機器學習 — 信用卡欺詐預測

# 讀取CSV檔案的內容 import pandas as pd data = pd.read_csv("creditcard.csv") data.head() Time V1 V2 V3 V4 V5 V6

Python機器學習實戰專案--預測紅酒質量（超詳細）

用Scikit-Learn（sklearn）建立模型 1 環境搭建 Python 3+NumPy+Pandas+Scikit-Learn (sklearn) 2 匯入庫和模組 Numpy是比Python自身的巢狀列表（nested list structure)結構要高效的多的一

基於機器學習進行銷售預測分析

課程介紹：根據集團客戶歷史銷售資料，結合對市場未來需求資料、相關行業政策資料等，預測未來週期內客戶銷售收入，用以指導企業銷售策略，加強計劃性，提高經濟效益。通過本案例，學員可以瞭解預測的相關概念及相關演算法，掌握MaxCompute內部資料加工流程，掌握機器學習的

【機器學習】基於機器學習的乳腺癌預測模型

基於機器學習的乳腺癌預測模型（附Python程式碼）前提說明專案介紹匯入資料概述資料資料視覺化評估演算法實施預測程式碼參考前提說明此部落格內容為20

深度學習機器學習面試問題準備（必會）

第一部分：深度學習 1、神經網路基礎問題（1）Backpropagation（要能推倒）　　後向傳播是在求解損失函式L對引數w求導時候用到的方法，目的是通過鏈式法則對引數進行一層一層的求導。這裡重點強調：要將引數進行隨機初始化而不是全部置0，否則所有隱層的數值都會與輸入

機器學習---scikit-learn中KNN演算法的封裝

1，工具準備，python環境，pycharm 2，在機器學習中，KNN是不需要訓練過程的演算法，也就是說，輸入樣例可以直接呼叫predict預測結果，訓練資料集就是模型。當然這裡必須將訓練資料和訓練標籤進行擬合才能形成模型。 3 3，在pycharm中建立新的專案工程

機器學習SVC分類預測三個月後的股價

思路：通過學習近兩年的每個季度報的基本面財務資料，建立模型，買入並持有預測三個月後會漲5%以上的股票，直到下一批季度報資料採集：用到了大約10018行資料（已去除缺失值，不採用填充），其中採用了兩個技術指標（趨勢指標CYES,CYEL） circulating_market_ca

唐宇迪機器學習之離職預測

最近在看唐宇迪機器學習視訊，這個視訊我覺得很不錯，可是我資源有限，有的視訊沒有配套的資料、資料集或者是程式碼，但還是可以看視訊瞭解其中的一些知識點。專案介紹該專案是通過員工對公司的滿意程度、公司對員工的評估、員工薪資水平、員工崗位、員工工作時長等特徵來推斷員

[機器學習]Scikit-Learn學習筆記03——Scikit-Learn資料模型

Scikit-Learn提供了比較全的資料集,主要分為以下幾類 1. 自帶的小資料集（packaged dataset） 2. 線上下載的資料集（Downloaded Dataset） 3. 生成的資料集（Generated Dataset) 4. svm

機器學習 scikit-learn9 - 預測貸款使用者是否會逾期 - 特徵篩選 IV 和 隨機森林

特徵挑選

1 說明

2 程式碼使用方法

3 核心程式碼說明

3.1 IV值挑選特徵

3.2 隨機森林挑選特徵

3.3 將 IV值 和 隨機森林的特徵結合

3.4 訓練模型輸出結果

4 結果對比

5 問題

相關推薦

機器學習 scikit-learn9 - 預測貸款使用者是否會逾期 - 特徵篩選 IV 和隨機森林

3.3 將 IV值和隨機森林的特徵結合