【資料建模 IV】特徵資訊度

阿新 • • 發佈：2019-02-16

IV(Information Value), 衡量特徵包含預測變數濃度的一種指標

這裡寫圖片描述

特徵資訊度解構：

這裡寫圖片描述

其中Gi,Bi表示箱i中好壞樣本佔全體好壞樣本的比例。
　WOE表示兩類樣本分佈的差異性。
　(Gi-Bi)：衡量差異的重要性。

　特徵資訊度的作用
　選擇變數：

非負指標
高IV表示該特徵和目標變數的關聯度高
目標變數只能是二分類
過高的IV,可能有潛在的風險
特徵分箱越細,IV越高
常用的閾值有:
<=0.02: 沒有預測性,不可用
0.02 to 0.1: 弱預測性
0.1 to 0.2: 有一定的預測性
0.2 +: 高預測性
注意上面說的IV是指一個變數裡面所有箱的IV之和。

計算WOE和IV程式碼：

def CalcWOE(df, col, target):
    '''
    :param df: dataframe containing feature and target
    :param col: 注意col這列已經經過分箱了，現在計算每箱的WOE和總的IV。
    :param target: good/bad indicator
    :return: 返回每箱的WOE(字典型別）和總的IV之和。
    '''
    total = df.groupby([col])[target].count()
    total = pd.DataFrame({'total' 
: total})
    bad = df.groupby([col])[target].sum()
    bad = pd.DataFrame({'bad': bad})
    regroup = total.merge(bad, left_index=True, right_index=True, how='left')
    regroup.reset_index(level=0, inplace=True)
    N = sum(regroup['total'])
    B = sum(regroup['bad'])
    regroup['good'] = regroup['total' 
] - regroup['bad']
    G = N - B
    regroup['bad_pcnt'] = regroup['bad'].map(lambda x: x*1.0/B)
    regroup['good_pcnt'] = regroup['good'].map(lambda x: x * 1.0 / G)
    regroup['WOE'] = regroup.apply(lambda x: np.log(x.good_pcnt*1.0/x.bad_pcnt),axis = 1)
    WOE_dict = regroup[[col,'WOE']].set_index(col).to_dict(orient='index')
    IV = regroup.apply(lambda x: (x.good_pcnt-x.bad_pcnt)*np.log(x.good_pcnt*1.0/x.bad_pcnt),axis = 1)
    IV = sum(IV)
    return {"WOE": WOE_dict, 'IV':IV}

【資料建模 IV】特徵資訊度

IV(Information Value), 衡量特徵包含預測變數濃度的一種指標特徵資訊度解構：其中Gi,Bi表示箱i中好壞樣本佔全體好壞樣本的比例。　WOE表示兩類樣本分佈的差

【資料視覺化】地理資訊視覺化應用

1 地球與生存環境人類長期以來對地球和周遭自然環境進行觀測來研究和了解自己生存的自然空間，科學家們也通過建立數學模型來模擬環境的變化。這些觀測和模擬得到的資料通常包含了地理空間中的位置資訊，因此自然需要用到地理資訊視覺化來呈現資料，最常見的是與氣象相關的資

【資料建模特徵分箱】特徵分箱的方法

在建模中，需要對連續變數離散化，特徵離散化後，模型會更穩定，降低了模型過擬合的風險。有監督的卡方分箱法(ChiMerge) 自底向上的(即基於合併的)資料離散化方法。它依賴於卡方檢驗:具有最小卡方值的相鄰區間合併在一起,直到滿足確定的停止準則。基

【資料建模特徵編碼】one-hot encoding以及運用

主要內容： 1、什麼是one_hot編碼 2、one-hot在提取文字特徵上的應用 3、one_hot編碼優缺點分析一、什麼是one_hot編碼 one-hot 和 TF-IDF是目前最為常見的用於提取文字特徵的方法。下面我們介紹下one_hot編碼

【資料探勘】【筆記】資料預處理之類別特徵編碼

定義類別特徵：如['male', 'female']等，模型不能直接識別的資料。處理的目的是將不能夠定量處理的變數量化。特別的比如星期[1, 2, ... , 7]雖然是數字，但是數值之間沒有大小順序關係，需要視為類別特徵。處理編碼為模型可識

【表格建模系列】二、添加數據

geography custom img eof pan ipaddress customer fwe ebr 加載如下表並清空相應字段： DimCustomer清除字段: SpanishEducation, FrenchEducation, SpanishOccupati

【表格建模系列】五、創建分區

ant ntp amt intern cost track end pct 2-0 右鍵單擊FactInternetSales > 分區。創建如下分區： FactInternetSales2010。SQL: SELECT [dbo].[FactInterne

【資料搜集】Python學習

OS pan span blog cor pos ati http pytho python學習手冊 | 演道網 http://dev.go2live.cn/python/python%e5%ad%a6%e4%b9%a0%e6%89%8b%e5%86%8c.html 【資

【資料搜集】DirectX學習

.sh 資料指南 c++ tor 動漫 light Go pos 【網站推薦：】GameRes遊資網-遊戲開發者門戶 http://www.gameres.com/ 【基礎知識：】《遊戲編程》第一部基礎篇 - GameRes.com http://dev.gamere

【LA3211 訓練指南】飛機調度【2-sat】

truct max ostream out oid 問題如何判斷 clear rdquo 題意有n嫁飛機需要著陸。每架飛機都可以選擇“早著陸”和“晚著陸”兩種方式之一，且必須選擇一種。第i架飛機的早著陸時間為Ei，晚

【資料視覺化】25個即時改進資料視覺化設計的技巧

資料視覺化不是關於顯示資料; 它是以更容易理解的方式顯示資料 - 這就是真正的價值所在。如果你想真正“看到”我們的意思，請看一下這個快速視訊：視訊地址：https://vimeo.com/29684853 不幸的是，很多人認為將幾張圖表放在一起意味著您正在進行資料視覺

【資料結構--Heap】堆

堆（英語：Heap）是電腦科學中的一種特別的樹狀資料結構。若是滿足以下特性，即可稱為堆：“給定堆中任意節點 P 和 C，若 P 是 C 的母節點，那麼 P 的值會小於等於（或大於等於） C 的值”。若母節點的值恆小於等於子節點的值，此堆稱為最小堆（英語：min heap）；反之，若母節點的值

【資料集介紹】The Idiap Research Institute REPLAY-Mobile Database

【時間】2018.11.14 【資料集介紹】The Idiap Research Institute REPLAY-Mobile Database 概述本文是對資料集REPLAY-Mobile Database中的readme.md檔案的中英對照翻譯，是對這個資料庫的內容與使用方法的介

【資料售賣平臺】—— Vue2.0入門學習專案爬坑

前言：這個專案是我從零學習Vue2.0時用於練習基礎知識的入門專案，包含了Vue2.0幾乎所有專案都會用到的基礎功能，是新手用來練手的好專案，這裡溫故知新對功能點做一個總結。平臺首頁登入註冊

【TP5 ：請求】請求資訊

請求資訊使用 \think\Request 類獲取請求資訊 //初始化 $request = Request::instance(); 或助手函式 $request = request(); 最方便的

【資料集使用】3D Mask Attack Dataset（3DMAD資料集）---raw_to_AVI.py指令碼的使用

【編輯時間】2018.09.17 【資料集使用】3D Mask Attack Dataset（3DMAD資料集）---raw_to_AVI.py指令碼的使用概述 3DMAD資料集中的資料是.hdf5格式的，可以使用資料庫中的raw_to_AVI.py指令碼將其轉換

【資料集整理】人體行為識別和影象識別

原連結：https://blog.csdn.net/liuxiao214/article/details/78889662 謝謝博主的整理，轉載一下以便查閱。一共12個人體行為識別的資料集，基於視訊的； 6個影象識別的，有關物體識別、行人識別、年齡識別和人頭檢測的，基

【資料應用案例】摩拜騎行資料探勘違章停車

案例來源：@機器之心作者：Tianfu He、Jie Bao、Ruiyuan Li、Sijie Ruan、Yanhua Li、Chao Tian、Yu Zheng 0. 背景：隨著汽車保有量增加，停車位供不應求，違章停車現象增加。傳統的檢測違停的方式是交警巡

【資料集+評測】視訊序列中的運動檢測演算法

運動檢測評測指標經典演算法 1 SOBS 2 ViBe 3 KNN 深度學習方法 1 FgSegNet 2 Cascade CNN

【資料結構排序】POJ1804——歸併排序求逆序數

問題描述：給定一個數組，問最少經過多少次交換，才可以使得它有序求解方法：實際上就是求該陣列的逆序數，使用歸併排序即可 AC程式碼如下： #include<cstdio> #in

【資料建模 IV】特徵資訊度

相關推薦