樹模型特徵重要性評估方法

阿新 • • 發佈：2019-02-10

前言

在特徵的選擇過程中，如果學習器（基學習器）是樹模型的話，可以根據特徵的重要性來篩選有效的特徵。本文是對Random Forest、GBDT、XGBoost如何用在特徵選擇上做一個簡單的介紹。

各種模型的特徵重要性計算

Random Forests

袋外資料錯誤率評估
RF的資料是boostrap的有放回取樣，形成了袋外資料。因此可以採用袋外資料（OOB）錯誤率進行特徵重要性的評估。
袋外資料錯誤率定義為：袋外資料自變數值發生輕微擾動後的分類正確率與擾動前分類正確率的平均減少量。
（1）對於每棵決策樹，利用袋外資料進行預測，將袋外資料的預測誤差記錄下來，其每棵樹的誤差為vote1,vote2,…,voteb
（2）隨機變換每個預測變數，從而形成新的袋外資料，再利用袋外資料進行驗證，其每個變數的誤差是votel1,votel2,…votelb
Gini係數評價指標（和GBDT的方法相同）

GBDT

在sklearn中，GBDT和RF的特徵重要性計算方法是相同的，都是基於單棵樹計算每個特徵的重要性，探究每個特徵在每棵樹上做了多少的貢獻，再取個平均值。
在利用隨機森林對特徵重要性進行評估寫的比較清楚了，但是還是有一點小的問題，比較ensemble模型零碎記錄中對原始碼的解析可以看出，前者計算中丟失了weighted_n_node_samples。

利用Gini計算特徵的重要性
單棵樹上特徵的重要性定義為：特徵在所有非葉節在分裂時加權不純度的減少，減少的越多說明特徵越重要。
沿用參考部落格裡的符號，我們將變數重要性評分（variable importance measures）用 $V I M$ 來表示，將Gini指數用 $G I$ 來表示
節點m的Gini指數的計算公式為：
$G I_{m} = 1 - \sum_{k = 1}^{| K |} p_{m k}^{2}$
其中，K表示有K個類別， $p_{m k}$ 表示節點m中類別k所佔的比例。直觀地說，就是隨便從節點m中隨機抽取兩個樣本，其類別標記不一致的概率。
特徵 $X_{j}$ 在節點 $m$ 的重要性可以表示為加權不純度的減少
$V I M_{j m}^{G i n i} = N_{m} \times G I m - N_{l} \times G I l - N_{r} \times G I r$
其中， $G I_{l}$ 和 $G I_{r}$ 分別表示分枝後兩個新節點的Gini指數。 $N_{m}$ 、 $N_{l}$ 、 $N_{r}$ 表示節點m、左孩子節點l和右孩子節點r的樣本數。
如果，特徵 $X_{j}$ 在決策樹i中出現的節點在集合M中，那麼 $X_{j}$ 在第i顆樹的重要性為
$V I M_{i j} = \sum_{m \in M} V I M_{j m}$

~~如果這樣還不是很清晰的話，我們來舉個例子（李航統計學習方法表5.1）

import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.externals.six import StringIO
from sklearn import tree
import pydotplus

clf = DecisionTreeClassifier()
x = [[1,1,1,1,1,2,2,2,2,2,3,3,3,3,3],
     [1,1,2,2,1,1,1,2,1,1,1,1,2,2,1],
     [1,1,1,2,1,1,1,2,2,2,2,2,1,1,1],
     [1,2,2,1,1,1,2,2,3,3,3,2,2,3,1]
     ]
y =  [1,1,2,2,1,1,1,2,2,2,2,2,2,2,1]
x = np.array(x)
x = np.transpose(x)
clf.fit(x,y)
print clf.feature_importances_
feature_name = ['A1','A2','A3','A4']
target_name = ['1','2']
dot_data = StringIO()
tree.export_graphviz(clf,out_file = dot_data,feature_names=feature_name,
                     class_names=target_name,filled=True,rounded=True,
                     special_characters=True)
graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
graph.write_pdf("WineTree.pdf")
print('Visible tree plot saved as pdf.')

可以得到樹的劃分過程圖
這裡寫圖片描述
特徵A3的重要性為 $0.48 \times 15 - 0.4444 \times 9 - 0 = 3.2004$
特徵A2的重要性為 $0.4444 \times 9 - 0 - 0 = 3.9996$
特徵A1和A4的重要性都為0
所以該棵樹上所有節點總的加權不純度減少量為 $3.2004 + 3.9996 = 7.3$
對其進行歸一化操作可以得到A1、A2、A3、A4的特徵重要性為

[ 0. 0.55555556 0.44444444 0. ]

這是單棵樹上特徵的計算方法，推廣到n棵樹

V I M_{j} = \sum_{i = 1}^{n} V I M_{i j}

最後，把所有求得的重要性評分做一個歸一化處理即可。

V I M_{j} = V I M_{j} \sum_{i = 1}^{c} V I M_{i}

其中

c

為特徵的總個數

XGBoost

    def get_score(self, fmap='', importance_type='weight'):
        """Get feature importance of each feature.
        Importance type can be defined as:
            'weight' - the number of times a feature is used to split the data across all trees.
            'gain' - the average gain of the feature when it is used in trees
            'cover' - the average coverage of the feature when it is used in trees
        Parameters
        ----------
        fmap: str (optional)
           The name of feature map file
        """

        if importance_type not in ['weight', 'gain', 'cover']:
            msg = "importance_type mismatch, got '{}', expected 'weight', 'gain', or 'cover'"
            raise ValueError(msg.format(importance_type))

        # if it's weight, then omap stores the number of missing values
        if importance_type == 'weight':
            # do a simpler tree dump to save time
            trees = self.get_dump(fmap, with_stats=False)

            fmap = {}
            for tree in trees:
                for line in tree.split('\n'):
                    # look for the opening square bracket
                    arr = line.split('[')
                    # if no opening bracket (leaf node), ignore this line
                    if len(arr) == 1:
                        continue

                    # extract feature name from string between []
                    fid = arr[1].split(']')[0].split('<')[0]

                    if fid not in fmap:
                        # if the feature hasn't been seen yet
                        fmap[fid] = 1
                    else:
                        fmap[fid] += 1

            return fmap

        else:
            trees = self.get_dump(fmap, with_stats=True)

            importance_type += '='
            fmap = {}
            gmap = {}
            for tree in trees:
                for line in tree.split('\n'):
                    # look for the opening square bracket
                    arr = line.split('[')
                    # if no opening bracket (leaf node), ignore this line
                    if len(arr) == 1:
                        continue

                    # look for the closing bracket, extract only info within that bracket
                    fid = arr[1].split(']')

                    # extract gain or cover from string after closing bracket
                    g = float(fid[1].split(importance_type)[1].split(',')[0])

                    # extract feature name from string before closing bracket
                    fid = fid[0].split('<')[0]

                    if fid not in fmap:
                        # if the feature hasn't been seen yet
                        fmap[fid] = 1
                        gmap[fid] = g
                    else:
                        fmap[fid] += 1
                        gmap[fid] += g

            # calculate average value (gain/cover) for each feature
            for fid in gmap:
                gmap[fid] = gmap[fid] / fmap[fid]
            return gmap

在XGBoost中提供了三種特徵重要性的計算方法：

‘weight’ - the number of times a feature is used to split the data across all trees.
‘gain’ - the average gain of the feature when it is used in trees
‘cover’ - the average coverage of the feature when it is used in trees

簡單來說
weight就是在所有樹中特徵用來分割的節點個數總和；
gain就是特徵用於分割的平均增益
cover 的解釋有點晦澀，在[R-package/man/xgb.plot.tree.Rd]有比較詳盡的解釋：(https://github.com/dmlc/xgboost/blob/f5659e17d5200bd7471a2e735177a81cb8d3012b/R-package/man/xgb.plot.tree.Rd)：the sum of second order gradient of training data classified to the leaf, if it is square loss, this simply corresponds to the number of instances in that branch. Deeper in the tree a node is, lower this metric will be。實際上coverage可以理解為被分到該節點的樣本的二階導數之和，而特徵度量的標準就是平均的coverage值。

還是舉李航書上那個例子，我們用不同顏色來表示不同的特徵，繪製下圖
這裡寫圖片描述

import xgboost as xgb
import numpy as np
x = [[1,1,1,1,1,2,2,2,2,2,3,

 
 
              
           
              
              
            
            相關推薦
			   
            
            
            
 

    

    
    樹模型特徵重要性評估方法
      
							
							
							前言

在特徵的選擇過程中，如果學習器（基學習器）是樹模型的話，可以根據特徵的重要性來篩選有效的特徵。本文是對Random Forest、GBDT、XGBoost如何用在特徵選擇上做一個簡單的介紹。



各種模型的特徵重要性計算



Random Fores 

  
 

    

    
    機器學習——模型測試與評估方法與指標
      
                評估模型的方法與指標







           3.mAP4.IOU

1.P-R曲線

查準率(precision)-------P-R曲線的縱座標

查全率,召回率(recall)------------P-R曲線的橫座標

對於二分類問題，可以將樣例根據其真實 

  
 

    

    
    評估機器學習模型的幾種方法（驗證集的重要性）
       
 
 評估機器學習模型的幾種方法（驗證集的重要性） 
 什麼是評估機器學習模型     
 　　機器學習的目的是得到可以泛化（generalize）的模型，即在前所未見的資料上表現很好的模型，而過擬合則是核心難點。你只能控制可以觀察的事情，所以能夠可靠地衡量模型的泛化能力非常 

  
 

    

    
    【機器學習】隨機森林 Random Forest 得到模型後，評估參數重要性
      img   eas   一個   increase   裏的   sum   示例   增加   機器   在得出random forest 模型後，評估參數重要性
importance（） 示例如下

 
特征重要性評價標準
%IncMSE 是 increase in MSE。就是對每一個變量 比如 X1  

  
 

    

    
    sklearn中樹模型可視化的方法
      方法   ron   問題   style   業界   們的   graphviz   還需要   plus   在機器學習的過程中，我們常常會用到樹模型的方式來解決我們的問題。在工業界，我們不僅要針對某個問題利用機器學習的方法來解決問題，而且還需要能力解釋其中的原理或原因。今天主要在這裏記錄一下樹模型是怎 

  
 

    

    
    模型評估方法
      規模   可靠   另一個   isp   隨機   如果   方式   此外   family   　　當我們用“訓練集”訓練好一個模型之後，首先希望看看它的性能如何，一般情況下，我們通常使用一個“測試集”來測試模型對新樣本的判別能力，然後以測試集上的“測試誤差”來作為泛化誤差的近似，通常我們假設測試樣本也 

  
 

    

    
    Classification： Precision/Recall ,ROC, AUC等分類模型評估方法，Multilabel and Multioutput Classification
       
  
  
 Classification 
  
   一.資料集獲取及預處理 
    
     1 資料集匯入  
     2資料集劃分  
     
   二、binary classification 二元分類器 
    
    自己實現交叉驗證函式 
    confusion ma 

  
 

    

    
    用xgboost模型對特徵重要性進行排序
       
 
 用xgboost模型對特徵重要性進行排序 
 在這篇文章中，你將會學習到： 
 
  xgboost對預測模型特徵重要性排序的原理（即為什麼xgboost可以對預測模型特徵重要性進行排序）。 
  如何繪製xgboost模型得到的特徵重要性條形圖。 
  如何根據xgboost模型得到的特徵重要性， 

  
 

    

    
    機器學習模型評估方法
       
 
 
 實際的機器學習專案中，我們往往只知道包含m個樣例的資料集D，D={(x1,y1),(x2,y2),(x3,y3),...(xm,ym)}，通過對資料集D進行適當的處理，劃分為訓練集和測試集，訓練集構建模型，然後用該模型計算測試資料集的測試誤差，最後以測試集的測試誤差近似為模型的泛化能力，根據泛化 

  
 

    

    
    模型評估方法（混淆矩陣）
       
 
 
 在資料探勘或機器學習建模後往往會面臨一個問題，就是該模型是否可靠？可靠性如何？也就是說模型的效能如何我們暫時不得而知。 
 如果模型不加驗證就使用，那後續出現的問題將會是不可估計的。所以通常建模後我們都會使用模型評估方法進行驗證，當驗證結果處於我們的可控範圍之內或者效果更佳，那該模型便可以進行後 

  
 

    

    
    模型融合策略：開發樹模型輸出葉子節點作為特徵到迴歸器或者分類器的類
      
from sklearn.base import BaseEstimator,ClassifierMixin,RegressorMixin
from sklearn.preprocessing import OneHotEncoder
import numpy as np

class TreeLeaf(B 

  
 

    

    
    LDA主題模型評估方法--Perplexity
      
                

原文出處：http://blog.csdn.net/pirage/article/details/9368535

在LDA主題模型之後，需要對模型的好壞進行評估，以此依據，判斷改進的引數或者演算法的建模能力。

Blei先生在論文《Latent Dirichlet Al 

  
 

    

    
    機器學習模型效能評估方法筆記
      
							
							
							模型效能評估綜述

對於模型效能的評估，我們通常分為一下三步： 
1. 對資料集進行劃分，分為訓練集和測試集兩部分； 
2. 對模型在測試集上面的泛化效能進行度量； 
3. 基於測試集上面的泛化效能，依據假設檢驗來推廣到全部資料集上面的泛化效能



資料集的劃 

  
 

    

    
    決策樹：特徵分佈空間劃分方法
      
                
前言：懶惰的原因是因為時間太少，不能夠去仔細的探索學習，拿來主義喪失了很多快樂！
K近鄰演算法的實現：KD樹

2.0、背景
     之前blog內曾經介紹過SIFT特徵匹配演算法，特徵點匹配和資料庫查、影象檢索本質上是同一個問題，都可以歸結為一個通過距離函式在高維向量之 

  
 

    

    
    演算法模型---演算法調優---資料探勘模型效果評估方法彙總
      
							
							
							基於損失函式的標準
混淆矩陣
混淆矩陣用在分類器中，是對每一類樣本的統計，包括正確分類和錯誤分類的個數。對於m類樣本，可能的錯誤種類有m2−mm^2-mm2−m個。
對於2分類問題存在4種可能的情況：

    
         
         
     

  
 

    

    
    準確率召回率以及F1（模型評估方法）
      
                
召回率和準確率是資料探勘中預測、網際網路中的搜尋引擎等經常涉及的兩個概念和指標。
召回率：Recall，又稱“查全率”——還是查全率好記，也更能體現其實質意義。
準確率：Precision，又稱“精度”、“正確率”。
以檢索為例，可以把搜尋情況用下圖表示：



相關


 

  
 

    

    
    【強化學習筆記】4.4 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣程式碼實現
      
							
							
							



#!/usr/bin/env python
# -*- coding:utf-8 -*-

#import gym
import random
import numpy as np

class GriDMdp:
    def __init__(s): 

  
 

    

    
    分類模型的評估方法-F分數(F-Score)
      
							
							
							前面介紹了機器學習中分類模型的精確率(Precision)和召回率(Recall)評估指標。對於Precision和Recall，雖然從計算公式來看，並沒有什麼必然的相關性關係，但是，在大規模資料集合中，這2個指標往往是相互制約的。理想情況下做到兩個指標都高當然 

  
 

    

    
    決策樹、RF、xgboost如何處理缺失值？判斷特徵重要性？缺失值不敏感？
      
                1.隨機森林模型怎麼處理異常值?

隨機森:林是已故統計學家Leo Breiman提出的，和gradient boosted tree—樣，它的基模型是決策樹。在介紹RF時，Breiman就提出兩種解決缺失值的方去 (Random forests - classificati 

  
 

    

    
    邏輯迴歸模型的評估方法
      
							
							
							從Weka工具跑回歸模型可以看到評估的輸出，怎麼解讀自行腦補過，大概明白了些。

翠花，上截圖！



我們普通人最直接的理解是正確率吧。應該對應到Correctly Classified Instances比例（正確分類了的例項）。 
在上圖中，總例項數100