利用隨機森林進行特徵選擇

阿新 • • 發佈：2018-12-10

例子是wine資料集： http://archive.ics.uci.edu/ml/machine-learning-databases/wine/ 之所以可以利用隨即森立來進行特徵篩選是由於決策樹的特性，因此我們可以利用所有決策樹得到的平均不純度（基尼係數）衰減來量化特徵的重要性。根據重要性可以剔除相關度很低的特徵，精簡模型。 接下來直接進入程式碼：

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#載入資料，必要的時候可以檢視下資料的情況
source_url = 'http://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data' 
            
data = pd.read_csv(source_url,header=None,prefix='x')
data.columns = ['cluster','Alcohol','Malic acid','Ash','Alcalinity of ash','Magnesium','Total phenols','Flavanoids','Nonflavanoid phenols','Proanthocyanins','Color intensity','Hue','OD280/OD315 of diluted wines','Proline']

#print(data.info()) 

#print(data.head())
#print(data.tail())
#print(data.describe())

#由於data第一列為資料集分好的標籤，先剔除。
x = data.iloc[:,1:].values
# print(x.shape)
y = data.iloc[:,0].values
from sklearn.ensemble import RandomForestClassifier
RFC = RandomForestClassifier(n_estimators=15000,n_jobs= -1 ,random_state=0)
RFC.fit(x,y)
#構造隨機森林，擬合數據。

n_estimators：森林中樹的數量 n_jobs：整數，可選（預設= 1）適合和預測並行執行的作業數。如果為-1，則將作業數設定為核心數。關於詳細引數，可以自行檢視文件。

import_level = RFC.feature_importances_ #這個方法可以調取關於特徵重要程度
x_columns = data.columns[1:]
index = np.argsort(import_level)[::-1]
for each in range(x.shape[1]):
    print('The important level of '+ x_columns[each]+ ':      '+ str(import_level[index[each]]))
#對於最後需要逆序，個人的理解是做了類似決策樹回溯的取值。從葉子收斂到根，根部重要程度高於葉子。

#最後在視覺化以下圖
plt.figure(figsize=(10,6))
plt.title('紅酒資料集中各個特徵的重要程度',fontsize = 18)
plt.ylabel('import level',fontsize = 15,rotation = 90)
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False
for i in range(x_columns.shape[0]):
    plt.bar(i,import_level[index[i]],color = 'orange',align = 'center')
    plt.xticks(np.arange(x_columns.shape[0]),x_columns,rotation = 90,fontsize = 15)

這裡寫圖片描述

利用隨機森林進行特徵選擇

例子是wine資料集： http://archive.ics.uci.edu/ml/machine-learning-databases/wine/ 之所以可以利用隨即森立來進行特徵篩選是由於決策樹的特性，因此我們可以利用所有決策樹得到的平均不純度（基尼係數）

【Machine Learning】使用隨機森林進行特徵選擇

一、特徵選擇在我們做特徵工程時，當我們提取完特徵後，可能存在並不是所有的特徵都能分類起到作用的問題，這個時候就需要使用特徵選擇的方法選出相對重要的特徵用於構建分類器。此外，使用特徵選擇這一步驟也大大減少了訓練的時間，而且模型的擬合能力也不會出現很大的降低問

利用隨機森林對特徵重要性進行評估

前言隨機森林是以決策樹為基學習器的整合學習演算法。隨機森林非常簡單，易於實現，計算開銷也很小，更令人驚奇的是它在分類和迴歸上表現出了十分驚人的效能，因此，隨機森林也被譽為“代表整合學習技術水平的方法”。本文是對隨機森林如何用在特徵選擇上做一個簡單的介紹。

隨機森林進行特徵選取

在隨機森林中某個特徵x的重要性的計算方式如下: 首先是對隨機森林的每一顆決策樹,使用對應的OOB(袋外資料)資料來進行計算他的袋外的資料誤差,記做error1 這樣每個決策樹都可以得到一個error1,K顆數就有K個error1. 然後就是要遍歷所有的特徵,來考察該特徵的重

使用隨機森林和mRMR進行特徵選擇

演算法效能的好壞跟資料是密不可分的，因此找到一組更具代表性的特徵子集顯得更加重要。在實際專案中，因為有的特徵對模型而言是冗餘的，它對演算法的效能會產生負面影響，此時就需要做特徵選擇。特徵選擇的目的就是從一組特徵集合中去除冗餘或不相關的特徵從而達到降維的目的。說到降維，它不

利用隨機森林和梯度替身決策樹對titanic資料進行分類，並對結果進行分析

import pandas as pd from sklearn.cross_validation import train_test_split from sklearn.feature_extraction import DictVectorizer from skle

Julia機器學習實戰——使用Random Forest隨機森林進行字元影象識別

文章目錄 0 Preface 1 載入資料 2 訓練隨機森林（train RF） 3 完整程式碼 0 Preface 相關引數說明 - Julia: 1.0 - OS: MacOS

1.3.1 Julia機器學習實戰——使用Random Forest隨機森林進行字元影象識別

0 Preface 相關引數說明 - Julia: 1.0 - OS: MacOS 訓練測試資料百度雲連結：點選下載密碼: u71o 檔案說明： - rf_julia_charReg - resizeData.py #批量

sklearn學習之使用sklearn進行特徵選擇

在本節中我們將使用sklearn.feature_selection模組中的類在高維度的樣本集上進行特徵選擇、降維來提升估計器的效能。 1. Removing features with low variance方差選擇法 sklearn.feature_se

利用隨機森林、GBDT、xgboost、LightGBM計算準確率和auc

利用隨機森林、GBDT、xgboost、LightGBM計算準確率和auc 用到的模組 import pandas as pd import lightgbm as lgb from sklearn.model_selection import train_test_s

Notes—Random Forest-feature importance隨機森林對特徵排序

two methods: 1.Mean decrease impurity 大概是對於每顆樹，按照impurity（gini /entropy /information gain）給特徵排序，然

如何進行特徵選擇

>>> from sklearn.ensembleimport ExtraTreesClassifier>>>from sklearn.datasetsimport load_iris>>>from sklearn.feature_selection

客戶逾期貸款預測[8] - 特徵選擇(iv值、隨機森林)

任務分別用IV值和隨機森林挑選特徵，再構建模型，進行模型評估 1 利用iv值挑選特徵這次暫時先用學長計算好的iv值挑選特徵，之後再嘗試自己計算iv值。選擇iv

【機器學習】特徵選擇之最小冗餘最大相關性(mRMR)與隨機森林(RF)

特徵選擇之最小冗餘最大相關性(mRMR) 最小冗餘最大相關性(mRMR)是一種濾波式的特徵選擇方法，由Peng et.al提出。主要用途有機器學習，影象識別等。一種常用的特徵選擇方法是最大化特徵與分類變數之間的相關度，就是選擇與分類變數擁有最高相關度的前k個變數。但是，在特徵選擇中，

R包 randomForest 進行隨機森林分析

分類器屬於成功 and 分類新的 nts class 散點 randomForest 包提供了利用隨機森林算法解決分類和回歸問題的功能；我們這裏只關註隨機森林算法在分類問題中的應用首先安裝這個R包 install.packages("randomForest")

利用scikit-learn庫實現隨機森林分類演算法

自己實踐一下在本章學到一些方法首先實踐核心的部分，怎麼實現一個分類模型，並通過驗證曲線去優化模型，最後使用訓練出來的模型進行預測 In [20]:

機器學習 scikit-learn9 - 預測貸款使用者是否會逾期 - 特徵篩選 IV 和隨機森林

特徵挑選 1 說明 2 程式碼使用方法 3 核心程式碼說明 3.1 IV值挑選特徵 3.2 隨機森林挑選特徵 3.3 將 IV值和隨機森林的特徵結合 3.4 訓練模型輸出結果 4 結果對比 5

sklearn:使用完全隨機樹進行雜湊特徵轉換

RandomTreesEmbedding提供了一種將資料對映到非常高維，稀疏表示的方法，這可能有利於分類。對映完全不受監督且非常有效。此示例視覺化由多個樹給出的分割槽，並顯示轉換如何也可用於非線性降維或非線性分類。相鄰的點通常共享樹的相同葉子，因此共享其散列表示的大部分。這允許簡單地基

利用Inception-v3現成權重進行特徵提取（影象識別）

在tensorflow官網的影象識別的中文介紹中，介紹瞭如何用Tensorflow的模型程式碼庫中的classify_image.py進行影象識別。裡面有介紹如何測試，而且還提供了最後一層的1*1*2048維的特徵提取方式，所以在這裡介紹一下。 ...... with tf.Session

kaggle上泰坦尼克的年齡使用tensorflow進行隨機森林迴歸

kaggle上泰坦尼克的年齡轉換為int型，0~80歲一共81個標籤。使用隨機森林分類準確率為0.47，然後再用這個模型去獲得未知的年齡資料。 import pandas as pd import numpy as np import tensorflow as tf from te

利用隨機森林進行特徵選擇

相關推薦