Python/scikit-learn機器學習庫(特徵選取)

阿新 • • 發佈：2019-01-12

去除方差小的特徵

設定一個方差閾值，沒有達到這個方差閾值的特徵都會被丟棄。
VarianceThreshold，演算法輸入只要求特徵(X),不需要輸入結果(Y)。

from sklearn.feature_selection import VarianceThreshold
X=[[feature1,feature2,…],…]
sel=VarianceThreshold(threshold=xx)
print(sel.fit_transform(X))

單變數特徵選取

單變數特徵提取的原理是分別計算每個特徵的某個統計指標，根據該指標來選取特徵。
SelectKBest、SelectPercentile，前者選擇排名前k個的特徵，後者選擇排名在前k%的特徵。選擇的統計指標需要指定，對於regression問題，使用f_regression指標;對於classification問題，可以使用chi2或者f_classif指標。

from sklearn.feature_selection import SelectKBest,chi2
X_new=SelectKBest(chi2,k=2).fit_transform(test_X,test_Y)

False Positive Rate，假陽性率
chi2,卡方統計量，X中特徵取值必須非負。卡方檢驗用來測度隨機變數之間的依賴關係。通過卡方檢驗得到的特徵之間是最可能獨立的隨機變數，因此這些特徵的區分度很高。

迴圈特徵選取

不單獨地檢驗某個特徵的價值，而是檢驗特徵集的價值。對於一個數量為n的特徵集合，子集的個數為2的n次方減一。通過指定一個學習演算法，通過演算法計算所有子集的error，選擇error最小的子集作為選取的特徵。

RFE

對初始特徵集合中每個特徵賦予一個初始權重。
訓練，將權重最小的特徵移除。
不斷迭代，直到特徵集合的數目達到預定值。

from sklearn.svm import SVC
from sklearn.feature_selection import RFE
//X為樣本集合，每個樣本為一個數組，陣列元素為各個特徵值,Y樣本的評分
svc=SVC(kernel=”linear”,C=1)
rfe=RFE(estimator=svc,n_features_to_select=5,step=1)
X_new=rfe.fit_transform(X,Y)

RFECV

在RFE訓練時，增加交叉驗證。

L1-base

線上性迴歸模型中，每一個特徵代表一個w，若得到的w係數等於或接近0，則說明這些特徵不重要。
LinearSVC
引數C控制特徵係數稀疏度，C的值越小，選擇的特徵數越少。

from sklearn.svm import LinearSVC
X_new=LinearSVC(C=0.01,penalty=”l1”,dual=False).fit_transform(x,y)

決策樹特徵選取

通過決策樹可以計算特徵的重要性，拋棄不太重要的特性。

from sklearn.ensemble import ExtraTreesClassifier
clf=ExtraTreesClassifier()
X_new=clf.fit(x,y).transform(x)
//各個特徵重要性
print(clf.feature_importances)

sklearn分類資料

sklearn.datasets.make_classification用來隨機產生一個多分類問題。
n_features=n_informative+n_redundant+n_repeated。
n_clusters_per_class 每個分類的叢集數

import sklearn.datasets
(x,y)=make_classification(n_samples=,
n_features=,
n_informative=,
n_redundant=,
n_repeated=,
n_classes=,
random_state=,
shuffle=False
)

Python/scikit-learn機器學習庫(特徵選取)

去除方差小的特徵

單變數特徵選取

迴圈特徵選取

RFE

RFECV

L1-base

決策樹特徵選取

sklearn分類資料

Python/scikit-learn機器學習庫(特徵選取)

Python/scikit-learn機器學習庫(SVM支援向量機)

[Python & Machine Learning] 學習筆記之scikit-learn機器學習庫

Python scikit-learn機器學習:feature_selection模組

Python scikit-learn機器學習工具包學習筆記：cross_validation模組

scikit-learn機器學習（五）--條件概率，全概率和貝葉斯定理及python實現

Scikit-Learn機器學習實踐——垃圾短信識別

Ubuntu16.04環境下Python下xlearn機器學習庫的配置

Scikit-learn機器學習實戰之Kmeans

Scikit-Learn機器學習之監督學習模型案例集-新聞/郵件文字內容分類（樸素貝葉斯演算法模型）

scikit-learn機器學習（二）--嶺迴歸，Lasso迴歸和ElasticNet迴歸

Ubuntu16.04環境下Python下Lightgbm機器學習庫的配置

scikit-learn機器學習常用算法原理及編程實戰（一）

Python機器學習庫scikit-learn實踐

Python的機器學習庫scikit-learn、繪相簿Matplotlib的安裝

Python機器學習庫scikit-learn

python機器學習庫scikit-learn簡明教程之：SVM支援向量機

python機器學習庫scikit-learn簡明教程之：隨機森林

python機器學習庫scikit-learn簡明教程之：AdaBoost演算法

Scikit-learn在Python中構建機器學習分類器

Python/scikit-learn機器學習庫(特徵選取)

去除方差小的特徵

單變數特徵選取

迴圈特徵選取

RFE

RFECV

L1-base

決策樹特徵選取

sklearn分類資料

相關推薦