Python scikit-learn機器學習:feature_selection模組

阿新 • • 發佈：2019-01-03

sklearn.feature_selection模組的作用是feature selection，關鍵在於選擇合適的變數達到降維的目的，而feature extraction模組則是從資料集中利用某類演算法抽取具有代表性的特徵，例如tf-idf使用。

Univariate feature selection：單變數的特徵選擇

單變數特徵選擇的原理是分別單獨的計算每個變數的某個統計指標，根據該指標來判斷哪些指標重要。剔除那些不重要的指標。

sklearn.feature_selection模組中主要有以下幾個方法：
SelectKBest和SelectPercentile比較相似，前者選擇排名排在前n個的變數，後者選擇排名排在前n%的變數。而他們通過什麼指標來給變數排名呢？這需要二外的指定。
對於regression問題，可以使用f_regression指標。對於classification問題，可以使用chi2或者f_classif變數，此外選擇演算法內部會根據因變數y的存在與否自主選擇有監督或無監督的學習方式。
使用的例子：
from sklearn.feature_selection import SelectPercentile, f_classif
selector = SelectPercentile(f_classif, percentile=10)

還有其他的幾個方法，似乎是使用其他的統計指標來選擇變數：using common univariate statistical tests for each feature: false positive rate SelectFpr, false discovery rate SelectFdr, or family wise error SelectFwe.

文件中說，如果是使用稀疏矩陣，只有chi2指標可用，其他的都必須轉變成dense matrix。但是我實際使用中發現f_classif也是可以使用稀疏矩陣的。

Python scikit-learn機器學習:feature_selection模組

Python scikit-learn機器學習:feature_selection模組

Python scikit-learn機器學習工具包學習筆記：cross_validation模組

Python/scikit-learn機器學習庫(特徵選取)

Python/scikit-learn機器學習庫(SVM支援向量機)

[Python & Machine Learning] 學習筆記之scikit-learn機器學習庫

scikit-learn機器學習（五）--條件概率，全概率和貝葉斯定理及python實現

Scikit-Learn機器學習實踐——垃圾短信識別

Scikit-learn機器學習實戰之Kmeans

Scikit-Learn機器學習之監督學習模型案例集-新聞/郵件文字內容分類（樸素貝葉斯演算法模型）

scikit-learn機器學習（二）--嶺迴歸，Lasso迴歸和ElasticNet迴歸

scikit-learn機器學習常用算法原理及編程實戰（一）

Scikit-learn在Python中構建機器學習分類器

機器學習——python scikit-learn SVC類不平衡

機器學習 Python scikit-learn 中文文件（3）使用 scikit-learn 介紹機器學習

機器學習 Python scikit-learn 中文文件（2）教程目錄

機器學習 Python scikit-learn 中文文件（1）

機器學習 Python scikit-learn 中文文件（7）模型選擇: 選擇合適的估計器及其引數

機器學習——python scikit-learn 貝葉斯

用Python Scikit-learn 實現機器學習十大演算法--樸素貝葉斯演算法（文末有程式碼）

Python scikit-learn 學習筆記—鳶尾花模型

Python scikit-learn機器學習:feature_selection模組

相關推薦