2. 特徵工程之特徵選擇

阿新 • • 發佈：2018-11-16

1. 前言

當資料預處理完成後，我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。

在做資料分析的時候，特徵的來源一般有兩塊，一塊是業務已經整理好各種特徵資料，我們需要去找出適合我們問題需要的特徵；另一塊是我們從業務特徵中自己去尋找高階資料特徵。我們就針對這兩部分來分別討論。

2. 特徵選擇的方法

通常來說，從兩個方面考慮來選擇特徵：

特徵是否發散：如果一個特徵不發散，例如方差接近於0，也就是說樣本在這個特徵上基本上沒有差異，這個特徵對於樣本的區分並沒有什麼用。
特徵與目標的相關性：這點比較顯見，與目標相關性高的特徵，應當優選選擇。除方差法外，本文介紹的其他方法均從相關性考慮。

特徵選擇方法有很多，一般分為三類：

過濾法（Filter）比較簡單，它按照特徵的發散性或者相關性指標對各個特徵進行評分，設定評分閾值或者待選擇閾值的個數，選擇合適特徵。上面我們提到的方差篩選就是過濾法的一種。
包裝法（Wrapper），根據目標函式，通常是預測效果評分，每次選擇部分特徵，或者排除部分特徵。
整合法（Embedded），它先使用某些機器學習的演算法和模型進行訓練，得到各個特徵的權值係數，根據權值係數從大到小來選擇特徵。

2.1 Filter

2.1.1 方差選擇法

使用方差選擇法，先要計算各個特徵的方差，然後根據閾值，選擇方差大於閾值的特徵。使用feature_selection庫的VarianceThreshold類來選擇特徵

2.1.2 相關係數法

使用相關係數法，先要計算各個特徵對目標值的相關係數以及相關係數的P值。用feature_selection庫的SelectKBest類結合相關係數來選擇特徵

2.1.3 卡方檢驗

經典的卡方檢驗是檢驗定性自變數對定性因變數的相關性。假設自變數有N種取值，因變數有M種取值，考慮自變數等於i且因變數等於j的樣本頻數的觀察值與期望的差距，構建統計量：

\[ \chi^2=\sum\frac{(A-E}^2}{E} \]

2.1.4 互資訊法

經典的互資訊也是評價定性自變數對定性因變數的相關性的。
\[ I(X,Y)=∫_X∫_YP(X,Y)log\frac{P(X,Y)}{P(X)P(Y)} \]

2.2 Wrapper

2.2.1 遞迴特徵消除法

遞迴消除特徵法使用一個基模型來進行多輪訓練，每輪訓練後，消除若干權值係數的特徵，再基於新的特徵集進行下一輪訓練。

2.3 Embedded

2.3.1 基於懲罰項的特徵選擇法

使用帶懲罰項的基模型，除了篩選出特徵外，同時也進行了降維。使用feature_selection庫的SelectFromModel類結合帶L1懲罰項的邏輯迴歸模型

2.3.2 基於樹模型的特徵選擇法

樹模型中GBDT也可用來作為基模型進行特徵選擇，使用feature_selection庫的SelectFromModel類結合GBDT模型

（歡迎轉載，轉載請註明出處。歡迎溝通交流： [email protected]）

2. 特徵工程之特徵選擇

1. 前言當資料預處理完成後，我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。在做資料分析的時候，特徵的來源一般有兩塊，一塊是業務已經整理好各種特徵資料，我們需要去找出適合我們問題需要的特徵；另一塊是我們從業務特徵中自己去尋找高階資料特徵。我們就針對這兩部分來分別討論。 2. 特徵選擇的

【資料平臺】sklearn庫特徵工程之特徵選擇和降維

1、特徵選擇當資料預處理完成後，我們需要選擇有意義的特徵輸入機器學習的演算法和模型進行訓練。通常來說，從兩個方面考慮來選擇特徵：特徵是否發散：如果一個特徵不發散，例如方差接近於0，也就是說樣本在這個特徵上基本上沒有差異，這個特徵對於樣本的區分並沒有什麼用。特徵與目標的相

不想累死就來看看 : 特徵工程之特徵選擇

作者：劉建平編輯：祝鑫泉授權轉發自：劉建平《特徵工程之特徵選

特徵工程之特徵選擇

特徵工程是資料分析中最耗時間和精力的一部分工作，它不像演算法和模型那樣是確定的步驟，更多是工程上的經驗和權衡。因此沒有統一的方法，這裡只是對一些常用的方法做一個總結。1. 特徵的來源　　　　在做資料分析的時候，特徵的來源一般有兩塊，一塊是業務已經整理好各種特徵資料，我們需要去

1. 特徵工程之特徵預處理

1. 前言 “資料決定了機器學習的上限，而演算法只是儘可能逼近這個上限”，這裡的資料指的就是經過特徵工程得到的資料。特徵工程指的是把原始資料轉變為模型的訓練資料的過程，它的目的就是獲取更好的訓練資料特徵，使得機器學習模型逼近這個上限。特徵工程能使得模型的效能得到提升，有時甚至在簡單的模型上也能取得不錯的效果

機器學習特徵工程之特徵抽取

1.資料集資料集是特徵抽取的源資料。常用資料集的結構組成：特徵值+目標值。資料中對於特徵的處理 pandas：一個數據讀取非常方便以及基本的處理格式的工具。 sklearn：對於特徵的處理提供了強大的介面。 2.資料的特徵工程 2

機器學習特徵工程之特徵預處理

特徵預處理是什麼？通過特定的統計方法（數學方法）講資料轉換成演算法要求的資料。數值型資料：歸一化標準化缺失值類別型資料：one-hot編碼時間型別：時間的切分特徵選擇的意義在對資料進行異常值、缺失值、資料轉換等處理後，我們

特徵工程之特徵抽取

機器學習(Machine Learning, ML)是一門多領域交叉學科，涉及概率論、統計學、逼近論、凸分析、演算法複雜度理論等多門學科。專門研究計算機怎樣模擬或實現人類的學習行為，以獲取新的知識或技能，重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心，是使

面對各種資料怎麼處理 : 特徵工程之特徵表達

作者：劉建平編輯：陳人和授權轉發自：劉建平《特

資料探勘篇——特徵工程之特徵降維

在業界廣泛流傳著一句話：資料和特徵決定了機器學習的上限，而模型和演算法只是逼近這個上限而已。由此可見，資料和特徵是多麼的重要，而在資料大多數場景下，資料已經就緒，不同人對於同樣的資料處理得到的特徵卻千差萬別，最終得到的建模效果也是高低立現。從資料到特徵這就要從特徵工程說起了...

Alink漫談(九) ：特徵工程之特徵雜湊/標準化縮放

# Alink漫談(九) ：特徵工程之特徵雜湊/標準化縮放 [Toc] ## 0x00 摘要 Alink 是阿里巴巴基於實時計算引擎 Flink 研發的新一代機器學習演算法平臺，是業界首個同時支援批式演算法、流式演算法的機器學習平臺。本文將剖析Alink “特徵工程” 部分對應程式碼實現。 ## 0x