1. 程式人生 > >秋招總結問題一:為什麼需要特徵選擇?特徵選擇有哪些?

秋招總結問題一:為什麼需要特徵選擇?特徵選擇有哪些?

1.為什麼需要特徵選擇?特徵選擇有哪些? 第一個問題:①在現實任務中經常會遇到維數災難問題,屬性過多造成的。 ②可以降低學習任務的難度。不相關的特徵就是噪聲。 第二個問題:過濾式,包裹式,嵌入式 特徵選擇分為兩個部分,一個是子集搜尋,一個是子集評價。子集搜尋有前向搜尋,後向搜尋,雙向搜尋,但是都是貪心的。子集評價是通過計算屬性的資訊增益。即使用該特徵後,降低了訓練樣本的不確定性。資訊增益越大表明該特徵對於分類作用越好。 過濾式特徵選擇:RelifF思想:使類與類之間距離越大,類內差距小。對每個訓練資料找到其猜中近鄰(near-hit)和猜錯近鄰(near-miss). 從公式可以看出,和猜錯近鄰的差距越大,那麼該特徵的重要性越高,和猜對近鄰的差距越小,那麼該特徵的重要性越大。 注:使用RelifF需要對特徵進行歸一化。 包裹式特徵選擇:Las Vegas Wrapper(拉斯維加斯包裹):目的選擇最多的資訊,最少的特徵。

與模型的關係	計算開銷	效果

過濾式 獨立於模型 小 包裹式 為模型量身定做 大 優於過濾式 嵌入式 與模型融為一體 中