1. 程式人生 > >特徵選擇與稀疏學習

特徵選擇與稀疏學習

特徵選擇與稀疏學習

特徵子集搜尋機制子集評價機制相結合,即可得到特徵選擇方法。

常見的特徵選擇方法大致可分為三類:過濾式(filter)、包裹式(wrapper)和嵌入式(embedding)

過濾式選擇

先用特徵選擇過程對初始特徵進行“過濾”,再用過濾後的特徵來訓練模型。

Relief: 設計了一個“相關統計量”來度量特徵的重要性。該統計量是一個向量,其每個分量分別對應一個初始特徵,而特徵子集的重要性則是由子集中每個特徵所對應的相關統計量分量之和來決定。Relief的關鍵是如何確定相關統計量

 

猜中近鄰(Xi,nh)

猜錯近鄰(Xi,nm)

Xi在j上等於Xi,nh,不等於Xi,nm,diff=1,  對區分A,B類有益

Xi在j上不等於Xi,nh,等於Xi,nm,diff=-1,  對區分A,B類無益

Xi在j上不等於Xi,nh,不等於Xi,nm,diff=0  對區分A,B類無益

Xi在j上等於Xi,nh,等於Xi,nm,diff=0,  對區分A,B類無益

若Xi與其猜中近鄰Xi,nh在屬性j上的距離小於Xi與其猜錯近鄰Xi,nm的距離,則說明屬性j對區分同類與異類樣本是有益的。於是,增大屬性j所對應的統計量分量,反之,說明屬性j起負面作用,於是減小屬性j所對應的統計量分量。最後,對基於不同樣本得到的估計結果進行平均,就得到各屬性的相關統計量分量,分量值越大,則對應屬性的分類能力就越強。

Relief只需在資料集取樣上而不必在整個資料集上估計相關統計量,Relief的時間開銷隨取樣次數以及原始特徵數線性增長,因此是一個執行效率很高的過濾式特徵選擇演算法。

Relief是為二分類問題設計的,其擴充套件變體Relief-F能處理多分類問題。

最終只需指定一個閾值R,選擇比R大的相關統計量所對應的特徵,也可指定欲選取的特徵個數k,然後選擇相關統計量分量最大的k個特徵。

包裹式選擇

直接把最終將要使用的學習器的效能作為特徵子集的評價準則。

LVW(1996):它在拉斯維加斯方法框架下使用隨機策略來進行子集搜尋,並以最終分類器的誤差為特徵子集評價準則。

 補充: 拉斯維加斯方法

從最終學習器效能來看,包裹式特徵選擇比過濾式特徵選擇更好,但由於LVW演算法中特徵子集搜尋採用了隨機策略,而每次特徵子集評價都需要訓練學習器,計算開銷很大,因此演算法設定了停止條件控制引數T,然而整個LVW演算法是基於拉斯維加斯方法框架,若初始特徵數很多,T設定很大,則演算法可能執行很長時間都達不到停止條件。

嵌入式選擇

將特徵選擇過程與學習器訓練過程融為一體,兩者在同一個優化過程中完成,即在學習器訓練過程中自動進行了特徵選擇。

 

 

 

 

稀疏表示與字典學習

若將資料集D看作一個矩陣,特徵選擇所考慮的問題是特徵具有‘稀疏性’,即矩陣中的許多列與當前學習任務無關,通過特徵選擇去除這些列,則學習器訓練過程僅需在較小的矩陣上進行,學習任務的難度可能有所降低,涉及的計算和儲存開銷會減少,學得模型的可解釋性也會提高。另一種稀疏性:D所對應的矩陣中存在很多0元素,但這些0元素並不是以整行、整列形式存在的。