1. 程式人生 > >LVW(Las Vegas Wrapper)特徵選擇演算法簡單介紹

LVW(Las Vegas Wrapper)特徵選擇演算法簡單介紹

  LVW(Las Vegas Wrapper)是一種典型的包裹式特徵選擇方法,它在拉斯維加斯方法框架下使用隨機策略來進行子集搜尋,並以最終分類器的誤差為特徵子集評價準則。

1、拉斯維加斯方法概述

  LVW 基於拉斯維加斯方法的框架,拉斯維加斯方法是一個典型的隨機化方法,即概率演算法中的一種。它具有概率演算法的特點,允許演算法在執行的過程中隨機選擇下一步,許多情況下,當演算法在執行過程中面臨一個選擇時,隨機性選擇常比最優選擇要省時,因此概率演算法可在很大程度上降低演算法的複雜度。
  
  拉斯維加斯方法和蒙特卡洛方法是兩個以著名賭場命名的隨機化方法,兩者的比較與分析如下:
  (1)與蒙特卡羅演算法類似,拉斯維加斯演算法找到正確解的概率隨著它所用的計算時間的增加而提高。對於所求解問題的任一例項,用同一拉斯維加斯演算法反覆對該例項求解足夠多次,可使求解失敗的概率任意小。
  (2)拉斯維加斯演算法不會得到不正確的解,一旦用拉斯維加斯演算法找到一個解,那麼這個解一定就是正確的解,但有時用拉斯維加斯演算法找不到解。而蒙特卡洛方法一定會給出解,雖然給出的解未必滿足要求。若無時間限制,則兩者都能給出滿足要求的解。

2、LVW 演算法

  LVW 基於拉斯維加斯方法的框架,假設資料集為 D,特徵集為 A,則 LVW 每次從特徵集 A 中隨機產生一個特徵子集 A,然後使用交叉驗證的方法(虛擬碼的第 8 步)估計學習器在特徵子集 A 上的誤差,若該誤差小於之前獲得的最小誤差,或者與之前的最小誤差相當但 A 中包含的特徵數更少,則將 A 保留下來。
  
  演算法的虛擬碼如下所示:


  由於 LVW 演算法每次評價子集 A 時,都需要重新訓練學習器,計算開銷很大,因此設定了引數 T 來控制停止條件。但當特徵數很多(即 |A| 很大)並且 T 設定得很大時,可能演算法執行很長時間都不能停止。

【參考文獻】
《機器學習》周志華著.–北京:清華大學出版社