1. 程式人生 > >粒子群優化演算法(PSO)之基於離散化的特徵選擇(FS)(二)

粒子群優化演算法(PSO)之基於離散化的特徵選擇(FS)(二)

作者:Geppetto
這裡寫圖片描述
前面我們介紹了特徵選擇(Feature Selection,FS)與離散化資料的重要性,總覽的介紹了PSO在FS中的重要性和一些常用的方法。今天講一講FS與離散化的背景,介紹本文所採用的基於熵的切割點和最小描述長度原則(MDLP)。

A.特徵選擇

特徵選擇是一個組合優化問題,因為在具有N個特徵的資料集上有2N個可能的不同特徵子集。FS方法通常有兩個重要的部分組成,即搜尋技術和特徵評估方法。

在特徵評估方面,FS方法通常可以分為過濾(filter)和包裝(wrapper)方法。過濾法基於它們的內在特性來評估特性。過濾措施的例子有距離、資訊增益、一致性和相關性。另一方面,包裝法使用一種學習演算法來度量所選特性的分類效能。在這個過程中可以使用不同的學習演算法,比如k近鄰(KNN)、決策樹和支援向量機。一般來說,過濾器方法比包裝器方法更快,然而,它們通常比包裝器獲得更低的分類精度。

在FS方法中搜索技術可以分為窮舉搜尋、啟發式搜尋、隨機搜尋和隨機搜尋。雖然窮舉搜尋保證找到最好的解決方案,但是由於它的計算時間太高,對大多數實際應用程式來說是不可行的。序列搜尋如線性正向選擇(LFS)和貪婪逐步逆向選擇(GSBS)是啟發式搜尋的典型方法。這兩種方法分別是序列正向選擇(SFS)和序列逆向選擇的派生版本。LFS通過限制每個步驟中考慮的特性的數量來提高SFS的有效性和效率。雖然向後選擇可以考慮特性互動,而不是向前選擇,但是對具有大量特性的資料集應用是不切實際的。GSBS不能在一個星期內完成,它執行在具有數百個特徵的資料集上。另外,前後策略通常都要面對區域性最優的問題。

隨機搜尋可能會以一種完全隨機的方式生成子集,使用Las Vegas演算法,比如LVW,在一個大的搜尋空間中,它的收斂速度太慢。與隨機生成不同,EC是一種隨機的方法,它應用進化原理或群智慧來從當前的子集生成更好的子集。PSO是一種應用於FS的群體智慧技術,並顯示了其有效性。大家可以通過使用EC技術對FS的不同策略進行更全面的調查。雖然PSO已經成功地應用於不同的優化問題,包括FS,但它還沒有應用於離散化。

B.特徵離散化

特徵離散化是一個研究歷史悠久的話題。在此領域提出了許多不同策略的離散化方法。但是,它們都具有相同的目的,即確定將特徵值分割為離散值的分割點。在特徵值的範圍內,分割點或分點是真正的值,這些值被用來分割這個範圍到若干個間隔。現有的離散化方法可以使用不同的標準進行分類。在直接方法中,間隔是基於預定義的引數生成的。另一方面,增量方法遞迴地分離(或合併)間隔,直到滿足一些標準,從而產生分裂(或合併)方法。它們也被稱為自頂向下或自底向上的方法。根據是否在離散化過程中使用類標籤,對離散化方法進行監督或無監督。如果在每個離散化步驟中使用整個例項空間,或者如果每個離散步驟只使用一個例項子集,那麼它將是全域性的。一種方法也屬於單變數或多變數,這取決於特徵是離散的還是多個特性的離散化,同時考慮特徵之間的互動。

等寬和等頻是兩種簡單的無監督方法。它們將特性離散為一個預定義的m間隔,具有相同的寬度或相同數量的值。這些簡單的方法易於實現,但對m的值敏感,通常很難確定,尤其是當特性不是均勻分佈或包含異常值時。

使用類標籤作為搜尋切割點的引導,監督離散化通常比無監督的匹配要好。在不同的類的邊界上定義了切點的特徵值。除了不同的搜尋技術,還有分類錯誤率、資訊增益和統計度量等不同的評價方法。

在受監督的方法中,Fayyad和Irani提出的最小描述長度(MDL)是最常用的方法之一。它是一種基於熵的增量分割離散化方法。利用資訊增益來評價候選點。MDL遞迴地選擇最佳的切點,將一個間隔分割為兩個,直到實現MDLP。受此策略啟發,我們建議使用由MDLP所接受的基於熵的切點作為BBPSO的初始或候選切入點。

C.基於熵的切割點

基於熵的離散化的目的是找到最佳的分割,以便離散化的特性在類標籤上儘可能的純粹。這意味著在一個區間內的大多數值都更傾向於具有相同的類標籤。如果用熵E(S)來衡量集合S的純度,那麼根據這一標準,獲得最高資訊增益的切點是最好的。以下公式用於計算特徵A的切點T的資訊增益,作為特徵值的集合。S1和S2是S分割槽的子集。

D.通過離散化來進行特徵選擇

雖然FS和離散化是近幾十年來新興的領域,但是結合這些任務的方法並沒有引起足夠的重視。Chi2是通過離散化提出FS的第一個方法。它是一種自下而上的方法,從只有一個特徵值的間隔開始。然後相鄰間隔χ2最低的測試結果將合併後的遞迴,直到χ2值對超過一個閾值。此閾值是通過試圖維護資料的預定義一致性級別來確定的。通過釋放這個一致性級別,Chi2可以提出只有一個間隔的特徵,可以為FS移除。結果表明,在兩個合成數據集上,Chi2有效地消除了相關特徵,消除了所有的噪聲特徵。然而,使用者定義的不一致率很難預先定義,也可能導致離散化過程的不準確。改進的Chi2 (MChi2)是一種完全自動的離散化方法,解決了Chi2的缺點。

另一種通過離散化的方法是基於離散化過程中計算出的一些度量方法進行排序。然後,將選擇一些級別最高的特徵。這個方法的一個例子是PEAR,其中的特性是從最小的切點數量到最大的。頂級的特徵被認為是相關的,並被選擇形成最終的子集。結果表明,該演算法具有與原特性集相似的效能,且效果較好。但是,很難為PEAR選擇合適的引數,以及應該選擇哪些特性來形成最終子集。同樣,特徵根據原始連續值的方差和用於編碼離散特徵的位元數的比值進行排序。

綜上所述,通過離散化的特徵選擇在兩個不同的階段。但是,將他們整合到同一個階段的研究目前還沒有。

E.粒子群優化演算法

具體可參考本人文章“計算智慧(CI)之粒子群優化演算法(PSO)”。本篇文章將不再贅述。

參考文獻:

文章:“A New Representation in PSO for Discretization-Based Feature Selection”

作者:Binh Tran, Student Member, IEEE, Bing Xue, Member, IEEE, and Mengjie Zhang, Senior Member, IEEE