1. 程式人生 > >無監督學習:無監督降維

無監督學習:無監督降維

1.前言

如果輸入樣本x的維數增加的話,不論是什麼機器學習演算法,其學習時間都會增加,學習過程也會變得更加困難。例如,假設在一維空間的{0,1}區間裡有5個訓練樣本。以相同的密度在d次維空間裡配置相同種類的訓練樣本的話,最終的樣本數目就達到了5^d個。如下圖所示:
高維空間的一個例子。當維數d很大的時候,收集並計算多達5^d個的訓練樣本是相當 困難的。因此,在高維空間中,訓練樣本也經常已悉數的方式進行配置 即便維數d=10 ,樣本總數也已經高達5^10(≈10000000)了。收集並計算這麼多的訓練樣本,是一件相當困難的事情。因此,在高維空間裡,訓練樣本也經常以稀疏的方式加以配置。 另外,高維空間也不如低維空間那樣容易給人直觀的直覺。
綜上,高維資料的處理是相當困難的,一般稱為維數災難。為了使機器學習演算法從維數災難中解放出來,一般採用的有效方法是保持輸入資料中包含的所有資訊,對其維數進行削減。 本篇部落格著眼於無監督的降維方法。

2.線性降維原理

無監督降維的目的,是把高維的訓練輸入樣本{xi}變換為低維的訓練樣本{zi},並在降維後還能儘可能的保持其原本包含的資訊。通過xi的線性變換求解zi的時候,即使用維數為m*d的投影矩陣T求解zi。公式為:
線性降維,使用長方形的矩陣T進行降維,與向區域性線性空間的投影相對應 為了簡便起見,假定訓練輸入樣本{xi}的平均值為0.
如果平均值不是零的話,則預先減去平均值,使訓練輸入樣本的平均值保持為零。(中心化)


資料的中心化

3.主成分分析

主成分分析法,是儘可能地忠實再現原始資料的所有資訊的降維方法,如下圖:
主成分分析是儘可能地忠實再現原始資料的所有資訊的降維方法 具體而言,就是在降維後的輸入zi是原始訓練輸入樣本xi的正投影這一約束條件下,設計投影矩陣T。讓zi與xi儘可能相似i.zi是xi的正投影這一假設,與投影矩陣T滿足T*T'=Im是等價的,其中,Im是指m*m的單位矩陣。 然而,當zi與xi的維度不一樣的時候,並不能直接計算其平方誤差。因此,一般先把m次維的zi通過T'變換到d次維空間,在計算其與xi的距離所有樣本的T'zi(T*T'xi)與xi的平方距離的和,可以通過下式表示:

注意:線上性代數中,一個n×n矩陣A的主對角線上各個元素的總和被稱為矩陣A的跡(或跡數),一般記作tr(A)。 其中,C為訓練樣本的協方差矩陣:
綜合以上過程,主成分分析的學習過程可以用下式進行表示:
這裡考慮到矩陣C的固定值的問題
將固定值與相對應的固定相良分別表示為λ1≥...≥λd≥0和ξ1≥...≥ξd。 這樣主成分分析的階就可以通過下式求得:
也就是說,主成分分析的投影矩陣,是通過向訓練輸入樣本的協方差矩陣C中的較大的m個固定值所對應的固定相良張成德區域性空間正投影而得到的。與此相反,通過把較小的固定值所對應的固定相良進行削減,與原始樣本的偏離就可以達到最小。 下面展示的是一個主成分分析的例項:
直線表示的是一維的正投影空間 在本例中,通過把d=2次維的資料降到m=1次維,使得到的結果儘可能地線上了原始資料的所有資訊。 另外,我們必須注意的是,主成分分析中求得的低維{zi},其各個元素質檢室無關聯的,相互獨立的,也就是說協方差矩陣是對角矩陣:

4.區域性保持投影

區域性保持投影利用訓練輸入樣本間的相似度資訊。訓練輸入樣本xi與xi'的相似度用Wi,i'表示。當xi與xi'較為相似的時候,Wi,i'為較大的值;當xi與xi'不是那麼相似的時候,Wi,i'為較小的值。相似度是對稱的。
區域性保持投影是能夠保護資料中的簇結構的線性降維方法
訓練輸入樣本{xi}間相似度的例項 在區域性保持投影中,認為相似度較高的樣本對的投影也較為相似,以此來決定投影矩陣T。具體而言,就是計算下式的值最小的時候對應的T:
然而,朝著這個方向求解的話,會得到T=O這樣不證自明的結果。
為了避免得到這樣退化的解,往往會加一個約束條件:
上式中,X是訓練輸入樣本的矩陣,D是以矩陣W的各行元素只和為對角元素的對角矩陣:
下圖表示的是與高斯相似度相對應的區域性保持投影的例項。在該例中,同樣也是把d=2維的資料降到m=1維,使得結果很好的保留了原始資料簇構造的資訊。

5.核函式主成分分析

這裡介紹通過在核對映方法裡引入主成分分析,來進行非線性降維的核函式的主成分分析法。即把訓練集{xi}通過非線性函式進行變換,在變換後的特徵空間裡進行主成分分析。通過這樣的方法,就可以在原始訓練樣本的特徵空間中進行非線性降維操作。 例如,將普通的直角座標系中的二維輸入向量x=(x1,x2)'通過fun()變換為在極座標系(距原點的距離為r,角度為Θ)中,如下圖所示:
使用非線性資料進行非線性主成分分析例項。 X表示的是樣本;實線是通過主成分分析求得的一維子空間;O是樣本仙子空間的正投影 對原始的二維訓練樣本直接進行主成分分析,並不能很好滴捕捉到彎曲狀的資料分佈。而經過變換後,在極座標系下,資料樣本基本上筆直地串聯在一起。把特徵空間中的主成分分析結果返回到原始的輸入,就可以很好的捕捉到原始資料中彎曲狀的資料分佈。