1. 程式人生 > >周志華機器學習讀後總結 第10、11章

周志華機器學習讀後總結 第10、11章

降維與度量學習

什麼是降維學習

降維是一種分類演算法,它是一種解決維數災難的重要途徑。例如二維資料經過投影變為一維資料從而更好的表徵資料的特徵,然後再進行識別;這就利用了降維的方法。

K鄰近學習

k近鄰學習是一種監督學習演算法,它給定測試樣本,基於某種距離度量找出與訓練集最靠近的k個訓練樣本,然後基於這k個鄰居資訊來進行預測。K鄰近學習方法有投票法(通常在分類任務中使用,判別方法是選擇這k個樣本中出現最多的類別標記作為預測結果),平均法(通常在迴歸任務中使用,判別方法是將這k個樣本的實值輸出標記的平均值作為預測結果),加權平均或加權投票(根據距離遠近來決定權重,距離越近,權重越大)。

低維嵌入

在很多時候,人們觀測或收集到的資料樣本雖是高維的,但與學習任務密切相關的也許僅是某個低維分佈,即高維空間中的一個低維嵌入。

    一種經典的降維方法是多維縮放(MDS)演算法,一般來說欲獲得低維子空間,最簡單的是對原始高維空間進行線性變換。

主成分分析

主成分分析法(PCA)是最常用的一種降維方法:對於一組樣本,如果存在一個超平面使得樣本在上邊的距離都足夠近(最近重構性)或者投影都儘可能分開(最大可分性),那麼這個超平面是對這組樣本的一個很恰當的表示。那麼這個超平面本身可以被看作是降維的目標空間,記該超平面由n 維的正交基向量構成的矩陣W = {w1,w2,...,wn},那麼主成分分析降維演算法(

PCA)就是要找到這組正交基向量。

核化線性降維

在很多問題上,可能需要非線性對映才能找到恰當的低維嵌入。那麼非線性降維常用的一種方法,就是基於核技巧對線性降維方法進行“核化”。例如核主成分分析(KPCA)。

流形學習

流行學習是一類借鑑了拓撲流形概念的降維方法,有兩種著名的流形學習方法:等度量對映和區域性線性嵌入。

等度量對映(isomap)演算法:給定樣本集D={x1,x2,…,xm},近鄰引數k,低維空間維數d/àm次的for迴圈內執行:確定xik近鄰;xik近鄰點之間的距離設定為歐氏距離,與其他點的距離設定為無窮大à呼叫最短路徑演算法計算任意兩樣本點之間的距離à將計算出來的距離作為

MDS演算法的輸入à返回MDS演算法的輸出。

區域性線性嵌入(LLE)演算法:區域性線性嵌入演算法試圖保持領域內樣本之間的線性關係。

度量學習

在機器學習中,對高維資料進行降維的主要目的是希望找到一個合適的低維空間,在此空間中進行學習能比原始空間效能更好。事實上,每個空間對應了在樣本屬性上定義的一個距離度量,而尋找合適的空間,實質上就是在尋找一個合適的距離度量。因此我們可以嘗試直接學習出一個合適的距離度量。也就是度量學習。欲對距離度量進行學習,我們需要為樣本之間的距離計算加上權重,並可以根據具體樣本來對權重進行訓練,這個權重構成的矩陣我們稱為度量矩陣。度量學習的目的就是計算出合適的度量矩陣,在實際計算時,我們可以將度量矩陣直接嵌入到近鄰分類器的評價體系中去,通過優化該效能指標相應的求得度量矩陣。

特徵選擇與稀疏學習

什麼是特徵選擇

對當前學習任務有用的屬性稱為相關特徵,沒什麼用的屬性稱為無關特徵;從給定的特徵集合中選擇出相關特徵子集的過程稱為特徵選擇。特徵選擇過程必須確保不丟失重要特徵。

進行特徵選擇有兩個好處:第一,維數災難問題會大為減輕;第二,會降低學習任務的難度。

將特徵子集搜尋與子集評價機制相結合,即可得到特徵選擇方法;常見的特徵選擇方法可分為三類:過濾式、包裹式和嵌入式。

過濾式選擇

過濾式方法先對資料集進行特徵選擇,然後再訓練學習器,特徵選擇過程與後續學習器無關;這相當於先用特徵選擇過程對初始特徵進行過濾,再用過濾後的特徵來訓練模型。Relief是一種著名的過濾式特徵選擇方法。

包裹式選擇

包裹式特徵選擇直接把最終將要使用的學習器的效能作為特徵子集的評價準則。換言之,包裹式特徵選擇的目的就是為給定學習器選擇最有利於其效能、量身定做的特徵子集。LVW是一個典型的包裹式特徵選擇方法。

嵌入式選擇與L1正則化

嵌入式特徵選擇是將特徵選擇過程與學習器訓練過程融為一體,通過PGD能使LASSO和其他基於L1範數最小化的方法得以快速求解。

稀疏表示與字典學習

資料集有稀疏表達形式時,能使大多數問題線性可分,並且稀疏樣本不會造成儲存上的巨大負擔。特徵選擇所考慮問題是特徵具有稀疏性。

    為普通稠密表達的樣本找到合適的字典,將樣本轉化為合適的稀疏表示形式,從而使學習任務得以簡化,模型複雜度得以降低,通常稱為字典學習。

壓縮感知

壓縮感知關注的是如何利用訊號本身所具有的稀疏性,從部分觀測樣本中恢復原訊號。壓縮感知分為感知測量和重構恢復這兩個階段。