1. 程式人生 > >機器學習中一些方向以及方法的大體解釋

機器學習中一些方向以及方法的大體解釋

子空間學習:subspace learning

(1) 子空間學習是指通過投影實現高維特徵向低維空間的對映,是一種經典的降維思想

例如人臉影象,如果每幅影象提取出來的特徵是1000維,則每幅影象對應著1000維空間中的一個點。維數太高給計算帶來很多問題,且很多人認為真實有效的人臉影象特徵並沒有那麼高維,可能只有100維,即每幅人臉只是100維空間中的一個點。將特徵從1000維壓縮到100維,就是子空間學習問題。在模式識別中,可能絕大多數的維數約簡(降維,投影)演算法都算是子空間學習,如PCA, LDA, LPP, LLE等等。子空間學習的主要問題,就是如何將特徵從高維空間壓縮到低維空間,需要保留什麼樣的資訊,設定什麼樣的準則,低維空間的特徵具有哪些特徵等問題。

(2)子空間學習: 舉例說明,比如你拿到了一組資料要做分類任務,然而資料分佈在一個高維空間中,不太方便處理,維度太高導致採用的分類模型的複雜度也相應增高,最終導致分類模型容易過擬合。一般情況下,這個問題無法解決,但是資料中往往存在一些特性使得這個問題又有了可以解決的希望,比如資料其實分佈在高維空間的一個子空間中,你拿到的高維資料其實是子空間中的無噪聲資料+高維噪聲資料,而這個子空間的維度其實不是很大,那麼找出這個子空間,就能保證儘量不丟失資訊又能降低資料維度,在這個子空間中做訓練,就可以降低過擬合現象。常見的PCA LDA LLE 等都是基於spectral method(譜方法)的子空間學習方法,往往可以看做是kernel pca的特例。還有一類子空間學習方法是R. Vidal做的SSC(subspace clustering)系列,有相應的理論保證。廣義上,子空間學習就是降維。

 

子空間分割:subspace segmentation

通常,在做子空間分割時,我們希望求取的表示係數矩陣(by稀疏表示低秩表示正則化最小二乘以及其它改進版本)成塊對角結構,這樣塊的個數就等於子空間的維數(也即clustering number)。理想情況下,表示係數矩陣的秩應該等於子空間的維數,這樣可達100%的分割效果。

 

子空間聚類:subspace clustering

聚類分析是資料探勘領域中的關鍵技術之一。高維資料聚類是聚類分析技術的難點和重點,子空間聚類是實現高維資料集聚類的有效途徑,它是在高維資料空間中對傳統聚類演算法的一種擴充套件,其思想是將搜尋區域性化在相關維中進行。

根據演算法思想,傳統的聚類演算法可分以下五類 :① 劃分方法:將資料集隨機劃分為k個子集,隨後通過迭代重定位技術試圖將資料物件從一個簇移到另一個簇來不斷改進聚類的質量;②層次方法:對給定的資料物件集合進行層次的分解,根據層次的形成方法,又可以分為凝聚和分裂方法兩大類;③基於密度的方法:根據領域物件的密度或者某種密度函式來生成聚類,使得每個類在給定範圍的區域內必須至少包含一定數目的點;④基於網格的方法:將物件空間量化為有限數目的單元,形成一個網格結構,使所有聚類操作都在這個網格結構上進行,使聚類速度得到較大提高;⑤基於模型的方法:為每個類假定一個模型,尋找資料對給定模型的最佳擬合。

目前,聚類分析的研究集中在聚類方法的可伸縮性、對複雜形狀和型別的資料進行聚類的有效性、高維聚類分析技術以及混合資料的聚類方法研究,其中,高維資料聚類是聚類分析的難題,也是涉及到聚類演算法是否適用於很多領域的關鍵。而傳統聚類演算法對高維資料空間進行聚類時會遇到困難,為了解決這個問題,R.Agrawal首次提出了子空間聚類的概念 ,以解決高維資料的聚類問題。

傳統聚類方法在高維資料集中進行聚類時,主要遇到兩個問題。①高維資料集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零;②高維空間中資料較低維空間中資料分佈要稀疏,其中資料間距離幾乎相等是普遍現象,而傳統聚類方法是基於距離進行聚類的,因此在高維空間中無法基於距離來構建簇。

目前一般使用兩種方法解決以上問題:(1)特徵轉換,(2)特徵選擇 /子空間聚類

特徵選擇只在那些相關的子空間上執行挖掘任務,因此它比特徵轉換更有效地減少維。特徵選擇一般使用貪心策略等搜尋方法搜尋不同的特徵子空間,然後使用一些標準來評價這些子空間,從而找到所需的簇。

子空間聚類演算法拓展了特徵選擇的任務,嘗試在相同資料集的不同子空間上發現聚類。和特徵選擇一樣,子空間聚類需要使用一種搜尋策略和評測標準來篩選出需要聚類的簇,不過考慮到不同簇存在於不同的子空間,需要對評測標準做一些限制。

選擇的搜尋策略對聚類結果有很大的影響。根據搜尋的方向的不同,可以將子空間聚類方法分成兩大類:自頂向下的搜尋策略和自底向上的搜尋策略。

 

人臉識別:face recognition

人臉識別,是基於人的臉部特徵資訊進行身份識別的一種生物識別技術。用攝像機或攝像頭採集含有人臉的影象或視訊流,並自動在影象中檢測和跟蹤人臉,進而對檢測到的人臉進行臉部識別的一系列相關技術,通常也叫做人像識別、面部識別。

 

譜聚類:spectral clustering

譜聚類演算法建立在譜圖理論基礎上,與傳統的聚類演算法相比,它具有能在任意形狀的樣本空間上聚類且收斂於全域性最優解的優點。

該演算法首先根據給定的樣本資料集定義一個描述成對資料點相似度的親合矩陣,並且計算矩陣的特徵值特徵向量 , 然後選擇合適 的特徵向量聚類不同的資料點。譜聚類演算法最初用於計算機視覺 、VLS I 設計等領域, 最近才開始用於機器學習中,並迅速成為國際上機器學習領域的研究熱點

譜聚類演算法建立在圖論中的譜圖理論基礎上,其本質是將聚類問題轉化為圖的最優劃分問題,是一種點對聚類演算法,對資料聚類具有很好的應用前景。

 

譜圖:laplacian graph

譜圖是光、聲音或其他訊號的視覺表示,其隨著時間或其他變數的變化。

光譜圖在光學中被科學地用於描述通過稜鏡後可見光中的彩虹。由於科學的光學理解,它適用於整個電磁波譜

頻譜圖有時被稱為頻譜瀑布、聲波紋或語音圖。頻譜圖常用於在語音上識別口語,並分析動物的各種呼喚。 它們廣泛用於音樂聲納雷達和語音處理領域的發展,地震學等。

在數學中,矩陣的譜圖是矩陣的特徵值的多重集合。

在功能分析中,有界運算子的譜圖概念是矩陣特徵值概念的泛化。

 

 

流形學習:manifold learning

流形學習,全稱流形學習方法(Manifold Learning),自2000年在著名的科學雜誌《Science》被首次提出以來,已成為資訊科學領域的研究熱點。在理論和應用上,流形學習方法都具有重要的研究意義。假設資料是均勻取樣於一個高維歐氏空間中的低維流形,流形學習就是從高維取樣資料中恢復低維流形結構,即找到高維空間中的低維流形,並求出相應的嵌入對映,以實現維數約簡或者資料視覺化。它是從觀測到的現象中去尋找事物的本質,找到產生資料的內在規律。

流形學習方法是模式識別中的基本方法,分為線性流形學習演算法和非線性流形學習演算法,非線性流形學習演算法包括等距對映(Isomap) [1]  ,拉普拉斯特徵對映(Laplacian eigenmaps,LE) [2]  ,區域性線性嵌入(Locally-linear embedding,LLE) [3] 等。而線性方法則是對非線性方法的線性擴充套件,如主成分分析(Principal component analysis,PCA),多維尺度變換(Multidimensional scaling,MDS)等。

 

判別分析:discriminant analysis

判別分析又稱“分辨法”,是在分類確定的條件下,根據某一研究物件的各種特徵值判別其型別歸屬問題的一種多變數統計分析方法。

其基本原理是按照一定的判別準則,建立一個或多個判別函式,用研究物件的大量資料確定判別函式中的待定係數,並計算判別指標。據此即可確定某一樣本屬於何類。

當得到一個新的樣品資料,要確定該樣品屬於已知型別中哪一類,這類問題屬於判別分析問題。

 

主成分分析 principal component analysisPCA

主成分分析(Principal Component Analysis,PCA), 是一種統計方法。通過正交變換將一組可能存在相關性的變數轉換為一組線性不相關的變數,轉換後的這組變數叫主成分。

在實際課題中,為了全面分析問題,往往提出很多與此有關的變數(或因素),因為每個變數都在不同程度上反映這個課題的某些資訊。

主成分分析首先是由K.皮爾森(Karl Pearson)對非隨機變數引入的,爾後H.霍特林將此方法推廣到隨機向量的情形。資訊的大小通常用離差平方和方差來衡量。

 

原理:在用統計分析方法研究多變數的課題時,變數個數太多就會增加課題的複雜性。人們自然希望變數個數較少而得到的資訊較多。在很多情形,變數之間是有一定的相關關係的,當兩個變數之間有一定相關關係時,可以解釋為這兩個變數反映此課題的資訊有一定的重疊。主成分分析是對於原先提出的所有變數,將重複的變數(關係緊密的變數)刪去多餘,建立儘可能少的新變數,使得這些新變數是兩兩不相關的,而且這些新變數在反映課題的資訊方面儘可能保持原有的資訊。

設法將原來變數重新組合成一組新的互相無關的幾個綜合變數,同時根據實際需要從中可以取出幾個較少的綜合變數儘可能多地反映原來變數的資訊的統計方法叫做主成分分析或稱主分量分析,也是數學上用來降維的一種方法。

 

特徵提取 feature extraction

特徵提取是計算機視覺影象處理中的一個概念。它指的是使用計算機提取影象資訊,決定每個影象的點是否屬於一個影象特徵。特徵提取的結果是把影象上的點分為不同的子集,這些子集往往屬於孤立的點、連續的曲線或者連續的區域。

特徵的精確定義往往由問題或者應用型別決定。特徵是一個數字影象中“有趣”的部分,它是許多計算機影象分析演算法的起點。因此一個演算法是否成功往往由它使用和定義的特徵決定。因此特徵提取最重要的一個特性是“可重複性”:同一場景的不同影象所提取的特徵應該是相同的。

 

維數約簡  dimensionality reduction

維數約簡又稱為降維,是機器學習的一種必要手段。若資料庫X是屬於n維空間的,通過特徵提取或者特徵選擇的方法,將原空間的維數降至m維,要求n遠大於m,滿足:m維空間的特效能反映原空間資料的特徵,這個過程稱之為維數約簡。

維數約簡是相對於維數災難或者說是高維資料來提出的,很明顯,其意義就是降低原來的維數,並保證原資料庫的完整性,在約簡後的空間中執行後續程式將大大減少運算量,提高資料探勘效率,且挖掘出來的結果與原有資料集所獲得結果基本一致。更廣泛的說就是防止了維數災難的發生。

資料維數約簡的方法可以分為線性維數約簡和非線性維數約簡,而非線性維數約簡又分為基於核函式的方法和基於特徵值的方法。線性維數約簡的方法主要有主成分分析(PCA)、獨立成分分析(ICA)、線性判別分析(LDA)、區域性特徵分析(LFA)等等。基於核函式的非線性維數約簡方法有基於核函式的主成分分(KPCA)、基於核函式的獨立成分分析(KICA)、基於核函式的決策分析(KDA)等等。基於特徵值的非線性降維方法有ISOMAP 和LLE。

 

稀疏表示 sparse representation

訊號稀疏表示是過去近20年來訊號處理界一個非常引人關注的研究領域,眾多研究論文和專題研討會表明了該領域的蓬勃發展。訊號稀疏表示的目的就是在給定的超完備字典中用盡可能少的原子來表示訊號,可以獲得訊號更為簡潔的表示方式,從而使我們更容易地獲取訊號中所蘊含的資訊,更方便進一步對訊號進行加工處理,如壓縮編碼等。

現有稀疏表示模型一般形式如下:

X=argmin||y-Dx||k+λ||x||

其中,y 為觀測資料, D 為字典, x 為待估稀疏向量, λ 為正則引數, k (1≤ k<2 )為稀疏度量。其中,
  λ 與 k 未知, 需要預先確定( 雖然通常取 k =1 , 但 k <1 時模型更加靈活)。對該模型的理論研究, 主要包括模型解與 l0 範數最小化解的逼近程度、 稀疏表示模型解的唯一性與穩定性等。但是, 在一些具體的應用如影象增強與測控資源優化配置中, 稀疏度量並不是唯一且最重要的指標。

稀疏表示研究的熱點包括模型的近似表示、模型解的唯一性與穩定性、稀 疏 表 示 的 性 能 分 析、模 型 求 解 演算法 、字典學習演算法、稀疏分解演算法、超完備原子字典、 稀疏表示的具體應用以及緊密聯絡的壓縮感測 等方面。其中,具體的應用包括: 影象處理( 如壓縮、 增強與超分辨) 、音訊處理( 如盲源分離) 與模式識別( 如人臉與手勢識別) 等。從實用角度看,具有針對性的靈活模型、 計算速度、 自適應以及高效能表示結果是稀疏表示方法在應用領域發揮其優勢的關鍵問題。