無監督學習：無監督降維

阿新 • • 發佈：2019-02-15

1.前言

如果輸入樣本x的維數增加的話，不論是什麼機器學習演算法，其學習時間都會增加，學習過程也會變得更加困難。例如，假設在一維空間的{0,1}區間裡有5個訓練樣本。以相同的密度在d次維空間裡配置相同種類的訓練樣本的話，最終的樣本數目就達到了5^d個。如下圖所示：
高維空間的一個例子。當維數d很大的時候，收集並計算多達5^d個的訓練樣本是相當困難的。因此，在高維空間中，訓練樣本也經常已悉數的方式進行配置即便維數d=10 ，樣本總數也已經高達5^10（≈10000000）了。收集並計算這麼多的訓練樣本，是一件相當困難的事情。因此，在高維空間裡，訓練樣本也經常以稀疏的方式加以配置。另外，高維空間也不如低維空間那樣容易給人直觀的直覺。

綜上，高維資料的處理是相當困難的，一般稱為維數災難。為了使機器學習演算法從維數災難中解放出來，一般採用的有效方法是保持輸入資料中包含的所有資訊，對其維數進行削減。本篇部落格著眼於無監督的降維方法。

2.線性降維原理

無監督降維的目的，是把高維的訓練輸入樣本{xi}變換為低維的訓練樣本{zi},並在降維後還能儘可能的保持其原本包含的資訊。通過xi的線性變換求解zi的時候，即使用維數為m*d的投影矩陣T求解zi。公式為：
線性降維，使用長方形的矩陣T進行降維，與向區域性線性空間的投影相對應為了簡便起見，假定訓練輸入樣本{xi}的平均值為0.
如果平均值不是零的話，則預先減去平均值，使訓練輸入樣本的平均值保持為零。（中心化）

資料的中心化

3.主成分分析

主成分分析法，是儘可能地忠實再現原始資料的所有資訊的降維方法，如下圖：
主成分分析是儘可能地忠實再現原始資料的所有資訊的降維方法具體而言，就是在降維後的輸入zi是原始訓練輸入樣本xi的正投影這一約束條件下，設計投影矩陣T。讓zi與xi儘可能相似i.zi是xi的正投影這一假設，與投影矩陣T滿足T*T'=Im是等價的，其中，Im是指m*m的單位矩陣。然而，當zi與xi的維度不一樣的時候，並不能直接計算其平方誤差。因此，一般先把m次維的zi通過T'變換到d次維空間，在計算其與xi的距離所有樣本的T'zi(T*T'xi)與xi的平方距離的和，可以通過下式表示：

注意：線上性代數中，一個n×n矩陣A的主對角線上各個元素的總和被稱為矩陣A的跡（或跡數），一般記作tr(A)。 其中，C為訓練樣本的協方差矩陣：
綜合以上過程，主成分分析的學習過程可以用下式進行表示：
這裡考慮到矩陣C的固定值的問題
將固定值與相對應的固定相良分別表示為λ1≥...≥λd≥0和ξ1≥...≥ξd。這樣主成分分析的階就可以通過下式求得：
也就是說，主成分分析的投影矩陣，是通過向訓練輸入樣本的協方差矩陣C中的較大的m個固定值所對應的固定相良張成德區域性空間正投影而得到的。與此相反，通過把較小的固定值所對應的固定相良進行削減，與原始樣本的偏離就可以達到最小。下面展示的是一個主成分分析的例項：
直線表示的是一維的正投影空間在本例中，通過把d=2次維的資料降到m=1次維，使得到的結果儘可能地線上了原始資料的所有資訊。另外，我們必須注意的是，主成分分析中求得的低維{zi}，其各個元素質檢室無關聯的，相互獨立的，也就是說協方差矩陣是對角矩陣：

4.區域性保持投影

區域性保持投影利用訓練輸入樣本間的相似度資訊。訓練輸入樣本xi與xi'的相似度用Wi,i'表示。當xi與xi'較為相似的時候，Wi,i'為較大的值；當xi與xi'不是那麼相似的時候，Wi,i'為較小的值。相似度是對稱的。
區域性保持投影是能夠保護資料中的簇結構的線性降維方法
訓練輸入樣本{xi}間相似度的例項在區域性保持投影中，認為相似度較高的樣本對的投影也較為相似，以此來決定投影矩陣T。具體而言，就是計算下式的值最小的時候對應的T：
然而，朝著這個方向求解的話，會得到T=O這樣不證自明的結果。
為了避免得到這樣退化的解，往往會加一個約束條件：
上式中，X是訓練輸入樣本的矩陣，D是以矩陣W的各行元素只和為對角元素的對角矩陣：
下圖表示的是與高斯相似度相對應的區域性保持投影的例項。在該例中，同樣也是把d=2維的資料降到m=1維，使得結果很好的保留了原始資料簇構造的資訊。

5.核函式主成分分析

這裡介紹通過在核對映方法裡引入主成分分析，來進行非線性降維的核函式的主成分分析法。即把訓練集{xi}通過非線性函式進行變換，在變換後的特徵空間裡進行主成分分析。通過這樣的方法，就可以在原始訓練樣本的特徵空間中進行非線性降維操作。例如，將普通的直角座標系中的二維輸入向量x=(x1,x2)'通過fun()變換為在極座標系（距原點的距離為r，角度為Θ）中，如下圖所示：
使用非線性資料進行非線性主成分分析例項。 X表示的是樣本；實線是通過主成分分析求得的一維子空間；O是樣本仙子空間的正投影對原始的二維訓練樣本直接進行主成分分析，並不能很好滴捕捉到彎曲狀的資料分佈。而經過變換後，在極座標系下，資料樣本基本上筆直地串聯在一起。把特徵空間中的主成分分析結果返回到原始的輸入，就可以很好的捕捉到原始資料中彎曲狀的資料分佈。

無監督學習：無監督降維

1.前言如果輸入樣本x的維數增加的話，不論是什麼機器學習演算法，其學習時間都會增加，學習過程也會變得更加困難。例如，假設在一維空間的{0,1}區間裡有5個訓練樣本。以相同的密度在d次維空間裡配置相

sklearn-學習：Dimensionality reduction(降維)-（feature selection）特徵選擇

本文主要對對應文件的內容進行簡化（以程式碼示例為主）及漢化對應文件位置：http://scikit-learn.org/stable/modules/feature_selection.html#feature-selection feature selection

Unsupervised Learning: Linear Dimension Reduction---無監督學習：線性降維

避免 other 介紹 near -s func 例子 get 特征選擇一 Unsupervised Learning 把Unsupervised Learning分為兩大類：化繁為簡：有很多種input，進行抽象化處理，只有input沒有output 無中生

[機器學習入門] 李巨集毅機器學習筆記-14 （Unsupervised Learning: Linear Dimension Reduction；無監督學習：線性降維）

[機器學習入門] 李巨集毅機器學習筆記-14 （Unsupervised Learning: Linear Dimension Reduction；線性降維） PDF VI

無監督學習：Deep Generative Mode（深度生成模型）

speech nom like 當前多個 generator 問題 get pixel 一前言 1.1 Creation 據說在費曼死後，人們在他生前的黑板上拍到如圖畫片，在左上角有道：What i cannot create ,I do not understand.

無監督學習：詞嵌入or詞向量（Word Embedding）

National Taiwan University (NTU)李巨集毅老師的《Machine Learning》的學習筆記，因此在全文對視訊出現的內容多次引用。初出茅廬，學藝不精，有不足之處還望大家不吝賜教。歡迎大家在評論區多多留言互

概念：監督學習、無監督學習與半監督學習

（此為機器學習隨筆之一）機器學習中的演算法，主要有兩種：監督學習；半監督學習。 1 、名詞監督學習： supervised learning 無監督學習： unsupervised learning 半監督學習： semi-supervise

[機器學習入門] 李巨集毅機器學習筆記-15 （Unsupervised Learning: Word Embedding；無監督學習：詞嵌入）

[機器學習入門] 李巨集毅機器學習筆記-15 （Unsupervised Learning: Word Embedding；無監督學習：詞嵌入） PDF VIDEO

無監督學習：生成模型

1. 生成模型 2016年PixelRNN，2014年Variational Autoencoder (VAE)，2013年Generative Adversarial Network (GAN)。 2. Pixel RNN 這種方法的主要過程

機器學習（二）：有監督學習、無監督學習和半監督學習

一、基本概念 1 特徵（feature）資料的特徵。舉例：書的內容 2 標籤（label）資料的標籤。舉例：書屬於的類別，例如“計算機”“圖形學”“英文書”“教材”等。 3 學習（learning）將很多資料丟給計算機分析，以此

16、【李巨集毅機器學習（2017）】Unsupervised Learning: Deep Auto-encoder（無監督學習：深度自動編碼器）

本篇部落格將介紹無監督學習演算法中的 Deep Auto-encoder。目錄 Deep Auto-encoder 輸入28*28維度的影象畫素，由NN encoder輸出code，code的維度往往小於784，但我們並不知道code的

ml入門系列三監督學習和無監督學習

tex tin swa core logging eba webapi handle 5% %E6%9C%89%E5%85%B3handler%E7%94%A8%E6%B3%95%E6%B1%82%E5%8A%A9%E5%95%8A aspnetcoremvc?????÷

監督學習，無監督學習和半監督學習

思想 learn 尋找很多 ear 目標 dsm 工作變量概念：監督學習、無監督學習與半監督學習監督學習： supervised learning 無監督學習： unsupervised learning 半監督學習： semi-supervised le

監督學習與無監督學習

半監督學習類別 ear gist 神經網絡有關代表性整數是否監督學習與無監督學習的區別_機器學習最近發現很多人還是不能真正分清機器學習的學習方法，我以個人的愚見結合書本簡單說一下這個機器學習中，可以根據學習任務的不同，分為監督學習(Supervised Le

有監督學習和無監督學習

得到機器學習事先分辨是什麽輸入數據評價一個 style 機器學習的常用方法，主要分為有監督學習(supervised learning)和無監督學習(unsupervised learning)。　　監督學習，就是人們常說的分類，通過已有的訓練樣本（即已

有監督學習、無監督學習、半監督學習

class tail detail 局部特征連續 tails cannot 得到 ica 1.有監督學習：教計算機如何做事情。　　對於機器學習來說，有監督學習就是訓練數據既有特征又有標簽，通過訓練，讓機器可以自己找到特征和標簽之間的聯系，在面對只有特征沒有標簽的數據時，

監督學習，無監督學習，弱監督學習，無監督學習

什麼是機器學習？機器學習的定義有很多種，而且到目前為止也沒有一個公認的定義，想要了解更多可以參考一下知乎https://www.zhihu.com/question/33892253的解答，有客觀的回答，有深刻的幽默。在這裡我

有監督學習和無監督學習的簡單理解

文章轉載自：http://blog.sina.com.cn/s/blog_4d7c97a00102w958.html 有監督學習和無監督學習的區別是什麼？這個問題可以回答得很簡單：是否有監督（supe

有監督學習與無監督學習

機器學習的常用方法，主要分為有監督學習(supervised learning)和無監督學習(unsupervised learning)。簡單的歸納就是，是否有監督（supervised），就看輸入資料是否有標籤（label）。輸入資料有標籤，則為有監督學習；沒標籤則為無監督學習。有監督

有監督學習及無監督學習的區別

有監督的過程為先通過已知的樣本來訓練得到一個最優的模型，再將這個模型應用在新的資料上，對映為輸出結果，使得模型具有預知能力。無監督沒有訓練過程，直接拿資料進行建模分析。有監督的核心是分類，無監督的核心是聚類。有監督的工作是選擇分類器和確定權值，無監督的工作是密度估計，即只要知道如何計算相

無監督學習：無監督降維

1.前言

2.線性降維原理

3.主成分分析

4.區域性保持投影

5.核函式主成分分析

相關推薦