1. 程式人生 > >機器學習(十三):CS229ML課程筆記(9)——因子分析、主成分分析(PCA)、獨立成分分析(ICA)

機器學習(十三):CS229ML課程筆記(9)——因子分析、主成分分析(PCA)、獨立成分分析(ICA)

1.因子分析:

高維樣本點實際上是由低維樣本點經過高斯分佈、線性變換、誤差擾動生成的,因子分析是一種資料簡化技術,是一種資料的降維方法,可以從原始高維資料中,挖掘出仍然能表現眾多原始變數主要資訊的低維資料。是基於一種概率模型,使用EM演算法來估計引數。因子分析,是分析屬性們的公共部分的表示。

2.主成分分析(PCA)也是一種特徵降維的方法。 主成分分析,是分析維度屬性的主要成分表示。 
學習理論中,特徵選擇是要剔除與標籤無關的特徵,比如“汽車的顏色”與“汽車的速度”無關;
PCA中要處理與標籤有關、但是存在噪聲或者冗餘的特徵,比如在一個汽車樣本中,“千米/小時”與“英里/小時”中有一個冗餘了。我們可以對新求出的“主元”向量的重要性進行排序,根據需要取前面最重要的部分,將後面的維數省去,可以達到降維從而簡化模型或是對資料進行壓縮的效果。同時最大程度的保持了原有資料的資訊。PCA將n個特徵降維到k個,可以用來進行資料壓縮,如果100維的向量最後可以用10維來表示,那麼壓縮率為90%。同樣影象處理領域的KL變換使用PCA做影象壓縮。但PCA要保證降維後,還要保證資料的特性損失最小。

3.獨立成分分析(ICA)是一種主元分解的方法。 

其基本思想是從一組混合的觀測訊號中分離出獨立訊號。比如在一個大房間裡,很多人同時在說話,樣本是這個房間裡各個位置的一段錄音,ICA可以從這些混合的錄音中分離出每個人獨立的說話的聲音。 ICA認為觀測訊號是若干個統計獨立的分量的線性組合,ICA要做的是一個解混過程。

參考連結:

① https://blog.csdn.net/sinat_37965706/article/details/71330979

② https://blog.csdn.net/yujianmin1990/article/details/49247307