1. 程式人生 > >機器學習與深度學習系列連載: 第一部分 機器學習(十四)非監督度學習-1 Unsupervised Learning-1

機器學習與深度學習系列連載: 第一部分 機器學習(十四)非監督度學習-1 Unsupervised Learning-1

非監督度學習-1 Unsupervised Learning-1(K-means,HAC,PCA)

非監督學習方法主要分為兩大類

  • Dimension Reduction (化繁為簡) 在這裡插入圖片描述
  • Generation (無中生有) 在這裡插入圖片描述 目前我們僅專注化繁為簡,降維的方法,無中生有(GAN為代表的)方法,以後關注。 在這裡插入圖片描述

1. Clustering

• K-means 演算法 經典的非監督根據距離分類演算法: 在這裡插入圖片描述

  • Hierarchical Agglomerative Clustering (HAC) 根據資料兩兩間的相似度,進行建立一棵樹,進行分類 在這裡插入圖片描述

2. 分佈的重表示 Distributed Representation

在這裡插入圖片描述

我們主要介紹Principle Component Analysis(PCA): 需要找到W,?=??? = ?? 降低維度到 1-D:

(1)線性代數表示 在這裡插入圖片描述 使得投影的結果的方差最大化 在這裡插入圖片描述 多維度投影中w1和w2是正交的 在這裡插入圖片描述 數學化證明,PCA與協方差有關 最大化(w1)Tcov(x)w1(w^{1})^{T} cov(x)w^{1} 在這裡插入圖片描述 在這裡插入圖片描述 在這裡插入圖片描述 在這裡插入圖片描述 因為S是對稱矩陣,是半正定,特徵值非負。使用拉格朗日乘子法: 在這裡插入圖片描述 在這裡插入圖片描述 w1w^{1}是特徵向量,λ1\lambda_{1}是最大的特徵值 同理: 在這裡插入圖片描述 w2w^{2}是特徵向量,λ2\lambda_{2}是第二大的特徵值

PCA去相關性舉例: 在這裡插入圖片描述 在這裡插入圖片描述 (2)另一種視角看PCA 舉例:手寫數字是由基本的圖片元素組成 在這裡插入圖片描述 那麼7是由以下圖片元素組成 在這裡插入圖片描述

在這裡插入圖片描述 在這裡插入圖片描述 我們有: 在這裡插入圖片描述 在這裡插入圖片描述 PCA可以看看做是特殊的神經網路,元素間是正交的 在這裡插入圖片描述