1. 程式人生 > >機器學習與深度學習系列連載: 第一部分 機器學習(十三)半監督學習(semi-supervised learning)

機器學習與深度學習系列連載: 第一部分 機器學習(十三)半監督學習(semi-supervised learning)

在實際資料收集的過程中,帶標籤的資料遠遠少於未帶標籤的資料。 我們據需要用帶label 和不帶label的資料一起進行學習,我們稱作半監督學習。

  • Transductive learning:沒有標籤的資料是測試資料
  • Inductive learning:沒有標籤的資料不是測試資料 在這裡插入圖片描述 為什麼沒有標籤的資料會幫助我們學習呢? 是因為沒有標籤資料的分佈可能會告訴我們一些潛在的規律。

1.半監督生成模型 Semi-supervised Learning for Generative Model

我們回憶一下監督學習的生成模型,計算先驗概率,然後通過概率模型估計,計算分類概率。 在這裡插入圖片描述 那半監督的概率生成模型是:

  • 尋找概率最大的P(Ci)P(C_{i})P(xCi)P(x|C_{i})
  • P(xCi)P(x|C_{i}) 符合高斯分佈 在這裡插入圖片描述 演算法流程如下,但是最後的結果影響與初始值的初始化,結構和EM演算法類似 在這裡插入圖片描述 在這裡插入圖片描述

2. 低密度分割 Low-density Separation

大原則:非黑即白 (1)Self-training 在這裡插入圖片描述 在這裡插入圖片描述 (2)Entropy-based Regularization 我們估計的分佈函式,如何衡量他的好壞 在這裡插入圖片描述 所以我們讓他越小越好: 在這裡插入圖片描述 考慮到了Entropy因素,Loss函式最後可以寫成 在這裡插入圖片描述

(3)Semi-supervised SVM

semi-SVM 中,我們假設沒有標籤的資料可以任意標註 在這裡插入圖片描述 我們取margin 最大的和error最小的 在這裡插入圖片描述

3. 平滑性假設 Smoothness Assumption

近朱者赤,近墨者黑

假設:相似的x 有著相同的分類

  • x 並不是uniform 統一的
  • 如果x1x_{1}x2x_{2}在高密度區域中相似,那麼他們的結果也就y_{1}y_{2}$一致

在這裡插入圖片描述 (1)聚類,然後標註 Cluster and then Label 在這裡插入圖片描述 (2)以圖為基礎的方法 Graph-based Approach

在這裡插入圖片描述 很顯然,當圖中的點能走通,說明是一類。 建立圖的方法( Graph Construction):

  • 定義xix_{i}xjx_{j}的相似度s(xix_{i},xjx_{j})
  • 加入邊edge K Nearest Neighbor e-Neighborhood 在這裡插入圖片描述
    • edge 的權重 與s(xix_{i},xjx_{j})稱比例

s(xix_{i},xjx_{j})一般表示為Gaussian Radial Basis Function:: 在這裡插入圖片描述

  • 定義圖的平滑程度 Define the smoothness of the labels s 越小越平滑: 在這裡插入圖片描述 如果我們定義s為: 在這裡插入圖片描述 在這裡插入圖片描述

4. Better Representation

去蕪存菁,化繁為簡 具體內容我們再降維的章節介紹。(下一節)