深度學習入門 --- 自我學習與半監督學習

該章節參考ufldl

1.什麼是自我學習（Self-Taught Learning）與半監督學習

首先，什麼是半監督學習？當你手頭上擁有在大量未標註資料和少量的已標註資料，那這種場景就可以說是半監督學習。自我學習和半監督學習的場景一樣，不過有個細節不一樣。

自學習(self-taught learning) 是更為一般的、更強大的學習方式，它不要求未標註資料和已標註資料有同樣的分佈。而半監督學習不一樣，它要求未標註資料和已標註資料服從同樣的分佈。下面通過例子解釋二者的區別。

假定有一個計算機視覺方面的任務，目標是區分汽車和摩托車影象；哪裡可以獲取大量的未標註資料呢？最簡單的方式可能是從網際網路上下載一些隨機的影象資料集，在這些資料上訓練出一個稀疏自編碼器，從中得到有用的特徵。這個例子裡，未標註資料對比已標註資料，是一個完全不同的資料分佈（未標註資料集中，或許其中一些影象包含汽車或者摩托車，但不是所有的影象都如此）。這種情形被稱為自學習。

相反，如果有大量的未標註影象資料，要麼是汽車影象，要麼是摩托車影象，僅僅是缺失了類標號（沒有標註每張圖片到底是汽車還是摩托車）。也可以用這些未標註資料來學習特徵。這種方式，即要求未標註樣本和帶標註樣本服從相同的分佈，有時候被稱為半監督學習。在實踐中，常常無法找到滿足這種要求的未標註資料（到哪裡找到一個每張影象不是汽車就是摩托車，只是丟失了類標號的影象資料庫？）因此，自學習在無標註資料集的特徵學習中應用更廣。

2.自我學習的模型

###2.1 資料預處理

首先對未標記資料和已標記資料進行相同的資料預處理。比如進行相同的歸一化。如果對未標記資料進行PCA，那麼PCA過程得到的特徵向量矩陣U需要保留下來。之後對於已標記資料，應用U

Tx 得到降維後的資料。或者，將已標記，未標記兩部分資料湊起來，一同進行PCA降維。

###2.2未標記資料訓練稀疏自編碼器

不懂稀疏自編碼器的同學，可以參考我這篇部落格

首先我們利用未標記資料訓練一個自編碼器。

利用訓練得到的模型引數W(1),b(1),W(2),b(2)，給定任意的輸入資料 x，可以計算隱藏單元的啟用量（activations）a。如前所述，相比原始輸入 x 來說，a 可能是一個更好的特徵描述。下圖的神經網路描述了特徵（啟用量 a）的計算。

這實際上就是之前得到的稀疏自編碼器，在這裡去掉了最後一層。

###2.3 有標記資料特徵轉換，然後實現監督學習

假定有大小為 m

l 的已標註訓練集
(x(1)l,y(1)),(x(2)l,y(2)),…(x(ml)l,y(ml))（下標 l 表示“帶類標”），我們可以為輸入資料找到更好的特徵描述。例如，可以將 x(1)l 輸入到稀疏自編碼器，得到隱藏單元啟用量 a(1)l。接下來，可以直接使用 a(1)l 來代替原始資料 x(1)l （“替代表示”,Replacement Representation）。也可以合二為一，使用新的向量 (x(1)l,a(1)l) 來代替原始資料 x(1)l （“級聯表示”,Concatenation Representation）。

經過變換後，訓練集就變成 (a(1)l,y(1)),(a(2)l,y(2)),…(a(ml)l,y(ml))或者是((x(1)l,a(1)l),y(1)),((x(2)l,a(1)l),y(2)),…,((x(ml)l,a(1)l),y(ml))（取決於使用 a(1)l替換 x(1)l還是將二者合併）。在實踐中，將 a(1)l和 x(1)l 合併通常表現的更好。但是考慮到記憶體和計算的成本，也可以使用替換操作。

最終，可以訓練出一個有監督學習演算法（例如 svm, logistic regression 等），得到一個判別函式對 y 值進行預測。預測過程如下：給定一個測試樣本xtest，重複之前的過程，將其送入稀疏自編碼器，得到 atest。然後將 atest （或者 (

深度學習入門 --- 自我學習與半監督學習

深度學習入門 --- 自我學習與半監督學習

概念：監督學習、無監督學習與半監督學習

機器學習與深度學習系列連載：第一部分機器學習（十三）半監督學習（semi-supervised learning）

[深度學習]半監督學習、無監督學習之Autoencoders自編碼器(附程式碼)

[深度學習]半監督學習、無監督學習之DCGAN深度卷積生成對抗網路(附程式碼)

[深度學習]半監督學習、無監督學習之Variational Auto-Encoder變分自編碼器(附程式碼)

一文讀懂監督學習、無監督學習、半監督學習、強化學習這四種深度學習方式

深度學習第一篇論文——半監督學習Mean Teacher 的學習

機器學習入門 - 1. 介紹與決策樹(decision tree)

監督學習，無監督學習和半監督學習

詳解使用EM算法的半監督學習方法應用於樸素貝葉斯文本分類

監督學習與無監督學習

有監督學習、無監督學習、半監督學習

sklearn半監督學習

偽標籤：教你玩轉無標籤資料的半監督學習方法

【IM】關於半監督學習的理解

半監督學習演算法——標籤傳播演算法(LPA)與其擴充套件

半監督學習演算法——ATDA(Asymmetric Tri-training for Unsupervised Domain Adaptation)

python學習入門3識別符號與表示式 2018.8.17

有監督學習與無監督學習

深度學習入門 --- 自我學習與半監督學習

相關推薦