近年，隨著有監督學習的低枝果實被採摘的所剩無幾，無監督學習成為了研究熱點。VAE（Variational Auto-Encoder，變分自編碼器）[1,2] 和 GAN（Generative Adversarial Networks）等模型，受到越來越多的關注。

筆者最近也在學習 VAE 的知識（從深度學習角度）。首先，作為工程師，我想要正確的實現 VAE 演算法，以及瞭解 VAE 能夠幫助我們解決什麼實際問題；作為人工智慧從業者，我同時希望在一定程度上了解背後的原理。

作為學習筆記，本文按照由簡到繁的順序，首先介紹 VAE 的具體演算法實現；然後，再從直觀上解釋 VAE 的原理；最後，對 VAE 的數學原理進行回顧。我們會在適當的地方，對變分、自編碼、無監督、生成模型

等概念進行介紹。

我們會看到，同許多機器演算法一樣，VAE 背後的數學比較複雜，然而，工程實現上卻非常簡單。

1. 演算法實現

這裡介紹 VAE 的一個比較簡單的實現，儘量與文章[1] Section 3 的實驗設定保持一致。完整程式碼可以參見 repo。

1.1 輸入：

資料集 X⊂Rn。

做為例子，可以設想 X 為 MNIST 資料集。因此，我們有六萬張 0~9 的手寫體的灰度圖（訓練集），大小為 28×28。進一步，將每個畫素歸一化到[0,1]，則 X⊂[0,1]784 。

圖1. MNIST demo （圖片來源）

1.2 輸出：

一個輸入為 m

維，輸出為 n 維的神經網路，不妨稱之為 decoder [1]（或稱 generative model [2]）（圖2）。

decoder
圖 2. decoder

在輸入輸出維度滿足要求的前提下，decoder 以為任何結構——MLP、CNN，RNN 或其他。

由於我們已經將輸入資料規一化到 [0, 1] 區間，因此，我們令 decoder 的輸出也在這個範圍內。這可以通過在 decoder 的最後一層加上 sigmoid 啟用實現 :
f(x)=11+e−x

作為例子，我們取 m = 100，decoder 的為最普遍的全連線網路（MLP）。基於 Keras Functional API

的定義如下：

n, m = 784, 2
hidden_dim = 256
batch_size = 100

## Encoder
z = Input(batch_shape=(batch_size, m))
h_decoded = Dense(hidden_dim, activation='tanh')(z)
x_hat = Dense(n, activation='sigmoid')(h_decoded)

1.3 訓練

VAE overview
圖 3. VAE 結構框架

1.3.1 encoder

為了訓練 decoder，我們需要一個輔助的 encoder 網路（又稱 recognition model）（如圖3）。encoder 的輸入為 n 維，輸出為 2×m 維。同 decoder 一樣，encoder 可以為任意結構。

encoder
圖 4. encoder

1.3.2 取樣（sampling）

我們將 encoder 的輸出（2×m 個數）視作分別為 m 個高斯分佈的均值（z_mean）和方差的對數（z_log_var）。

接著上面的例子，encoder 的定義如下：

## Encoder
x = Input(batch_shape=(batch_size, n))
h_encoded = Dense(hidden_dim, activation='tanh')(x)
z_mean = Dense(m)(h_encoded)    # 均值
z_log_var = Dense(m)(h_encoded) # 方差對數

然後，根據 encoder 輸出的均值與方差，生成服從相應高斯分佈的隨機數：

epsilon = K.random_normal(shape=(batch_size, m), 
                          mean=0.,std=epsilon_std) # 標準高斯分佈
z = z_mean + exp(z_log_var / 2) * epsilon

z 就可以作為上面定義的 decoder 的輸入，進而產生 n 維的輸出 x^。

sampler
圖5. 取樣

這裡運用了 reparemerization 的技巧。由於 z∼N(μ,σ)，我們應該從 N(μ,σ) 取樣，但這個取樣操作對 μ 和 σ 是不可導的，導致常規的通過誤差反傳的梯度下降法（GD）不能使用。通過 reparemerization，我們首先從 N(0,1) 上取樣 ϵ，然後，z=σ⋅ϵ+μ。這樣，z∼N(μ,σ)，而且，從 encoder 輸出到 z，只涉及線性操作，（ϵ 對神經網路而言只是常數），因此，可以正常使用 GD 進行優化。方法正確性證明見[1] 2.3小節和[2] 第3節（stochastic backpropagation）。

圖6. Reparameterization （圖片來源）

preparameterization 的代價是隱變數必須連續變數[7]。

1.3.3 優化目標

encoder 和 decoder 組合在一起，我們能夠對每個 x∈X，輸出一個相同維度的 x^。我們目標是，令 x^ 與 x 自身儘量的接近。即 x 經過編碼（encode）後，能夠通過解碼（decode）儘可能多的恢復出原來的資訊。

注：嚴格而言，按照模型的假設，我們要優化的並不是 x 與 x^ 之間的距離，而是要最大化 x 的似然。不同的損失函式，對應著不是 p(x|z) 的不同概率分佈假設。此處為了直觀，姑且這麼解釋，詳細討論見下文（[1] 附錄C）。

由於 x∈[0,1]，因此，我們用交叉熵（cross entropy）度量 x 與 x^ 差異：

xent=∑i=1n−[xi⋅log(x^i)+(1−xi)⋅log(1−x^i)]

xent 越小，x 與 x^ 越接近。

我們也可以用均方誤差來度量：

mse=∑i=1n(xi−x^i)2
mse 越小，兩者越接近。

訓練過程中，輸出即是輸入，這便是 VAE 中 AE（autoencoder，自編碼）的含義。

另外，我們需要對 encoder 的輸出 z_mean（μ）及 z_log_var（logσ2）加以約束。這裡使用的是 KL 散度（具體公式推導見下文）：

KL=−0.5∗(1+logσ2−μ2−σ2)=−0.5(1+logσ2−μ2−exp(logσ2))

這裡的KL，其實是 KL 散度的負值，見下文。

總的優化目標（最小化）為：

loss=xent+KL

或

【Learning Notes】變分自編碼器（Variational Auto-Encoder，VAE）

1. 演算法實現

1.1 輸入：

1.2 輸出：

1.3 訓練

1.3.1 encoder

1.3.2 取樣（sampling）

1.3.3 優化目標

【Learning Notes】變分自編碼器（Variational Auto-Encoder，VAE）

從零上手變分自編碼器（VAE）

【自編碼】變分自編碼大雜燴

【TensorFlow-windows】學習筆記六——變分自編碼器

VAE----變分自編碼器Keras實現

[深度學習]半監督學習、無監督學習之Variational Auto-Encoder變分自編碼器(附程式碼)

變分自編碼器VAE：原來是這麼一回事 | 附開原始碼

再談變分自編碼器VAE：從貝葉斯觀點出發

Autoencorder理解(5):VAE（Variational Auto-Encoder，變分自編碼器）

【論文閱讀】利用深度自編碼器神經網路預測藥物相似度

白話Variational Autoencoder（變分自編碼器）

VAE變分自編碼器的一點理解

變分自編碼器VAE：一步到位的聚類方案

你瞭解變分自編碼器嗎？請看這裡

深度自解碼器（Deep Auto-encoder）

LearningNotes 變分自編碼 VariationalAutoEncoder VAE

變分貝葉斯、變分自編碼與變分遷移

變分自編碼網路的實現

Variational Autoencoder（變分自編碼）

變分自編碼（VAE）及程式碼解讀

【Learning Notes】變分自編碼器（Variational Auto-Encoder，VAE）

1. 演算法實現

1.1 輸入：

1.2 輸出：

1.3 訓練

1.3.1 encoder

1.3.2 取樣（sampling）

1.3.3 優化目標

相關推薦