GAN的評價(一):An empirical study on evaluation metrics of generative adversarial networks
這篇paper的作者評價了各自度量GAN優劣性的指標,並給出了實際工程方面的經驗。
現有GAN評價指標存在哪些問題?
- 評價指標本身好壞,缺乏一個評價體系
- 現有許多評價指標雖然和人的主觀比較一致。可是與人的主觀一致並不一定就代表GAN是好的。
現有的一些評價指標,比如Inception score和MMD等,雖然可以在一定程度上評價GAN。但是這些評價指標的適用場景卻依然是一個疑問。換句話說,什麼場景下,Inception score評價有效,什麼時候Inception score會誤導卻未知。此外,如果一個GAN過擬合了,那麼生成的樣本會非常真實,人類主觀評價得分會非常高,可是這並不是一個好的GAN。
這裡也就引出了作者的目的了,那就是如何評價GAN的這些評價指標!
作者做了哪些工作?
作者通過進行大量實驗,比較了現在example-based的評價方法。嘗試回答了一下問題:
- 現有指標哪個會更加合理,科學?
- 現有指標的優缺點,應該首選哪些指標?
實際實驗發現,MMD和1-NN two-sample test是最為合適的評價指標,這兩個指標可以較好的區分:真實樣本和生成的樣本,mode dropping, mode collapsing。且計算高效。
什麼是mode collapsing?
某個模式(mode)出現大量重複樣本,例如:

model collpsing
上圖左側的藍色五角星表示真實樣本空間,黃色的是生成的。生成樣本缺乏多樣性,存在大量重複。比如上圖右側中,紅框裡面人物反覆出現。
什麼是mode dropping?
這個相對於好理解一下,顧名思義,某些模式(mode)沒有,同樣也缺乏多樣性。例如下圖中的人物,除了膚色變化,人物沒有任何變化。

mode dropping
GAN的常見評價指標
符號對照
現有的example-based(顧名思義,基於樣本層面做評價。)方法,均是對生成樣本與真實樣本提取特徵,然後在特徵空間做距離度量。具體框架如下:

example-based評價方法的框架
下面分別對常見的評價指標進行一一介紹:
Inception Score:
對於一個在ImageNet訓練良好的GAN,其生成的樣本丟給Inception網路進行測試的時候,得到的判別概率應該具有如下特性:
- 對於同一個類別的圖片,其輸出的概率分佈應該趨向於一個脈衝分佈。可以保證生成樣本的準確性。
- 對於所有類別,其輸出的概率分佈應該趨向於一個均勻分佈,這樣才不會出現mode dropping等,可以保證生成樣本的多樣性。
因此,可以設計如下指標:
趨近於均勻分佈。二者KL散度會很大。Inception Score自然就高。實際實驗表明,Inception Score和人的主觀判別趨向一致。IS的計算沒有用到真實資料,具體值取決於模型M的選擇
特點:可以一定程度上衡量生成樣本的多樣性和準確性,但是無法檢測過擬合。Mode Score也是如此。不推薦在和ImageNet資料集差別比較大的資料上使用。
Mode Score:
Mode Score作為Inception Score的改進版本,添加了關於生成樣本和真實樣本預測的概率分佈相似性度量一項。具體公式如下:
Kernel MMD (Maximum Mean Discrepancy)
計算公式如下:
,這個核函式把樣本對映到再生希爾伯特空間(Reproducing Kernel Hilbert Space, RKHS) ,RKHS相比於歐幾里得空間有許多優點,對於函式內積的計算是完備的。將上述公式展開即可得到下面的計算公式:
MMD值越小,兩個分佈越接近。
特點:可以一定程度上衡量模型生成影象的優劣性,計算代價小。推薦使用。
Wasserstein distance
Wasserstein distance在最優傳輸問題中通常也叫做推土機距離。這個距離的介紹在WGAN中有詳細討論。公式如下:
Wasserstein distance可以衡量兩個分佈之間的相似性。距離越小,分佈越相似。
特點:如果特徵空間選擇合適,會有一定的效果。但是計算複雜度為 太高
Fréchet Inception Distance (FID)
FID距離計算真實樣本,生成樣本在特徵空間之間的距離。首先利用Inception網路來提取特徵,然後使用高斯模型對特徵空間進行建模。根據高斯模型的均值和協方差來進行距離計算。具體公式如下:
分別代表協方差和均值。
特點:儘管只計算了特徵空間的前兩階矩,但是魯棒,且計算高效。
1-Nearest Neighbor classifier
使用留一法,結合1-NN分類器(別的也行)計算真實圖片,生成影象的精度。如果二者接近,則精度接近50%,否則接近0%。對於GAN的評價問題,作者分別用正樣本的分類精度,生成樣本的分類精度去衡量生成樣本的真實性,多樣性。
- 對於真實樣本
,進行1-NN分類的時候,如果生成的樣本越真實。則真實樣本空間
將被生成的樣本
包圍。那麼
的精度會很低。
- 對於生成的樣本
,進行1-NN分類的時候,如果生成的樣本多樣性不足。由於生成的樣本聚在幾個mode,則
很容易就和
區分,導致精度會很高。
特點:理想的度量指標,且可以檢測過擬合。
其他評價方法
AIS,KDE方法也可以用於評價GAN,但這些方法不是model agnostic metrics。也就是說,這些評價指標的計算無法只利用:生成的樣本,真實樣本來計算。
實驗
實驗部分進行了詳細對比。此處不表。
值得注意的是,上述指標對於特徵空間的選擇尤其重要,特徵空間選擇不當,可能得出相反的結果。