SeqGAN——對抗思想與增強學習的碰撞

阿新 • • 發佈：2019-01-21

保留初心，砥礪前行

SeqGAN這篇paper從大半年之前就開始看，斷斷續續看到現在，接下來的工作或許會與GAN + RL有關，因此又把它翻出來，又一次仔細拜讀了一番。接下來就記錄下我的一點理解。

1. 背景

GAN在之前發的文章裡已經說過了，不瞭解的同學點我，雖然現在GAN的變種越來越多，用途廣泛，但是它們的對抗思想都是沒有變化的。簡單來說，就是在生成的過程中加入一個可以鑑別真實資料和生成資料的鑑別器，使生成器G和鑑別器D相互對抗，D的作用是努力地分辨真實資料和生成資料，G的作用是努力改進自己從而生成可以迷惑D的資料。當D無法再分別出真假資料，則認為此時的G已經達到了一個很優的效果。
它的諸多優點是它如今可以這麼火爆的原因：
- 可以生成更好的樣本
- 模型只用到了反向傳播,而不需要馬爾科夫鏈
- 訓練時不需要對隱變數做推斷
- G的引數更新不是直接來自資料樣本,而是使用來自D的反向傳播
- 理論上,只要是可微分函式都可以用於構建D和G,因為能夠與深度神經網路結合做深度生成式模型

它的最後一條優點也恰恰就是它的侷限，之前我發過的文章中也有涉及到，點點點點點我，在NLP中，資料不像圖片處理時是連續的，可以微分，我們在優化生成器的過程中不能找到“中國 + 0.1”這樣的東西代表什麼，因此對於離散的資料，普通的GAN是無法work的。

2. 大體思路

這位還在讀本科的作者想到了使用RL來解決這個問題。

如上圖（左）所示，仍然是對抗的思想，真實資料加上G的生成資料來訓練D。但是從前邊背景章節所述的內容中，我們可以知道G的離散輸出，讓D很難回傳一個梯度用來更新G，因此需要做一些改變，看上圖（右），paper中將policy network當做G，已經存在的紅色圓點稱為現在的狀態（state），要生成的下一個紅色圓點稱作動作（action），因為D需要對一個完整的序列評分，所以就是用MCTS（蒙特卡洛樹搜尋）將每一個動作的各種可能性補全，D對這些完整的序列產生reward，回傳給G，通過增強學習更新G。這樣就是用Reinforcement learning的方式，訓練出一個可以產生下一個最優的action的生成網路。

3. 主要內容

不論怎麼對抗，目的都是為了更好的生成，因此我們可以把生成作為切入點。生成器G的目標是生成sequence來最大化reward的期望。

在這裡把這個reward的期望叫做J(θ)。就是在s₀和θ的條件下，產生某個完全的sequence的reward的期望。其中G_θ()部分可以輕易地看出就是Generator Model。而Q_{D_φ}^G_θ()（我在這裡叫它Q值）在文中被叫做一個sequence的action-value function 。因此，我們可以這樣理解這個式子：G生成某一個y1的概率乘以這個y1的Q值，這樣求出所有y1的概率乘Q值，再求和，則得到了這個J(θ)，也就是我們生成模型想要最大化的函式。

所以問題來了，這個Q值怎麼求？
paper中使用的是REINFORCE algorithm 並且就把這個Q值看作是鑑別器D的返回值。

因為不完整的軌跡產生的reward沒有實際意義，因此在原有y_1到y_t-1的情況下，產生的y_t的Q值並不能在y_t產生後直接計算，除非y_t就是整個序列的最後一個。paper中想了一個辦法，使用蒙特卡洛搜尋（就我所知“蒙特卡洛”這四個字可以等同於“隨意”）將y_t後的內容進行補全。既然是隨意補全就說明會產生多種情況，paper中將同一個y_t後使用蒙特卡洛搜尋補全的所有可能的sequence全都計算reward，然後求平均。如下圖所示。

就這樣，我們生成了一些逼真的sequence。我們就要用如下方式訓練D。

這個式子很容易理解，最大化D判斷真實資料為真加上D判斷生成資料為假，也就是最小化它們的相反數。

D訓練了一輪或者多輪（因為GAN的訓練一直是個難題，找好G和D的訓練輪數比例是關鍵）之後，就得到了一個更優秀的D，此時要用D去更新G。G的更新可以看做是梯度下降。

其中，

α_h代表學習率。

以上就是大概的seqGAN的原理。

4. 演算法

首先隨機初始化G網路和D網路引數。

通過MLE預訓練G網路，目的是提高G網路的搜尋效率。

使用預訓練的G生成一些資料，用來通過最小化交叉熵來預訓練D。

開始生成sequence，並使用方程（4）計算reward（這個reward來自於G生成的sequence與D產生的Q值）。
使用方程（8）更新G的引數。
更優的G生成更好的sequence，和真實資料一起通過方程（5）訓練D。

以上1，2，3迴圈訓練直到收斂。

5. 實驗

論文的實驗部分就不是本文的重點了，有興趣的話看一下paper就可以了。

後邊說的比較敷衍了，那…就這樣吧。

參考資料：SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient | 百度&google

SeqGAN——對抗思想與增強學習的碰撞

保留初心，砥礪前行

1. 背景

2. 大體思路

3. 主要內容

4. 演算法

5. 實驗

如果你也喜歡機器學習，並且也像我一樣在ML之路上努力，請關注我，這裡會不定期進行分享，希望可以與你一同進步。

SeqGAN——對抗思想與增強學習的碰撞

#######haohaohao#######對抗思想與強化學習的碰撞-SeqGAN模型原理和程式碼解析

DQN 從入門到放棄1 DQN與增強學習

TensorLayer : 最新深度學習與增強學習庫

Redis初識、設計思想與一些學習資源推薦

增強學習筆記第八章表格類方法的規劃與學習

函式式介面@FunctionalInterface學習(函式程式設計思想)------------與匿名內部類對比

#資料結構與演算法學習筆記#劍指Offer29：整數中1出現的次數 + 分段思想/按位考慮 + 測試用例（Java、C/C++）

理解機器學習和深度學習的核心思想與實現思路（入門與總結）[圖文 + 詳細思路]

增強學習（二）——策略迭代與值迭代

吳恩達.深度學習系列-C1神經網路與深度學習-W2-（作業：神經網路思想的邏輯迴歸）

[增強學習][Reinforcement Learning]學習筆記與回顧-1

增強學習Q-learning分析與演示（入門）

增強學習Reinforcement Learning經典算法梳理3：TD方法

系統分析與設計學習筆記（一）

C#委托與事件學習筆記

20170520 BADI增強學習

設計思想與模式之四靜態代理模式

設計思想與模式之五觀察者模式

增強學習 | AlphaGo背後的秘密

SeqGAN——對抗思想與增強學習的碰撞

保留初心，砥礪前行

1. 背景

2. 大體思路

3. 主要內容

4. 演算法

5. 實驗

如果你也喜歡機器學習，並且也像我一樣在ML之路上努力，請關注我，這裡會不定期進行分享，希望可以與你一同進步。

相關推薦