強化學習--信賴域系方法：TRPO、PPO（附適合初學者閱讀的完整PPO程式碼連線）

阿新 • • 發佈：2018-12-26

在前面的章節裡，我們已經介紹了基於策略的強化學習演算法，也提到了異策略強化學習需要滿足的條件：由於重要性取樣的關係我們希望每次更新的時候策略分佈之間差距並不是很大，這實際上是一種約束，即我們希望能每次更新的時候不大幅度地改變分佈的形態，基於這種考慮openai的前輩們提出了TRPO演算法，但是TRPO演算法會有一些缺陷，他拿二次函式去近似約束條件，拿一次函式近似待優化的損失函式，這種近似會造成收斂上的困難，於是便有了第二次smart的改進，得到PPO系列的演算法，PPO演算法也是當前openai的預設演算法，是策略演算法的最好實現

PPO的完整程式碼，我已放在我的github

上了，誠意之作，歡迎點星，歡迎fork,這份程式碼的可讀性要好於openai的baseline，更適合於初學者以及想弄明白其中原理的人，不到500行程式碼。

TRPO演算法

回顧策略梯度的方法，根據之前的介紹我們知道在策略梯度中我們的更新滿足如下關係：
$θ_{n e w}$

= θ o l d + α

∇ θ J \theta_{new}=\theta_{old}+\alpha\nabla_\theta J

θ_{n e w} = θ_{o l d} + α \nabla_{θ} J

策略梯度的硬傷就在於更新步長

\alpha

,當步長選的不合適的時候更新的引數會更差，因此很容易導致越學越差，最後崩潰，那什麼樣的步長叫做合適的步長呢，試想我們如果能找到一種步長，使他每次更新時都能保證回報函式單調遞增，這樣的步長就是好步長。TRPO的核心就是解決這個問題。
我們用

\tau

來表示一個狀態行為序列，或者說一條軌跡，那麼某種策略下的期望回報可以看做是如下式子：

\eta(\tilde \pi)= E_{\tau|\tilde\pi}[\sum\limits_{t=0}^{\infty}\gamma^t(r(s_t))]

既然TRPO的根本目的是為了使每次更新的回報函式單調不減，那麼一個很自然的想法是將新的策略對應的回報函式分解成原來策略的回報函式加一個其他項，那麼只要保證新的策略的其他項是大於零的，我們就得到了一個一直提升策略的方案。
在這種思想的引導下，我們可以得到如下等式：

\eta(\tilde\pi)=\eta(\pi)+E_{\tau\in{\tilde\pi}}[\sum\limits_{t=0}^{\infty}\gamma^tA_{\pi}(s_t,a_t)]

其中

A_{\pi}(s,a) = Q_{\pi}(s,a) - V_{\pi}(s) = E_{s&#x27;\sim P(s&#x27;|s,a)}[r(s)+\gamma V^{\pi}(s&#x27;)-V^{\pi}(s)]

整個公式的證明稍許複雜不做詳述。
我們將公式寫開可以得到：

\eta(\tilde\pi)=\eta(\pi)+\sum_{t=0}^{\infty}\sum\limits_s P(s_t=s|\tilde\pi)\sum\limits_a\tilde\pi(a|s)\gamma^t A_{\pi}(s,a)

很容易進一步變形得到

\eta(\tilde\pi)=\eta(\pi)+\sum_s\rho_{\tilde\pi}(s)\sum\limits_a\tilde\pi(a|s)A^{\pi}(s,a)

其中

\rho_{\pi}(s)=P(s_0=s)+\gamma P(s_1=s)+\gamma^2P(s_2=s)+...

注意這裡s是由新分佈產生的，對新分佈有很強的依賴性。這個公式其實在應用中完全無法達到，因為我們是為了得到新的策略，所以這裡的其他項完全無從所知，為此，TRPO採取了一些技巧來解決這個問題。
下面我們來介紹TRPO論文中的四個技巧：

在原式中計算 $\rho_{\tilde\pi}(s)$ 時，我們需要新的策略，而新策略目前還未知，因此，我們可以利用舊策略來代替新策略，因為兩者相差並不是很大。
利用重要性取樣處理動作分佈
注意到：
$\sum_{a} {\tilde{π}}_{θ} (a ∣ s_{n}) A_{θ_{o l d}} (s_{n}, a) = E_{a \sim q} [\frac{{\tilde{π}}_{θ} (a ∣ s_{n})}{π_{θ_{o l d}} (a ∣ s_{n})} A_{θ_{o l d}} (s_{n},$

強化學習--信賴域系方法：TRPO、PPO（附適合初學者閱讀的完整PPO程式碼連線）

TRPO演算法

強化學習--信賴域系方法：TRPO、PPO（附適合初學者閱讀的完整PPO程式碼連線）

多執行緒學習（4）：三種實現Java多執行緒的方法：Thread、Callable和Runable 的比較與區別

機器學習 - 正則化方法：L1和L2 regularization、資料集擴增、dropout

【深度學習理論】正則化方法：L1、L2、資料擴增、Dropout

安裝與卸載軟件的方法：rpm、yum工具介紹

衡量機器學習模型的三大指標：準確率、精度和召回率。

《程式設計珠璣》程式碼之路1：學習位操作的神器----點陣圖排序（附解決程式設計師心理問題的門路）

【Javascript】JS遍歷陣列的三種方法：map、forEach、filter

「日常訓練&知識學習」莫隊演算法（二）：樹上莫隊（Count on a tree II，SPOJ COT2）

C++輸入方法：cin、cin.get()、gets()區別

Swift 學習之二十一：？和！（詳解）

散列表（四）：衝突處理的方法之開地址法（二次探測再雜湊的實現）

最近學習的 Node.js 基礎：安裝、環境配置、forever

各種音視訊編解碼學習詳解之編解碼學習筆記（十二）：其他編解碼（M-JPEG，Motion JPEG 2000，DivX）

【Andrew NG 機器學習公開課】CS229：Introduction、Linear Regression

降維的四種方法：PCA、LDA、LLE、Laplacian Eigenmaps

StringUtils類常用方法：轉換、移除、替換、反轉

【學習筆記】開發工具：1、Git的學習使用（簡單介紹）

關於document的三個方法：open、write、close

JS陣列常用方法：forEach、map、filter、some、every，filter與map區別

強化學習--信賴域系方法：TRPO、PPO（附適合初學者閱讀的完整PPO程式碼連線）

TRPO演算法

相關推薦