1. 程式人生 > >TRPO置信域策略優化推導分析《Trust Region Policy Optimization》

TRPO置信域策略優化推導分析《Trust Region Policy Optimization》

本文參照此文做了學習整理。
根據策略梯度方法,很難選擇步長使引數更新向著策略變好的方向變化,如果步長不合適,可能導致越學越差致使系統崩潰。
如何選擇一個合適的步長,或者說,如何找到新的策略使新的回報函式的值單調遞增,或單調不減。這是TRPO解決的問題。
強化學習的回報函式定義為:
η ( π ~

) = E π ~ [
t = 0
γ t (
r ( s t ) ) ] \eta(\tilde{\pi} )=E_{\tilde{\pi}}[\sum_{t=0}^{\infty}\gamma^t(r(s_t))]
將新策略的回報函式拆分為,[舊策略回報函式+其他項]的方式,如果其他項>=0則,新的回報函式單調不減。如下所示
η ( π ~ ) = η ( π ) + E s 0 , a 0 , π ~ [ t = 0 γ t A π ( s t , a t ) ] ( 1 ) \eta(\tilde{\pi})=\eta(\pi)+E_{s_0,a_0,\tilde{\pi}}[\sum_{t=0}^\infty\gamma^tA_\pi(s_t,a_t)]\qquad (1)
π \pi 表示舊策略, π ~ \tilde\pi 表示新策略
A π ( s , a ) = Q π ( s , a ) V π ( s ) = E s P ( s s , a ) [ r ( s ) + γ V π ( s ) V π ( s ) ] A_\pi(s,a)=Q_\pi(s,a)-V_\pi(s)\\ =E_{s'\sim P(s'|s,a)}[r(s)+\gamma V_\pi(s')-V_\pi(s)]
給出(1)的證明:

E π ~ [ t = 0 γ t A π ( s t , a t ) ] = E π ~ [ t = 0 γ t ( r ( s t ) + γ V π ( s t + 1 ) V π ( s t ) ) ] = E π ~ [ t = 0 γ t r ( s t ) ] + E π ~ [ t = 0 γ t ( γ V π ( s t + 1 ) V π ( s t ) ) ] = E π ~ [ t = 0 γ t r ( s t ) ] + E π ~ [ V π ( s 0 ) ] = η ( π ~ ) η ( π ) E_{\tilde \pi}[\sum_{t=0}^\infty \gamma^t A_{\pi}(s_t,a_t)]\\ =E_{\tilde \pi}[\sum_{t=0}^\infty\gamma^t(r(s_t)+\gamma V_\pi(s_{t+1})-V_{\pi}(s_t))]\\ =E_{\tilde \pi}[\sum_{t=0}^\infty\gamma^tr(s_t)]+E_{\tilde \pi}[\sum_{t=0}^\infty\gamma^t(\gamma V_\pi(s_{t+1})-V_{\pi}(s_t))]\\ =E_{\tilde \pi}[\sum_{t=0}^\infty\gamma^tr(s_t)]+E_{\tilde \pi}[-V_{\pi}(s_0)]\\ =\eta(\tilde \pi) - \eta(\pi)