TRPO置信域策略優化推導分析《Trust Region Policy Optimization》

阿新 • • 發佈：2018-11-09

本文參照此文做了學習整理。
根據策略梯度方法，很難選擇步長使引數更新向著策略變好的方向變化，如果步長不合適，可能導致越學越差致使系統崩潰。
如何選擇一個合適的步長，或者說，如何找到新的策略使新的回報函式的值單調遞增，或單調不減。這是TRPO解決的問題。
強化學習的回報函式定義為：
$η (\tilde{π}$

) = E π ~ [ ∑

t = 0 ∞ γ t (

r ( s t ) ) ] \eta(\tilde{\pi} )=E_{\tilde{\pi}}[\sum_{t=0}^{\infty}\gamma^t(r(s_t))]

η (\tilde{π}) = E_{\tilde{π}} [t = 0 \sum \infty γ^{t} (r (s_{t}))]

將新策略的回報函式拆分為，[舊策略回報函式+其他項]的方式，如果其他項>=0則，新的回報函式單調不減。如下所示

\eta(\tilde{\pi})=\eta(\pi)+E_{s_0,a_0,\tilde{\pi}}[\sum_{t=0}^\infty\gamma^tA_\pi(s_t,a_t)]\qquad (1)

用

\pi

表示舊策略，

\tilde\pi

表示新策略

A_\pi(s,a)=Q_\pi(s,a)-V_\pi(s)\\ =E_{s&#x27;\sim P(s&#x27;|s,a)}[r(s)+\gamma V_\pi(s&#x27;)-V_\pi(s)]

給出(1)的證明：

$E_{\tilde \pi}[\sum_{t=0}^\infty \gamma^t A_{\pi}(s_t,a_t)]\\ =E_{\tilde \pi}[\sum_{t=0}^\infty\gamma^t(r(s_t)+\gamma V_\pi(s_{t+1})-V_{\pi}(s_t))]\\ =E_{\tilde \pi}[\sum_{t=0}^\infty\gamma^tr(s_t)]+E_{\tilde \pi}[\sum_{t=0}^\infty\gamma^t(\gamma V_\pi(s_{t+1})-V_{\pi}(s_t))]\\ =E_{\tilde \pi}[\sum_{t=0}^\infty\gamma^tr(s_t)]+E_{\tilde \pi}[-V_{\pi}(s_0)]\\ =\eta(\tilde \pi) - \eta(\pi)$

TRPO置信域策略優化推導分析《Trust Region Policy Optimization》

TRPO置信域策略優化推導分析《Trust Region Policy Optimization》

29.分支篇之VPN部署（包括對接、雙鏈路冗餘、優化與分析、策略路由與NAT的影響）

域策略應用簡述

Java - "JUC線程池" 線程狀態與拒絕策略源碼分析

C#：進程、線程、應用程序域(AppDomain)與上下文分析

PowerShell 腳本域策略管理

本地策略、域策略

策略模式---------簡單分析

windows2012 r2 域策略集合

Hibernate(四) - HQL_QBC查詢詳解--抓取策略優化機制

【Hibernate（四）】HQL_QBC查詢詳解——抓取策略優化機制

伯克利、OpenAI等提出基於模型的元策略優化強化學習

跨域策略檔案crossdomain.xml檔案

mysql優化–explain分析sql語句執行效率

netty原始碼閱讀之解碼之基於長度域解碼器引數分析

暴雪遊戲優化技術分析

Spark2.1和2.2 SQL物理執行策略關鍵原始碼分析

Android應用開發效能優化完全分析

《投資買房策略》專案分析報告

愛奇藝Android客戶端啟動優化與分析

TRPO置信域策略優化推導分析《Trust Region Policy Optimization》

相關推薦