1. 程式人生 > >深度強化學習——A3C

深度強化學習——A3C

聯絡方式:[email protected]

非同步的優勢行動者評論家演算法(Asynchronous Advantage Actor-Critic,A3C)是Mnih等人根據非同步強化學習(Asynchronous Reinforcement Learning, ARL) 的思想,提出的一種輕量級的 DRL 框架,該框架可以使用非同步的梯度下降法來優化網路控制器的引數,並可以結合多種RL演算法。

一、問題與貢獻

存在的問題
不同型別的深度神經網路為 DRL 中策略優化任務提供了高效執行的表徵形式。 為了緩解傳統策略梯度方法與神經網路結合時出現的不穩定性,各類深度策略梯度方法(如 DDPG、 SVG 等)都採用了經驗回放機制來消除訓練資料間的相關性。

然而經驗回放機制存在兩個問題:

  1. agent 與環境的每次實時互動都需要耗費很多的記憶體和計算力;
  2. 經驗回放機制要求 agent 採用離策略(off-policy)方法來進行學習,而off-policy方法只能基於舊策略生成的資料進行更新;

此外,過往DRL的訓練都依賴於計算能力很強的圖形處理器(如GPU)

論文貢獻

  1. 非同步地執行多個 agent, 通過並行的 agent 經歷的不同狀態,去除訓練過程中產生的狀態轉移樣本之間的關聯性;

  2. 只需一個標準的多核CPU即可實現演算法,在效果、時間和資源消耗上都優於傳統方法。

適用範圍:
on-policy:sarsa, n-step methods, actor-critic
off-policy:Q-Learning
離散、連續型動作控制

二、RL背景知識

Value-Based(或Q-Learning)和Policy-Based(或Policy Gradients)是強化學習中最重要的兩類方法,區別在於

  • Value-Based是預測某個State下所有Action的期望價值(Q值),之後通過選擇最大Q值對應的Action執行策略,適合僅有少量離散取值的Action的環境;
  • Policy-Based是直接預測某個State下應該採取的Action,適合高維連續Action的環境,更通用;

根據是否對State的變化進行預測,RL又可以分為model-basedmodel-free

  • model-based,根據State和採取的Action預測接下來的State,並利用這個資訊訓練強化學習模型(知道狀態的轉移概率);
  • model-free,不需對環境狀態進行任何預測,也不考慮行動將如何影響環境,直接對策略或Action的期望價值進行預測,計算效率非常高。

因為複雜環境中難以使用model預測接下來的環境狀態,所以傳統的DRL都是基於model-free。

1. Value-Based & model-free

t時刻開始到情節結束時,總回報:

Rt=k=0γkrt+k
狀態價值函式
Vπ(s)=E[Rt|st=s]
動作價值函式
Qπ(s,a)=E[Rt|st=s,a]
DQN的Loss Function
L(θi)=E[(TargetQQ(s,a;θi))2]
TargetQ=r+γmaxaQ(s,a;θi)
上面的Loss Function基於one-step Q-learning。
所謂one-step是計算Target Q值時只看下一個State,而n-step則是計算了後續n步的State,即
TargetQ=rt+γrt+1++γn1rt+n1+γnmaxaQ(s,a;θi)

One-step的缺點:
只直接影響產生回報r的pair(s, a)的Value,其他pairs的Value只能通過Q(s,a)間接影響,造成學習速度很慢。

n-step的優點:
一個回報r直接影響先前n個pairs,學習更有效。

2. Policy-Based & model-free

直接將策略引數化

π(a|s,θ)
通過迭代更新 θ,使總回報期望 E[Rt] 梯度上升。
具體地
這裡寫圖片描述

①中,π(at|st;θ)表示在 st,θ 的情況下選擇動作 at 的概率。概率的對數乘以該動作的總回報 Rt,對 θ 求梯度,以梯度上升的方式更新 θ 。該公式的意義在於,回報越高的動作越努力提高它出現的概率。

但是某些情形下,每個動作的總回報 Rt 都不為負,那麼所有的梯度值都大於等於0,此時每個動作出現的概率都會提高,這在很大程度下減緩了學習的速度,而且也會使梯度的方差很大。因此需要對 Rt 使用某種標準化操作來降低梯度的方差。

②具體地,可以讓 Rt 減去一個基線 b(baseline),b 通常設為 Rt 的一個期望估計,通過求梯度更新 θ,總回報超過基線的動作的概率會提高,反之則降低,同時還可以降低梯度方差(證明略)。這種方式被叫做行動者-評論家(actor-critic)體系結構,其中策略 π 是行動者,基線 bt 是評論家。

③在實際中,Rtbt(st) 可使用動作優勢函式 Aπ(at,st)=Qπ(at,st)Vπ(st)代替,因為 Rt 可以視為 Qπ(at,st) 的估計,基線 bt(st) 視為