強化學習中的off-policy 和on-policy

阿新 • • 發佈：2018-12-31

強化學習可以分成off-policy（離線）和on-policy（線上）兩種學習方法，按照個人理解，判斷一個強化學習是off-policy還是on-policy的依據在於生成樣本的policy（value-funciton）和網路引數更新時的policy（value-funciton）是否相同。

off-policy的經典演算法有Q-learning，而on-policy的經典演算法有SARSA演算法，兩者的演算法流程如下所示。

Q-learning演算法：

initialize Q(s,a) randomly
for each episode:
    initialize state s;
    while 
 s is not terminal:
        choose action a from s using ε-greedy strategy;
        observe reward r and next state s';
        Q(s,a) <- Q(s,a) + α[r + γ*maxQ(s',a') - Q(s,a);
        s <- s';]

SARAS演算法：

initialize Q(s,a) randomly
for each episode:
    initialize state s;
    choose action a from 
 s using ε-greedy strategy;
    while s is not terminal:
        observe reward r and next state s';
        choose a' from s' using ε-greedy strategy;
        Q(s,a) <- Q(s,a) + α[r + γ*Q(s',a') - Q(s,a);
        s <- s', a <- a';]

這兩個演算法的流程基本一致，唯一不同在於Q函式的更新：

Q-learning在計算下一狀態的預期收益時使用了max操作，直接選擇最優動作，而當前policy並不一定能選擇到最優動作，因此這裡生成樣本的policy和學習時的policy不同，為off-policy演算法；

而SARAS則是基於當前的policy直接執行一次動作選擇，然後用這個樣本更新當前的policy，因此生成樣本的policy和學習時的policy相同，演算法為on-policy演算法。

而最近深度強化學裡中使用的experience-replay機制將生成的樣本與訓練的樣本獨立開來，使用某一policy生成的樣本拿來訓練的時候，很可能當前policy已經和之前有所差別，因此使用experience-replay機制的DRL演算法基本上是off-policy演算法

強化學習中的off-policy 和on-policy

強化學習中的off-policy 和on-policy

增強學習筆記第九章 On-Policy預測的近似

python 機器學習中模型評估和調參

[譯] 強化學習中的好奇心與拖延症

機器學習中的偏差和方差

hexo next中遇到的bug，引發出的關於jquery中click()函式和on("click",function())的區別

[強化學習]OpenAI官方釋出：強化學習中的關鍵論文

深度學習中卷積和池化的總結

深度學習中卷積和池化的一些總結

關於連線查詢主要是左右連線查詢中，where和on的區別

機器學習中訓練集和測試集歸一化-matlab

mysql中的CURRENT_TIMESTAMP和ON UPDATE CURRENT_TIMESTAMP

清華大學馮珺：基於強化學習的關係抽取和文字分類 | 實錄·PhD Talk

深度學習中交叉熵和KL散度和最大似然估計之間的關系

強化學習（RLAI）讀書筆記第十一章 Off-policy Methods with Approximation

強化學習（RLAI）讀書筆記第十章On-Policy Control with Approximation

強化學習（RLAI）讀書筆記第九章On-policy Prediction with Approximation

CS294-112 深度強化學習秋季學期（伯克利）NO.4 Policy gradients introduction

強化學習（RLAI）讀書筆記第十三章策略梯度方法（Policy Gradient Methods）

【李巨集毅深度強化學習2018】P2 Proximal Policy Optimization (PPO)

強化學習中的off-policy 和on-policy

相關推薦