4. 免模型策略改進——蒙特卡洛（Monte-Carlo）和時序差分（Temporal-Difference）

阿新 • • 發佈：2018-12-18

other psi 動態技術分享獎勵 style 速度 src $1

針對馬爾科夫模型不完全已知，即轉移概率未知，不能全概率展開的情況，上一篇介紹了策略評估的方法，這一篇對應介紹策略改進的方法，分別是

針對每一個完整決策過程，先估計策略再改進策略的蒙特卡洛同策略學習方式；

針對完整決策過程中的每一步狀態動作對生成，評估改進同一個策略$\pi$的時序差分同策略Sarsa學習方式；

針對完整決策過程中的每一步狀態動作對生成，評估策略$\pi$過程中利用未來最大化的貪心策略$\beta$的時序差分異策略Q-learning學習方式。

蒙特卡洛學習

像動態規劃裏解釋的一樣，叠代收斂得到了新的$v_\pi$後，就可以依據新的$v_\pi$改進我們的策略$\pi$。改進的策略$\pi$又可以繼續叠代收斂到新的$v_\pi$，如此循環，最終收斂至$\pi^*$，

技術分享圖片

但是我們沒有辦法像動態規劃裏一樣，直接貪心選擇最優的策略$\pi$，因為此時的馬爾科夫模型是部分已知的，不能全概率展開來求得最優。所以我們利用$\varepsilon {\rm{ - Greedy}}$算法，

\[\pi \left( {a|s} \right) = \left\{ \begin{array}{l}
\varepsilon /m + 1 - \varepsilon \\
\varepsilon /m
\end{array} \right.\begin{array}{*{20}{c}}
{{\rm{ if }}a* = \mathop {\arg \max }\limits_{a \in A} Q(s,a)}\\
{{\rm{otherwise}}}
\end{array}\]

以$\varepsilon$的概率探索，隨機選擇動作，來得到獎勵反饋，從而更新Q值；以$1-\varepsilon$的概率利用，選擇目前Q值最大的動作，來保證整體獎勵盡可能大。

所以蒙特卡洛學習過程如下，

初始化Q表，

1. 基於現有的Q表，利用$\varepsilon {\rm{ - Greedy}}$策略$\pi$（以$\varepsilon$的概率隨機探索，從而豐富Q表的估計；以$1-\varepsilon$的概率選擇目前Q值最大的動作，以獲得最大獎勵），從$s_0$開始生成一個完整的episode，也就是許多個狀態-動作對$(s,a) $；

2. 對該episode中的每一個狀態-動作對$(s,a) $：

　　計算平均累積獎勵$G(s,a) $

　　更新Q值，${Q_\pi }(s,a) \leftarrow {Q_\pi }(s,a) + \alpha (G(s,a) - {Q_\pi }(s,a))$；

3. 依據新的Q表，更新新的策略$\pi$；

4. 重復以上步驟，從許多個episode中不斷更新Q表，從而獲得最優策略$\pi*$。

時序差分學習

像動態規劃裏解釋的一樣，為了加快收斂速度，我們可以在$v_\pi$還沒有收斂的叠代過程中，就立馬改進$v$，利用這個更新的$v$，立馬對應更新策略$\pi$，再循環這個過程。註意我們為了使策略生成狀態-動作對的過程保持一定的探索率，同樣利用$\varepsilon {\rm{ - Greedy}}$策略$\pi$。

！！！

在更新$Q$的過程中，我們有兩種方式，第一種是同策略的Sarsa，第二種是異策略的Q-learning。

就是計算下一個狀態動作值函數Q時，是仍利用我們評估的$\varepsilon {\rm{ - Greedy}}$策略$\pi$（同策略），還是直接利用貪心策略最大值$Greedy$策略$\beta$。

\[\begin{array}{l}
{Q_\pi }(s,a) \leftarrow {Q_\pi }(s,a) + \alpha (R + \gamma {Q_\pi }(s‘,a‘) - {Q_\pi }(s,a))\\
{Q_\pi }(s,a) \leftarrow {Q_\pi }(s,a) + \alpha (R + \gamma {\max _a}Q(s‘,a) - {Q_\pi }(s,a))
\end{array}\]

！！！

Sarsa算法過程如下，

初始化Q表，

對每一個episode：

從$s_0$開始，對episode中的每一步：

利用$\varepsilon {\rm{ - Greedy}}$策略$\pi$，根據當前狀態$s$選擇動作$a$，得到獎勵$r$，下一時刻狀態$s‘$；

仍根據當前Q值對應的$\varepsilon {\rm{ - Greedy}}$策略$\pi$，根據下一狀態$s‘$選擇動作$a‘$，計算下一時刻的${Q_\pi }(s‘,a‘)$

利用已經得到的獎勵$r$和計算得到的下一時刻的${Q_\pi }(s‘,a‘)$，更新現在的${Q_\pi }(s,a)$，${Q_\pi }(s,a) \leftarrow {Q_\pi }(s,a) + \alpha (R + \gamma {Q_\pi }(s‘,a‘) - {Q_\pi }(s,a))$；

重復上述步驟至episode結束。

重復以上步驟，從許多個episode中的每一步中不斷學習，從而獲得最優策略$\pi*$。

Q-learning算法過程如下，

初始化Q表，

對每一個episode：

從$s_0$開始，對episode中的每一步：

利用$\varepsilon {\rm{ - Greedy}}$策略$\pi$，根據當前狀態$s$選擇動作$a$，得到獎勵$r$，下一時刻狀態$s‘$；

利用已經得到的獎勵$r$和基於現有Q表下一狀態的最大可能取值${\max _a}Q(s‘,a)$，更新現在的${Q_\pi }(s,a)$，${Q_\pi }(s,a) \leftarrow {Q_\pi }(s,a) + \alpha (R + \gamma {\max _a}Q(s‘,a) - {Q_\pi }(s,a))$；

重復上述步驟至episode結束。

重復以上步驟，從許多個episode中的每一步中不斷學習，從而獲得最優策略$\pi*$。

4. 免模型策略改進——蒙特卡洛（Monte-Carlo）和時序差分（Temporal-Difference）

other psi 動態技術分享獎勵 style 速度 src $1 針對馬爾科夫模型不完全已知，即轉移概率未知，不能全概率展開的情況，上一篇介紹了策略評估的方法，這一篇對應介紹策略改進的方法，分別是針對每一個完整決策過程，先估計策略再改進策略的蒙特卡洛同策略學習方式

4. 免模型策略改進——蒙特卡洛（Monte-Carlo）和時序差分（Temporal-Difference）

蒙特卡洛學習

時序差分學習

4. 免模型策略改進——蒙特卡洛（Monte-Carlo）和時序差分（Temporal-Difference）

強化學習（五）用時序差分法（TD）求解

Spark部分：Spark中取交集（intersection ）和取差集（subtract ）【Java版純程式碼】

蒙特卡洛（Monte Carlo）方法求面積

《強化學習Sutton》讀書筆記（四）——蒙特卡洛方法（Monte Carlo Methods）

一文詳解蒙特卡洛（Monte Carlo）法及其應用

蒙特·卡羅方法（Monte Carlo method）

C#復習筆記（4）--C#3：革新寫代碼的方式（查詢表達式和LINQ to object（上））

C#復習筆記（4）--C#3：革新寫代碼的方式（查詢表達式和LINQ to object（下））

蒙特卡羅方法（Monte Carlo method）

強化學習系列（五）：蒙特卡羅方法（Monte Carlo)

如何用R進行蒙特卡羅模擬（Monte Carlo Simulation with R）

蒙特卡羅方法（Monte Carlo method）淺入

蒙特卡羅（Monte Carlo）方法計算圓周率π

Linux學習第一步（虛擬機的和鏡像文件的安裝）

用戶（user）和用戶組（group）相關的配置文件、命令或目錄；

java異常—檢查異常（checked exception）和未檢查異常（unchecked exception）

laravel服務容器-----深入理解控制反轉（IoC）和依賴註入（DI）

java中接口（interface）和虛基類（abstract class）的區別

數據庫字符集（AL32UTF8）和客戶端字符集（2%）是不同的

4. 免模型策略改進——蒙特卡洛（Monte-Carlo）和時序差分（Temporal-Difference）

蒙特卡洛學習

時序差分學習

相關推薦