此為《強化學習》第七章 n-step Bootstrapping 。

$n$ 步Bootstrapping是MC和TD(0)的綜合。隨著對引數 $n$ 的調整，我們可以看到TD是如何過渡到MC的。而最佳的方法往往就是介於TD和MC之間。

$n$ 步TD估計

在上一章的TD(0)方法中，我們有

v (S_{t}) \leftarrow v (S_{t}) + α (G_{t} - v (S_{t}))

$v(S_t) \leftarrow v(S_t)+α(G_t−v(S_t))$

並且，我們使用了一步後的狀態值函式來估計 $G_t$ ，從而得到

v (S_{t}) \leftarrow v (S_{t}) + α [R_{t + 1} + γ v (S_{t + 1}) - v (S_{t})]

$v(S_t) \leftarrow v(S_t) + \alpha [ R_{t+1}+\gamma v(S_{t+1})−v(S_t) ]$

那麼如果我們考慮 $n$ 步，那麼顯然 $G_t$ 也可以使用以下等式進行估計：

\begin{aligned} G_{t} & = R_{t + 1} + γ v (S_{t + 1}) \\ = R_{t + 1} + γ R_{t + 2} + γ^{2} v (S_{t + 2}) \\ = R_{t + 1} + γ R_{t + 2} + \dots + γ^{n - 1} R_{t + n} + γ^{n} v (S_{t + n}) \end{aligned}

$\begin{align*} G_t &= R_{t+1} + \gamma v(S_{t+1}) \\ &= R_{t+1} + \gamma R_{t+2} + \gamma^2 v(S_{t+2}) \\ &= R_{t+1} + \gamma R_{t+2} + \cdots + \gamma^{n-1} R_{t+n} + \gamma^n v(S_{t+n}) \end{align*}$

在書本中，上面每個 $v$ 都會有一個下標，表示此處的值函式是哪一步迭代的值函式。但實際上，我們只有一個表格用來存值函式，所以實踐上應該很容易知道到底是哪一步迭代的，因此這裡省略不寫（可見下文虛擬碼即可知）。令上述表示式為 $G_{t:t+n}$ ，則演算法TD(n)為

v (S_{t}) \leftarrow v (S_{t}) + α [G_{t : t + n} - v (S_{t})]

$v(S_t) \leftarrow v(S_t) + \alpha [ G_{t:t+n} − v(S_t) ]$

如果 $t+n=T$ ，那麼TD(n)將成為MC。在回溯圖中，我們可以看到TD(n)包含了從TD(0)到MC的所有演算法。

TD(n)的虛擬碼如下：

稍微解釋一下。第一個迴圈當然是針對episode，第二個迴圈是在一個episode中產生樣本。第一個if表示如果該episode沒有結束，那麼就繼續取樣；if後的 $\tau$ 表示已經執行的步數和 $n-1$ 的差。如果 $\tau < 0$ ，就說明 $n$ 步還沒有走完，當然沒有任何可以迭代的；如果 $\tau \ge 0$ ，則進入第二個if，使用 $n$ 步後的狀態值函式 $v(S_{\tau+n})$ 來更新 $v(S_\tau)$ 。

$n$ 步Sarsa

考慮完狀態值函式，下一步當然是行為值函式。過程幾乎完全一樣，先定義 $G_{t:t+n}$ ：

G_{t} = R_{t + 1} + γ R_{t + 2} + \dots + γ^{n - 1} R_{t + n} + γ^{n} Q (S_{t + n}, A_{t + n})

《強化學習Sutton》讀書筆記（六）——n步Bootstrapping（n-step Bootstrapping）

$n$ 步TD估計

$n$ 步Sarsa

【統計學習方法讀書筆記】感知機的個人理解（2）

【統計學習方法讀書筆記】感知機的個人理解（1）

《強化學習Sutton》讀書筆記（六）——n步Bootstrapping（n-step Bootstrapping）

強化學習（RLAI）讀書筆記第六章差分學習（TD-learning）

《強化學習Sutton》讀書筆記（七）——列表法的計劃與學習（Planning and Learning with Tabular Methods）

《強化學習Sutton》讀書筆記（五）——時序差分學習（Temporal-Difference Learning）

《強化學習Sutton》讀書筆記（四）——蒙特卡洛方法（Monte Carlo Methods）

強化學習（RLAI）讀書筆記第十三章策略梯度方法（Policy Gradient Methods）

強化學習（RLAI）讀書筆記第十二章資格跡（Eligibility Traces）

Linux學習筆記第六周第一次課（3月12日）

【讀書筆記】——《代碼大全》（六）

《機器學習》周志華學習筆記第六章支援向量機（課後習題）python 實現

JAVA學習筆記-----第六天引用資料型別（類）

《好好學習》讀書筆記（三）第二章：掌握臨界知識的方法

Shell指令碼學習指南讀書筆記（一）

機器學習實戰讀書筆記（四）：樸素貝葉斯演算法

周志華《機器學習》讀書筆記（1）

java程式設計思想讀書筆記第十五章泛型（匿名內部類和擦除）

讀書筆記：分散式系統系統與概念（圖靈叢書）

【java讀書筆記】——Collection集合之六大介面（Collection、Set、List、Map、Iterator和Comparable）

《強化學習Sutton》讀書筆記（六）——n步Bootstrapping（n-step Bootstrapping）

n n n步TD估計

n n n步Sarsa

$n$ 步TD估計

$n$ 步Sarsa