強化學習相關問題

一次看到蘇克在知乎寫的強化學習問題，自己順便學習了一下，可能總結有不對的地方，希望朋友們指出。

1. 強化學習與監督學習的區別

強化學習就是通過不斷與環境互動，利用環境給出的獎懲來不斷的改進策略（即在什麼狀態下采取什麼動作），以求獲得最大的累積獎懲。

主要區別：

監督學習的訓練樣本是有標籤的，強化學習的訓練是沒有標籤的，是通過不斷與環境互動獲得獎懲來學習的。
監督學習的過程是靜態的，強化學習的過程是動態的。動靜態是指是否與環境互動。監督學習是給什麼樣本就學得什麼，強化學習是根據與環境互動的獎懲來學習。
強化學習更側重於決策問題。監督學習更側重執行問題。

2. 強化學習解決序列決策問題

3. 馬爾科夫決策過程

馬爾可夫決策過程是指決策者週期地或連續地觀察具有馬爾可夫性的隨機動態系統，序貫地作出決策。即根據每個時刻觀察到的狀態，從可用的行動集合中選用一個行動作出決策，系統下一步（未來）的狀態是隨機的，並且其狀態轉移概率具有馬爾可夫性。決策者根據新觀察到的狀態，再作新的決策，依此反覆地進行。馬爾可夫性是指一個隨機過程未來發展的概率規律與觀察之前的歷史無關的性質。馬爾可夫性又可簡單敘述為狀態轉移概率的無後效性。狀態轉移概率具有馬爾可夫性的隨機過程即為馬爾可夫過程。馬爾可夫決策過程又可看作隨機對策的特殊情形，在這種隨機對策中對策的一方是無意志的。馬爾可夫決策過程還可作為馬爾可夫型隨機最優控制，其決策變數就是控制變數。

4. 最優值函式與最優策略為什麼等價

$\pi$ 為原策略， $\pi'$ 為改進後策略。
$V$

π ( x ) ≤ Q π ( x , π ′ ( x ) ) = ∑ x ′ ∈ X P π ′ ( x ) [ R x − → x ′ π ′ ( x ) + γ V π ( x ′ ) ] ≤ ∑ x ′ ∈ X P π ′ ( x ) [ R x − → x ′ π ′ ( x ) + γ Q π ( x ′ , π ′ ( x ′ ) ) ] = . . . = V π ′ ( x ) V^\pi(x)\le Q^\pi(x,\pi'(x))=\sum_{x'\in X}P^{\pi'(x)}[R_{x-\to x'}^{\pi'(x)}+\gamma V^\pi(x')]\\ \le \sum_{x'\in X}P^{\pi'(x)}[R_{x-\to x'}^{\pi'(x)}+\gamma Q^\pi(x',\pi'(x'))]=...=V^{\pi'}(x)

V^{π} (x) \leq Q^{π} (x, π^{'} (x)) = x^{'} \in X \sum P^{π^{'} (x)} [R_{x - \to x^{'}}^{π^{'} (x)} + γ V^{π} (x^{'})] \leq x^{'} \in X \sum P^{π^{'} (x)} [R_{x - \to x^{'}}^{π^{'} (x)} + γ Q^{π} (x^{'}, π^{'} (x^{'}))] = . . . = V^{π^{'}} (x)

由此可得值函式對於策略的每一點改進都是單調的，策略改進與值函式的改進是一致的，因此可將值函式的改進視為策略改進。

5. 求解馬爾科夫決策過程都有哪些方法？有模型用什麼方法？動態規劃是怎麼回事？

求解馬爾科夫決策過程都有哪些方法？有模型用什麼方法？
策略迭代，值迭代。
動態規劃是怎麼回事？
求解決策過程最優化的方法，把多階段過程轉化為一系列單階段問題，利用各階段之間的關係逐個求解，可以認為每個單階段任務之前的多階段過程是最優的，在之前最優的基礎上選出當前階段最優的決策。其基本思想也是將待求解問題分解成若干個子問題，先求解子問題，然後從這些子問題的解得到原問題的解。
貝爾曼公式就是一個動態規劃的過程。

6. 基於蒙特卡洛的強化學習方法

on-policy與off-policy

7. DP，MC，TD方法的異同

DP有模型學習，利用後繼狀態的值函式估計當前狀態值函式。——利用模型估計當前值函式，利用模型得到後繼狀態。
MC，當沒有模型時，後繼狀態無法完全得到，且沒有狀態轉移概率，只能通過取樣求平均的方法得到。相比於DP，MC需要一次多步實驗結束才能改進一次策略，效率低。——利用取樣求平均估計當前值函式
TD，將DP與MC相結合，利用 $R^a_{x\to x'}+Q(x',a')$ 來估計當前值函式。——DP與MC結合估計當前值函式。利用試驗得到後繼狀態。

8. MC和TD分別是無偏估計嗎，為什麼？MC、TD誰的方差大，為什麼？

MC，MC的返回值為 $G_t=R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-1}R_T$ 或 $G_t=\frac{1}{T-t}\sum_{i=t+1}^T R_t$ ，是對取樣求平均，其就是值函式的定義，因此MC是無偏估計。但是非常依賴每一次的取樣值，因此方差會很大。
TD，TD利用的是 $G_t = R_{t+1}+\gamma V(x_{t+1})$ ，若 $V(x_{t+1})$ 為無偏的，則TD也為無偏估計，但是 $V(x_{t+1})$ 為估計值，則TD是有偏的。由於TD只利用一次取樣，因此對取樣依賴小，隨機性相對MC小，因此方差較小。

9. 寫出用第n步的值函式更新當前值函式的公式（1-step，2-step，n-step的意思）。當n的取值變大時，偏差和方差分別變大、變小？

TD只利用下一個狀態的值函式，如何利用第二個，第三個，…值函式呢？
令 $G_t^1=R_{t+1}+\gamma V(s_{t+1})$ 表示TD目標，利用第二步狀態更新值函式為 $G_t^2=R_{t+1}+\gamma R_{t+2}+ \gamma^2 V(s_{t+2})$ ，利用第n步狀態更新值函式為 $G_t^n=R_{t+1}+\gamma R_{t+2} + ... + \gamma^{n-1} V(s_{t+n})$

強化學習相關問題

1. 強化學習與監督學習的區別

2. 強化學習解決序列決策問題

3. 馬爾科夫決策過程

4. 最優值函式與最優策略為什麼等價

5. 求解馬爾科夫決策過程都有哪些方法？有模型用什麼方法？動態規劃是怎麼回事？

6. 基於蒙特卡洛的強化學習方法

7. DP，MC，TD方法的異同

8. MC和TD分別是無偏估計嗎，為什麼？MC、TD誰的方差大，為什麼？

9. 寫出用第n步的值函式更新當前值函式的公式（1-step，2-step，n-step的意思）。當n的取值變大時，偏差和方差分別變大、變小？

強化學習相關資源

強化學習相關問題

常用牛人主頁鏈接（計算機視覺、模式識別、機器學習相關方向,陸續更新。。。。）【轉】

常用牛人主頁鏈接（計算機視覺、模式識別、機器學習相關方向,陸續更新

學習筆記TF037:實現強化學習策略網絡

強化學習(David Silver)4：免模型學習

強化學習(David Silver)4：免模型控制

強化學習(David Silver)6：值函數近似

增量式強化學習

Seq2SQL ：使用強化學習通過自然語言生成SQL

強化學習

【基礎知識十六】強化學習

強化學習(David Silver)2：MDP(馬爾科夫決策過程)

強化學習(David Silver)3：動態規劃

強化學習之猜猜我是誰--- Deep Q-Network ^_^

機器學習相關內容

SX知識學習——相關sources

強化學習初步學習

AI+遊戲：高效利用樣本的強化學習 | 騰訊AI Lab學術論壇演講

強化學習步驟

強化學習相關問題

1. 強化學習與監督學習的區別

2. 強化學習解決序列決策問題

3. 馬爾科夫決策過程

4. 最優值函式與最優策略為什麼等價

5. 求解馬爾科夫決策過程都有哪些方法？有模型用什麼方法？動態規劃是怎麼回事？

6. 基於蒙特卡洛的強化學習方法

7. DP，MC，TD方法的異同

8. MC和TD分別是無偏估計嗎，為什麼？MC、TD誰的方差大，為什麼？

9. 寫出用第n步的值函式更新當前值函式的公式（1-step，2-step，n-step的意思）。當n的取值變大時，偏差和方差分別變大、變小？

相關推薦