1. 程式人生 > >增強學習筆記 第五章 蒙特卡洛方法

增強學習筆記 第五章 蒙特卡洛方法

兩個 width 重要 思想 後者 src 兩種方法 預測 eps

5.1 蒙特卡洛預測

分為兩種:First-Visit MC和Every-Visit MC,前者用的更多。後者用於函數近似和Eligibility Traces

技術分享

5.2 蒙特卡洛評估action value

如果沒有模型(即不知道每個a會得到什麽樣的s),則應該使用action value而不是state value

5.3 蒙特卡洛控制

這裏要用到廣義策略叠代方法。即交替更新價值函數和策略。經典方法有兩個假設:任意起始點和無窮片段。先去掉後一個解釋,就是利用GPI中的思想,不再等待完整的評估之後再改進策略,而是每走一步都更新actoin value

技術分享

5.4 去掉任意起始點的假設

分為兩種方法:on-policy和off-policy。前者在學習和最終應用的策略是同一個。最常見的是$\epsilon$-soft策略

技術分享

5.5 off-policy預測:重要性取樣

定義兩個策略:目標策略$\pi$和行為策略$\mu$。對於目標策略中任意可能出現的動作(s,a),行為策略中必須出現。

對於策略$\pi$,產生某狀態-動作序列的概率是:

技術分享

那麽對兩個不同策略來說,它們的比值為:

技術分享

為表達方便,我們把多個episode首尾相接成單個episode。得出目標策略的狀態價值函數的表達式:

技術分享

技術分享

前者稱為普通的重要性取樣,後者稱為加權的重要性取樣。前者是無偏的,但是方差較大甚至無限。後者有偏(但漸進於0),但方差較小且有限。後者用的更多。

5.6 增量實現

增強學習筆記 第五章 蒙特卡洛方法