增強學習筆記第五章蒙特卡洛方法

阿新 • • 發佈：2017-10-03

兩個 width 重要思想後者 src 兩種方法預測 eps

5.1 蒙特卡洛預測

分為兩種：First-Visit MC和Every-Visit MC，前者用的更多。後者用於函數近似和Eligibility Traces

技術分享

5.2 蒙特卡洛評估action value

如果沒有模型（即不知道每個a會得到什麽樣的s），則應該使用action value而不是state value

5.3 蒙特卡洛控制

這裏要用到廣義策略叠代方法。即交替更新價值函數和策略。經典方法有兩個假設：任意起始點和無窮片段。先去掉後一個解釋，就是利用GPI中的思想，不再等待完整的評估之後再改進策略，而是每走一步都更新actoin value

技術分享

5.4 去掉任意起始點的假設

分為兩種方法：on-policy和off-policy。前者在學習和最終應用的策略是同一個。最常見的是$\epsilon$-soft策略

技術分享

5.5 off-policy預測：重要性取樣

定義兩個策略：目標策略$\pi$和行為策略$\mu$。對於目標策略中任意可能出現的動作(s,a)，行為策略中必須出現。

對於策略$\pi$，產生某狀態-動作序列的概率是：

技術分享

那麽對兩個不同策略來說，它們的比值為：

技術分享

為表達方便，我們把多個episode首尾相接成單個episode。得出目標策略的狀態價值函數的表達式：

技術分享

前者稱為普通的重要性取樣，後者稱為加權的重要性取樣。前者是無偏的，但是方差較大甚至無限。後者有偏（但漸進於0），但方差較小且有限。後者用的更多。

5.6 增量實現

增強學習筆記第五章蒙特卡洛方法

兩個 width 重要思想後者 src 兩種方法預測 eps 5.1 蒙特卡洛預測分為兩種：First-Visit MC和Every-Visit MC，前者用的更多。後者用於函數近似和Eligibility Traces 5.2 蒙特卡洛評估action valu

增強學習筆記第五章蒙特卡洛方法

增強學習筆記第五章蒙特卡洛方法

強化學習（RLAI）讀書筆記第五章蒙特卡洛方法

增強學習筆記第八章表格類方法的規劃與學習

增強學習筆記第四章動態規劃

增強學習筆記第九章 On-Policy預測的近似

CLR via C#學習筆記-第五章-基元類型、引用類型和值類型-編程語言的基元類型

CLR via C#學習筆記-第五章-引用類型和值類型

CLR via C#學習筆記-第五章-值類型的裝箱和拆箱

CLR via C#學習筆記-第五章-使用接口更改已裝箱值類型中的字段

CLR via C#學習筆記-第五章-對象相等性和同一性

《C++ Primer Plus》學習筆記——第五章迴圈和關係表示式（一）

《機器學習》周志華學習筆記第五章神經網路（課後習題） python實現

CLR via C#學習筆記-第八章-分部方法

強化學習導論第五章蒙特卡洛模擬

《C++ Primer Plus》學習筆記——第五章迴圈和關係表示式（二）

《C++ Primer Plus》學習筆記——第五章迴圈和關係表示式（三）

《C++ Primer Plus》學習筆記——第五章迴圈和關係表示式（四）

《Spring實戰》學習筆記-第五章：構建Spring web應用

吳恩達機器學習學習筆記第五章：多變數線性迴歸

[HeadFrist-HTMLCSS學習筆記]第五章認識媒體：給網頁添加圖像

增強學習筆記 第五章 蒙特卡洛方法

相關推薦

增強學習筆記第五章蒙特卡洛方法