【強化學習筆記】4.3 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣

異策略與重要性取樣

因為異策略中的行動策略和目標策略不一樣，也就是說行動策略產生的資料分佈與目標策略的資料分佈存在偏差，即即行動策略的軌跡概率分佈和改善策略的軌跡概率分佈不一樣，因此在使用資料進行目標策略評估的時候需要考慮該影響，常用的方法是重要性取樣。(重要性取樣的原理見文末圖片)

重要性取樣評估目標策略的值函式

在目標策略下，一次實驗的概率為：
$P r (S_{t}, A_{t}, S_{t + 1}, . . . S_{T}) = \prod_{k = t}^{T - 1} π (A_{k} | S_{k}) p (S_{k + 1} | S_{t}, A_{t})$
在行動策略下，該實驗出現的概率為：
$P r (S_{t}, A_{t}, S_{t + 1}, . . . S_{T}) = \prod_{k = t}^{T - 1} μ (A_{k} | S_{k}) p (S_{k + 1} | S_{t}, A_{t})$

P r (S_{t}, A_{t}, S_{t + 1}, . . . S_{T}) = \prod_{k = t}^{T - 1} μ (A_{k} | S_{k}) p (S_{k + 1} | S_{t}, A_{t})

因為很難獲得明確的目標策略

π

的概率分佈，因此使用一個替代分佈進行估計，對應為行動策略分佈

μ

。因此重要性權重為：

ρ_{t}^{T} = \frac{\prod_{k = t}^{T - 1} π (A_{k} | S_{k}) p (S_{k + 1} | S_{t}, A_{t})}{\prod_{k = t}^{T - 1} μ (A_{k} | S_{k}) p (S_{k + 1} | S_{t}, A_{t})} = \prod_{k = t}^{T - 1} \frac{π (A_{k} | S_{k})}{μ (A_{k} | S_{k})}

$普通重要性采样的值函数估计为$ ：
$V (s) = \frac{\sum_{t \in T (s)} ρ_{t}^{T (t)} G_{t}}{| T (s) |}$

【強化學習筆記】4.3 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣

【強化學習筆記】4.3 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣

【強化學習筆記】4.4 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣程式碼實現

【強化學習筆記】4.2 無模型的強化學習方法-蒙特卡羅演算法程式設計實現

【extjs6學習筆記】0.3 準備：類庫結構2

【迅為iTop4412學習筆記】4. 匯流排、裝置、驅動，註冊流程

【Vue.js學習筆記】4：事件修飾符,鍵盤事件,鍵值修飾符

【TensorFlow學習筆記】4：認識Variable及其重用(共享),在scope上的初始化

【SciKit-Learn學習筆記】4：決策樹擬合泰坦尼克號資料集並提交到Kaggle

【OpenCV學習筆記】2.3影象的腐蝕、膨脹、模糊、邊緣檢測

【西瓜書學習筆記】第3章：線性模型

【Spring學習筆記】4：三種做屬性連線的Annotation,指示初始化和銷燬方法的Annotation

【Maven學習筆記】4：在IDEA中使用Maven搭建SSM空專案

【機器學習筆記】第二章：模型評估與選擇

【安全牛學習筆記】OSI網絡模型

【python學習筆記】python函式定義和傳參方法說明

【日常學習筆記】2019/1/10(Oracle語句學習)

【CTP學習筆記】CTP客戶端開發指南學習筆記一

【OpenCV學習筆記】之三：Mat初始建立方法----要求資料連續儲存

【Java Opencv系列】4.3讀取攝像頭並顯示

【隨堂筆記】unity中socket的用法（二、伺服器與客戶端之間簡單的資料傳遞）