增強學習筆記第九章 On-Policy預測的近似

阿新 • • 發佈：2017-10-06

pro 沒有線性規劃學習表格定義問題 symbol 方法

對於狀態空間太大的問題，表格類方法無法存儲這麽大的價值表，也沒有辦法窮盡這麽多的狀態。考慮到很多狀態是相似的，知道一個狀態的價值也就大概知道類似狀態的價值，因此可以采用函數近似的方法，函數近似是監督學習的一個應用。

這一章我們主要做價值函數的近似。我們定義一個N維參數$\boldsymbol \theta$, N比狀態數量小很多，$\theta$可以是線性規劃的權重，也可以是神經網絡的權重，還可以是決策樹的分叉點。得到$v_{\pi}(s)\approx \hat v(s,\boldsymbol \theta)$

pro 沒有線性規劃學習表格定義問題 symbol 方法對於狀態空間太大的問題，表格類方法無法存儲這麽大的價值表，也沒有辦法窮盡這麽多的狀態。考慮到很多狀態是相似的，知道一個狀態的價值也就大概知道類似狀態的價值，因此可以采用函數近似的方法，函數近似是監督學習的一

增強學習筆記第九章 On-Policy預測的近似

增強學習筆記第九章 On-Policy預測的近似

強化學習（RLAI）讀書筆記第九章On-policy Prediction with Approximation

強化學習（RLAI）讀書筆記第十章On-Policy Control with Approximation

增強學習筆記第四章動態規劃

增強學習筆記第五章蒙特卡洛方法

增強學習筆記第八章表格類方法的規劃與學習

CLR via C#學習筆記-第九章-參數和返回類型的設計規範

C++ primer學習筆記——第九章順序容器

深度學習花書學習筆記第九章卷積網路

深入淺出nodejs學習筆記--第九章玩轉程序管理

演算法導論學習筆記第九章中值和順序統計

『Python』Numpy學習指南第九章_使用Matplotlib繪圖

<<Python基礎教程>>學習筆記 | 第12章 | 圖形用戶界面

Unity Shader入門精要學習筆記 - 第4章學習 Shader 所需的數學基礎

Unity Shader入門精要學習筆記 - 第3章 Unity Shader 基礎

Unity Shader入門精要學習筆記 - 第11章讓畫面動起來

Unity Shader入門精要學習筆記 - 第16章 Unity中的渲染優化技術

Unity Shader入門精要學習筆記 - 第14章非真實感渲染

Unity Shader入門精要學習筆記 - 第10章高級紋理

深入.NET平臺和C#編程筆記第九章文件操作

增強學習筆記 第九章 On-Policy預測的近似

相關推薦

增強學習筆記第九章 On-Policy預測的近似