1. 程式人生 > >增強學習筆記 第九章 On-Policy預測的近似

增強學習筆記 第九章 On-Policy預測的近似

pro 沒有 線性規劃 學習 表格 定義 問題 symbol 方法

對於狀態空間太大的問題,表格類方法無法存儲這麽大的價值表,也沒有辦法窮盡這麽多的狀態。考慮到很多狀態是相似的,知道一個狀態的價值也就大概知道類似狀態的價值,因此可以采用函數近似的方法,函數近似是監督學習的一個應用。

這一章我們主要做價值函數的近似。我們定義一個N維參數$\boldsymbol \theta$, N比狀態數量小很多,$\theta$可以是線性規劃的權重,也可以是神經網絡的權重,還可以是決策樹的分叉點。得到$v_{\pi}(s)\approx \hat v(s,\boldsymbol \theta)$

增強學習筆記 第九章 On-Policy預測的近似