1. 程式人生 > >強化學習(David Silver)6:值函數近似

強化學習(David Silver)6:值函數近似

最優解 學習 前向算法 數據 計算 action 算法 什麽 化學

0、為什麽有值函數近似

狀態空間太大,基於DP/MC/TD的方法的離散值太多,存儲量太大,運行太慢

1、值函數近似有兩種方法

一個是狀態值函數方法;一個是狀態動作值方法

2、值函數近似的三種類型

類型1:輸入狀態S,輸出v

類型2:輸入狀態S,action a,輸出Q(s,a,w)

類型3:輸入狀態S,輸出Q(s,a1,w),Q(s,a1,w)

3、逼近函數

逼近函數:特征的線性組合/神經網絡/決策樹/最近鄰/傅裏葉基/小波基

訓練方法:可以擁有非平穩,非獨立同分布的數據

4、梯度下降算法

MC傾向於一個局部最優解;TD傾向於全局最優解

TD(lambda)前向算法好理解

TD(lambda)後向算法的資格跡怎麽計算呢?

強化學習(David Silver)6:值函數近似