1. 程式人生 > >強化學習(David Silver)4:免模型控制

強化學習(David Silver)4:免模型控制

sil 對比 rsa isod 頻率 模型 找到 使用 采樣

1、一般的策略叠代優化的方法

1)策略評估

2)策略改善

2、model free的策略叠代優化的方法

基於v(s)的優化需要MDP,基於Q的優化不需要,所以策略是

1)使用Q函數策略評估

2)使用厄普西隆貪心策略優化

缺點:非常慢

修正方案:不用積累一批episode再優化;每個episode都優化一次;提升更新頻率

3、如何保證找到了最優策略

GLIE策略保證收斂:

1)每個(s,a)都探索無限次

2)最終策略是收斂的

厄普西隆貪心是GLIE(當厄普西隆收斂時)

4、TD學習:SARSA

SARSA收斂性依賴於:sum(a)->無窮;sum(a^2)->有限值;實踐中不要這麽設置也可以用

5、SARSA和GridWorldSample

6、未知策略學習

1)MC重要性抽樣:為什麽u/v的重要性采樣公式是這樣?移項可以發現兩邊相等;Silver不建議這樣做,這樣效果很差,因為中間乘積太多,變化太大了

2)直接使用Q函數,不需要重要性采樣,就是Q-Learning;是對a做修正,不是對v做修正

7、DP和TD的對比關系:沒有看懂

策略叠代為什麽對應sarsa?value叠代為什麽對應Q-learing?

強化學習(David Silver)4:免模型控制