1. 程式人生 > >【強化學習筆記】4.3 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣

【強化學習筆記】4.3 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣

異策略與重要性取樣

因為異策略中的行動策略和目標策略不一樣,也就是說行動策略產生的資料分佈與目標策略的資料分佈存在偏差,即即行動策略的軌跡概率分佈和改善策略的軌跡概率分佈不一樣,因此在使用資料進行目標策略評估的時候需要考慮該影響,常用的方法是重要性取樣。(重要性取樣的原理見文末圖片)

重要性取樣評估目標策略的值函式

在目標策略下,一次實驗的概率為:
Pr(St,At,St+1,...ST)=k=tT1π(Ak|Sk)p(Sk+1|St,At)
在行動策略下,該實驗出現的概率為:

Pr(St,At,St+1,...ST)=k=tT1μ(Ak|Sk)p(Sk+1|St,At)
因為很難獲得明確的目標策略π的概率分佈,因此使用一個替代分佈進行估計,對應為行動策略分佈μ。因此重要性權重為:
ρtT=k=tT1π(Ak|Sk)p(Sk+1|St,At)k=tT1μ(Ak|Sk)p(Sk+1|St,
At)=k=tT1π(Ak|Sk)μ(Ak|Sk)