1. 程式人生 > >增強學習筆記 第四章 動態規劃

增強學習筆記 第四章 動態規劃

策略 blog 條件 並不是 算法 方法 進行 規劃 分享

最優價值函數滿足下列條件:

技術分享

技術分享

4.1 策略評估

策略評估通過反復叠代的方式來進行:

技術分享

技術分享

4.2 策略改進

技術分享

4.3 策略叠代

綜合4.1和4.2,得到策略叠代算法:

技術分享

4.4 價值叠代

對4.3進行簡化,兩步合為一步:

技術分享

技術分享

4.5 異步動態規劃

通過安排叠代順序,而不是每次都整個掃一遍,來更快地獲得我們想要的狀態的value

4.6 廣義策略叠代

策略叠代分為兩步:策略評估使得價值函數和當前策略一致,而策略改進根據當前價值函數來改進策略。

4.7 動態規劃的效率

對於n狀態k動作的問題,雖然總策略數有$k^n$種,但是算法可以在多項式時間內完成。百萬個狀態對DP並不是壓力。對於更大的狀態空間,異步DP或許是更好的方法。

增強學習筆記 第四章 動態規劃