1. 程式人生 > >增強學習筆記 第八章 表格類方法的規劃與學習

增強學習筆記 第八章 表格類方法的規劃與學習

ping 學習筆記 com 下一步 方法 規劃 分享 高效 9.png

8.1 模型與規劃

規劃,指利用已有經歷對環境提煉模型,減少對環境交互的依賴。

技術分享

技術分享

8.2 Dyna框架

技術分享

技術分享

8.3 當模型不對時

第一種情況,原路已經行不通,在堵塞處往返多次後,value會被慢慢修正,並找到正確的路

技術分享

第二種情況,發現新的短路,這種情況吧Dyna-Q幾乎找不到這條路,但是Dyna-Q+作了改進,對很久沒更新的(s,a),reward會附加上$k\sqrt t$。

技術分享

8.4 Prioritized Sweeping

通過價值發生變化的程度來進行規劃,變化大的優先規劃,變化過小的略過規劃

技術分享

8.5 規劃的另一種理解

對規劃通常的理解是改善策略,也可以理解為為決定下一個action作準備。

對於象棋這種不需要太快響應的應用來說,花更多時間在規劃上可以使下一步下的更好。

8.6 啟發式搜索

傳統的啟發式搜索並不保存action value,但實際上可以和backup結合,用來高效地改進action value。

如果我們有一個完美的模型(例如棋類遊戲),但是價值函數不完美,那麽我們用較深的啟發式搜索可以獲得更好的策略。

8.7 蒙特卡洛樹搜索

首先,並發出一大堆等概率隨機的trajactories,然後,根據每個路徑上的贏率,選擇贏率最大的。

(略)

增強學習筆記 第八章 表格類方法的規劃與學習