增強學習筆記 第八章 表格類方法的規劃與學習
阿新 • • 發佈:2017-10-06
ping 學習筆記 com 下一步 方法 規劃 分享 高效 9.png
8.1 模型與規劃
規劃,指利用已有經歷對環境提煉模型,減少對環境交互的依賴。
8.2 Dyna框架
8.3 當模型不對時
第一種情況,原路已經行不通,在堵塞處往返多次後,value會被慢慢修正,並找到正確的路
第二種情況,發現新的短路,這種情況吧Dyna-Q幾乎找不到這條路,但是Dyna-Q+作了改進,對很久沒更新的(s,a),reward會附加上$k\sqrt t$。
8.4 Prioritized Sweeping
通過價值發生變化的程度來進行規劃,變化大的優先規劃,變化過小的略過規劃
8.5 規劃的另一種理解
對規劃通常的理解是改善策略,也可以理解為為決定下一個action作準備。
對於象棋這種不需要太快響應的應用來說,花更多時間在規劃上可以使下一步下的更好。
8.6 啟發式搜索
傳統的啟發式搜索並不保存action value,但實際上可以和backup結合,用來高效地改進action value。
如果我們有一個完美的模型(例如棋類遊戲),但是價值函數不完美,那麽我們用較深的啟發式搜索可以獲得更好的策略。
8.7 蒙特卡洛樹搜索
首先,並發出一大堆等概率隨機的trajactories,然後,根據每個路徑上的贏率,選擇贏率最大的。
(略)
增強學習筆記 第八章 表格類方法的規劃與學習