1. 程式人生 > >強化學習系列 6 : Actor Critic

強化學習系列 6 : Actor Critic

Actor 和 Critic, 他們都能用不同的神經網路來代替 . 在 Policy Gradients 中, 現實中的獎懲會左右 Actor 的更新情況. Policy Gradients 也是靠著這個來獲取適宜的更新. 那麼何時會有獎懲這種資訊能不能被學習呢? 這看起來不就是 以值為基礎的強化學習方法做過的事嗎. 那我們就拿一個 Critic 去學習這些獎懲機制, 學習完了以後. 由 Actor 來指手畫腳, 由 Critic 來告訴 Actor 你哪些指得好, 哪些指得差, Critic 通過學習環境和獎勵之間的關係, 能看到現在所處狀態的潛在獎勵, 所以用它來指點 Actor 便能使 Actor 每一步都在更新, 如果使用單純的 Policy Gradients, Actor 只能等到回合結束才能開始更新