1. 程式人生 > >李巨集毅的強化學習視訊用於梳理翻閱

李巨集毅的強化學習視訊用於梳理翻閱

本文主要是整理策略迭代的部分,重在闡明原理。李巨集毅的視訊,見網上。

最終說明OpenAI的預設強化學習演算法PPO的部分。(Proximal Policy Optimization)

藍色標記為有待查閱具體程式碼。不同於強化學習的值迭代的容易理解和表達,策略迭代更需要耐心、細心、思考。

 

優化目標

策略