強化學習 10: 實踐中的一些技巧
在實踐中有時候為了達到更好的效果需要用一些技巧。

Practical Reinforcement Learning
1. 我們知道在交叉熵方法中,例如進行一百次實驗,那麼只需要選擇其中最好的25次。這樣的取樣其實是效率很低的。
所以可以用一些小竅門來讓它執行得更高效一些。例如可以重新利用一下過去的3到5次迭代中的樣本,即不需要每次都取樣幾百次幾千次,也許可以只採樣20次,然後剩下的80次是利用之前的樣本。
2. 交叉熵方法還有一個問題是,有些時候會陷入區域性最優的情況。例如有一些神經網路結構會導致它產生梯度爆炸,那麼 agent 就很大可能不會遇見零概率的情況。
在強化學習中這個問題是很糟糕的,因為如果沒有概率為零的 action,就意味著 agent 會錯過某些 action 和 state,因為從來沒有采取過這個 action,就可能導致遇見的只是一個區域性最優解,真正的最優解還沒有機會遇見。有一種最簡單的解決方法是對熵做正規化。
3. 對於交叉熵方法,很容易應用並行演算法。例如我們要對視訊遊戲取樣1000次,就可以並行地進行取樣。
4. 還有一個情況是,如果我們不想僅僅依賴於當前的觀察,可以用一些神經網路結構來記憶儲存,儲存前面的一些有用的資訊,這個會在後面學習。
學習資料:
ofollow,noindex">Practical Reinforcement Learning
推薦閱讀歷史技術博文連結彙總
http://www.jianshu.com/p/28f02bb59fe5
也許可以找到你想要的:
[入門問題][TensorFlow][深度學習][強化學習][神經網路][機器學習][自然語言處理][聊天機器人]
Hello World !
This is 不會停的蝸牛 Alice !
:snail: 要開始 連載強化學習 系列啦!
今天開始我們一起來 每天 2 分鐘,get 強化學習的一個小知識吧!