常用增強學習實驗環境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等) (轉載)
原文連結:http://blog.csdn.net/jinzhuojun/article/details/78508203
前段時間Nature上發表的升級版Alpha Go - AlphaGo Zero再一次成為熱點話題。作為其核心技術之一的Deep reinforcement learning(深度增強學習,或深度強化學習)也再一次引發關注。Alpha Zero最有意義的地方之一是它去除了從人類經驗(棋譜)中學習的過程,而是完全通過“左右互博”式的學習擊敗了自己的“前輩”。這也很能體現強化學習的特點,就是在弱監督資訊下通過”Trial and error”來自我學習。
這兩年DRL隨著深度學習的大熱也是火得不行。於是各種新的強化學習研究平臺如雨後春芛冒出來,而且趨勢也是從簡單的toy場景慢慢擴充套件到3D迷宮,第一人稱射擊遊戲,即時策略類遊戲和複雜機器人控制場景等。之前曾寫文介紹了一些流行的強化學習實驗環境(常用強化學習實驗環境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2))。本文是第二彈。 ps: 真羨慕現在研究強化學習的孩子,各種五花八門的實驗環境,演算法參考實現也可以隨便挑。。。
在第一篇中介紹過的本文就不重複累述了,這裡把本文涉及的專案大致分為兩類:
1. 實驗場景類: 像OpenAI Gym,MuJoCo這些。
名稱 | github連結 | 型別 | 語言 | 平臺 | 官方介紹 |
---|
ViZDoom | 程式碼 | FPS | C++, Lua, Java, Python | Linux,Windows,Mac OS |
|
Roboschool | 程式碼 | Physical simulation | Python | Linux, Mac OS |
|
Multi-Agent Particle Environment | 程式碼 | Multi-agent | Python | Linux |
|
2. 研究框架類: 一般會整合多個實驗場景並提供方便統一的介面,方便其它場景的接入,並提供一些高階功能(如並行化),同時可能附帶一些演算法參考實現。
github連結 | 場景 | 語言 | 實現演算法 | 相關機構 | 官方介紹
|
---|---|---|---|---|---|
程式碼 | OpenAI Gym, MuJoCo | Python | Actor Critic,TRPO,PCL,Unified PCL, Trust-PCL,PCL + Constraint Trust Region,REINFORCE,UREX |
Community | N/A |