1. 程式人生 > >常用增強學習實驗環境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等) (轉載)

常用增強學習實驗環境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等) (轉載)

原文連結:http://blog.csdn.net/jinzhuojun/article/details/78508203

 

 

前段時間Nature上發表的升級版Alpha Go - AlphaGo Zero再一次成為熱點話題。作為其核心技術之一的Deep reinforcement learning(深度增強學習,或深度強化學習)也再一次引發關注。Alpha Zero最有意義的地方之一是它去除了從人類經驗(棋譜)中學習的過程,而是完全通過“左右互博”式的學習擊敗了自己的“前輩”。這也很能體現強化學習的特點,就是在弱監督資訊下通過”Trial and error”來自我學習。

這兩年DRL隨著深度學習的大熱也是火得不行。於是各種新的強化學習研究平臺如雨後春芛冒出來,而且趨勢也是從簡單的toy場景慢慢擴充套件到3D迷宮,第一人稱射擊遊戲,即時策略類遊戲和複雜機器人控制場景等。之前曾寫文介紹了一些流行的強化學習實驗環境(常用強化學習實驗環境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2))。本文是第二彈。 ps: 真羨慕現在研究強化學習的孩子,各種五花八門的實驗環境,演算法參考實現也可以隨便挑。。。

 

 

在第一篇中介紹過的本文就不重複累述了,這裡把本文涉及的專案大致分為兩類:
1. 實驗場景類: 像OpenAI Gym,MuJoCo這些。

 

名稱 github連結 型別 語言 平臺 官方介紹
ViZDoom 程式碼 FPS C++, Lua, Java, Python Linux,Windows,Mac OS

官網 論文 教程

 

Roboschool 程式碼 Physical simulation Python Linux, Mac OS

部落格

 

Multi-Agent Particle Environment 程式碼 Multi-agent Python Linux

論文 論文

 

 

 

 

 

2. 研究框架類: 一般會整合多個實驗場景並提供方便統一的介面,方便其它場景的接入,並提供一些高階功能(如並行化),同時可能附帶一些演算法參考實現。

 

github連結 場景 語言 實現演算法 相關機構

官方介紹

 

程式碼 OpenAI Gym, MuJoCo Python

Actor Critic,TRPO,PCL,Unified PCL,

Trust-PCL,PCL + Constraint Trust Region,REINFORCE,UREX

Community

N/A