常用增強學習實驗環境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等) （轉載）

阿新 • • 發佈：2019-01-07

原文連結：http://blog.csdn.net/jinzhuojun/article/details/78508203

前段時間Nature上發表的升級版Alpha Go - AlphaGo Zero再一次成為熱點話題。作為其核心技術之一的Deep reinforcement learning（深度增強學習，或深度強化學習）也再一次引發關注。Alpha Zero最有意義的地方之一是它去除了從人類經驗（棋譜）中學習的過程，而是完全通過“左右互博”式的學習擊敗了自己的“前輩”。這也很能體現強化學習的特點，就是在弱監督資訊下通過”Trial and error”來自我學習。

這兩年DRL隨著深度學習的大熱也是火得不行。於是各種新的強化學習研究平臺如雨後春芛冒出來，而且趨勢也是從簡單的toy場景慢慢擴充套件到3D迷宮，第一人稱射擊遊戲，即時策略類遊戲和複雜機器人控制場景等。之前曾寫文介紹了一些流行的強化學習實驗環境(常用強化學習實驗環境 I (MuJoCo, OpenAI Gym, rllab, DeepMind Lab, TORCS, PySC2))。本文是第二彈。 ps: 真羨慕現在研究強化學習的孩子，各種五花八門的實驗環境，演算法參考實現也可以隨便挑。。。

在第一篇中介紹過的本文就不重複累述了，這裡把本文涉及的專案大致分為兩類：
1. 實驗場景類: 像OpenAI Gym，MuJoCo這些。

名稱	github連結	型別	語言	平臺	官方介紹

ViZDoom

程式碼

FPS

C++, Lua, Java, Python

Linux,Windows,Mac OS

官網論文教程

Roboschool

程式碼

Physical simulation

Python

Linux, Mac OS

部落格

Multi-Agent Particle Environment

程式碼

Multi-agent

Python

Linux

論文論文

2. 研究框架類: 一般會整合多個實驗場景並提供方便統一的介面，方便其它場景的接入，並提供一些高階功能（如並行化），同時可能附帶一些演算法參考實現。

github連結

場景

語言

實現演算法

相關機構

官方介紹

程式碼

OpenAI Gym, MuJoCo

Python

Actor Critic，TRPO，PCL，Unified PCL，

Trust-PCL，PCL + Constraint Trust Region，REINFORCE，UREX

Community

N/A

常用增強學習實驗環境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等) （轉載）

常用增強學習實驗環境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等) （轉載）

準備 overlay 網絡實驗環境 - 每天5分鐘玩轉 Docker 容器技術（49）

雲伺服器下搭建Anaconda+Tensorflow深度學習實驗環境（Python=3.5) 練習記錄

微信開發學習總結（一）——微信開發環境搭建（轉載）

學習《selenium2自動化測試基於python》遇到的問題（一）

Oracle學習筆記—Db_name、Db_domain、Global_name、Service_name、Instance_name和Oracle_SID（轉載）

學習使用Docker、Docker-Compose和Rancher搭建部署Pipeline（一）

金蝶K3WISE常用數據表（轉載）

機器學習入門之四：機器學習的方法-神經網絡（轉載）

Dubbo學習和配置（轉載）

機器學習算法基礎概念學習總結（轉載）

準備 macvlan 環境 - 每天5分鐘玩轉 Docker 容器技術（54）

機器學習基本概念總結（轉載）

Google發布機器學習平臺Tensorflow遊樂場～帶你玩神經網絡（轉載）

HTML學習筆記 css定位浮動及瀑布流第十三節（原創）

HTML學習筆記基礎標簽及css引用案例第一節（原創）參考使用表

JAVAscript學習筆記 js句柄監聽事件第四節（原創）參考js使用表

git學習5 ecipse集成git（轉載）

JMeter學習（三十六）發送HTTPS請求（轉載）

[深度學習]實現一個博弈型的AI，從五子棋開始（1）

常用增強學習實驗環境 II (ViZDoom, Roboschool, TensorFlow Agents, ELF, Coach等) （轉載）

相關推薦