強化學習系列3：Open AI的baselines和Spinning Up

阿新 • • 發佈：2018-12-28

1. Baselines簡介

Baselines是一個傳統強化學習的資源庫，github地址為：https://github.com/openai/baselines
Baselines需要python3的環境，建議使用3.6版本。安裝openmpi和相關庫(tensorflow、gym)，mac可以使用brew安裝，ubuntu可以使用apt-get，centos可以使用pip安裝。

git clone https://github.com/openai/baselines.git
cd baselines
pip install -e .

用下面的語句檢查是否安裝成功。如果提示缺少某個庫，安裝即可

pip install pytest
pytest

安裝完可進行視覺化：

python -m baselines.run --alg=ppo2 --env=PongNoFrameskip-v4 --num_timesteps=2e7 --save_path=~/models/pong_20M_ppo2
python -m baselines.run --alg=ppo2 --env=PongNoFrameskip-v4 --num_timesteps=0 --load_path=~/models/pong_20M_ppo2 --play

根據官方文件，spinning up實現的演算法包括：

A2C
ACER
ACKTR
DDPG
DQN
GAIL
HER
PPO1
PPO2
TRPO

2. Spinning Up簡介

spinning up是一個深度強化學習的很好的資源，其網址是：https://spinningup.openai.com/en/latest/
首先需要python3.6環境，建議下載anaconda3~這裡要注意安裝版本問題，目前使用python3.5和python3.7都存在問題。然後安裝openmpi和相關庫(tensorflow、gym)，mac可以使用brew安裝，ubuntu可以使用apt-get，centos可以使用pip安裝。接下來執行下面的步驟：

git clone https://github.com/openai/spinningup.git
cd spinningup
pip install -e .

用下面的語句檢查是否安裝成功。如果提示缺少某個庫，安裝即可

python -m spinup.run ppo --hid "[32,32]" --env LunarLander-v2 --exp_name installtest --gamma 0.999

安裝完可進行視覺化：

python -m spinup.run test_policy data/installtest/installtest_s0
python -m spinup.run plot data/installtest/installtest_s0

根據官方文件，spinning up實現的演算法包括：

Vanilla Policy Gradient (VPG)
Trust Region Policy Optimization (TRPO)
Proximal Policy Optimization (PPO)
Deep Deterministic Policy Gradient (DDPG)
Twin Delayed DDPG (TD3)
Soft Actor-Critic (SAC)

強化學習系列3：Open AI的baselines和Spinning Up

1. Baselines簡介

2. Spinning Up簡介

強化學習系列3：Open AI的baselines和Spinning Up

機器學習系列文章：人工智慧研究和應用領域

java多執行緒系列3：悲觀鎖和樂觀鎖

強化學習系列5：有模型的策略迭代方法

強化學習系列1：強化學習簡介

強化學習系列7：無模型的蒙特卡洛法

CNTK與深度強化學習筆記之一：環境搭建和基本概念

Reinforcement Learning強化學習系列之一：model-based learning

Kotlin學習系列之：對比Any和Object

小麥子-WPF學習系列3：一個完整的介面案例

JVM學習筆記3：GC日誌和常用命令工具

OpenCV學習筆記3：圖像模糊作用和方法

JAVA學習筆記系列3-JVM、JRE和JDK的區別

機器學習與深度學習系列連載：第二部分深度學習（十五）迴圈神經網路 3（Gated RNN - GRU）

機器學習與深度學習系列連載：第二部分深度學習（十二）卷積神經網路 3 經典的模型（LeNet-5，AlexNet ，VGGNet，GoogLeNet，ResNet）

[GAN學習系列3]採用深度學習和 TensorFlow 實現圖片修復(上）

numpy學習3：物件屬性和基本資料型別

[GAN學習系列3]採用深度學習和 TensorFlow 實現圖片修復(中）

[GAN學習系列3]採用深度學習和 TensorFlow 實現圖片修復(下）

強化學習系列（一）：強化學習簡介

強化學習系列3：Open AI的baselines和Spinning Up

1. Baselines簡介

2. Spinning Up簡介

相關推薦