1. 程式人生 > >DRL前沿之:Benchmarking Deep Reinforcement Learning for Continuous Control

DRL前沿之:Benchmarking Deep Reinforcement Learning for Continuous Control

1 前言

Deep Reinforcement Learning可以說是當前深度學習領域最前沿的研究方向,研究的目標即讓機器人具備決策及運動控制能力。話說人類創造的機器靈活性還遠遠低於某些低等生物,比如蜜蜂。。DRL就是要幹這個事,而是關鍵是使用神經網路來進行決策控制。

因此,考慮了一下,決定推出DRL前沿系列,第一時間推送了解到的DRL前沿,主要是介紹最新的研究成果,不講解具體方法(考慮到博主本人也沒辦法那麼快搞懂)。也因此,本文對於完全不瞭解這個領域,或者對這個領域感興趣的童鞋都適合閱讀。

下面進入正題。

2 Benchmarking Deep Reinforcement Learning for Continuous Control

這篇文章不是什麼創新演算法的文章,但卻是極其重要的一篇文章,看到文章的第一眼就能看出來。這篇文章針對DRL在連續控制領域的問題弄了一個Benchmark,而且,關鍵是作者把程式開源了,按照作者的原話就是

To encourage adoption by other researchers!

在這篇文章中,或者說這個開源軟體包中,作者將主流及前沿的幾個用於連續控制領域的演算法都用python復現了,然後將演算法應用在31種不同難度的連續控制問題上。
那麼一共分了四類任務:
1)簡單任務:讓倒立擺保持平衡之類

這裡寫圖片描述

2)運動任務:讓裡面的虛擬生物往前跑,越快越好!
這裡寫圖片描述

3)不完全可觀察任務:即虛擬生物只能得到有限的感知資訊,比如只知道每個關節的位置但不知道速度

4)層次化任務:包含頂層決策+底層控制。比如下面的讓虛擬螞蟻找食物或者讓虛擬蛇走迷宮。這種難度就很大了。
這裡寫圖片描述

那麼有了同樣的測試環境,就可以對不同的演算法進行對比。

對比出來的結果就是:

  • TNPG和TRPO這兩個方法(UC Berkerley的Schulman提出,現在屬於OpenAI)最好,DDPG(DeepMind的David Silver團隊提出的)次之。
  • 層次任務目前沒有一個演算法能夠完成,催生新的algorithm。

然後文章並沒有對DeepMind的A3C演算法http://arxiv.org/pdf/1602.01783進行測試,而這個是目前按DeepMind的文章最好的演算法.

3 小結

UC Berkerley這次的開源相信對於學術界來說具有重要影響,很多研究者將受益於他們對於復現演算法的公開。之後的研究恐怕也會在此Benchmark上進行測試。

【本文為原創文章,轉載請註明出處:blog.csdn.net/songrotek】