最前沿:用模仿學習來學習增強學習
國慶7天樂!祝各位朋友國慶玩的愉快!
今天Flood繼續在AI的遊樂場玩一玩,和大家分享ICLR19的最新投稿paper《Learning to Reinforcement Learning by Imitation》。大家如果有興趣閱讀paper原文可以上 ofollow,noindex"> http:// openreview.net 去查詢。
這篇paper依然是Meta Learning的範疇,特別是Meta Reinforcement Learning的範疇。名字聽起來很酷炫,通過模仿學習來學習增強學習。可能不瞭解的朋友會不是很理解,沒有關係,我嘗試用最簡單的語言來說說這篇paper到底要做什麼。
不得不承認今天聊的這個學術味就更重了,沒有研究這方面的童鞋可能對此完全沒有了解。不過我想沒有關係,希望下面的內容能夠讓你對這個領域有一個最快的認識。
1.Meta Reinforcement Learning是要做什麼呢?
現在的Reinforcement Learning我們知道面臨著嚴重的sample inefficiency問題,說人話就是要對於一個任務要訓練特別特別久,消耗特別大的計算資源。這一點也不類人啊。我們人分分鐘可以學會一個新遊戲。那麼怎麼才能讓人工智慧也能快速的學習一個新遊戲呢?那麼我們就希望能夠學習一個增強學習演算法,對,你沒有聽錯,這個演算法本身也是學的,然後我們希望說這個學到的演算法能夠更快的學習新的任務。這就是Meta Reinforcement Learning要做的事情。
2. Meta Reinforcement Learning的核心是什麼?
Meta Reinforcement Learning的核心是學習一個好的Prior,也就是Meta Knowledge,然後有了這些knowledge我們就可以快速學習新的task了。說一下人話,就是我們人之所以能夠快速的學習新遊戲,是因為我們對遊戲有一個已有的認知,我們一看新遊戲我們腦子裡就能根據已有的知識知道大致應該怎麼玩了,然後玩幾把也就找到方法了。但是要玩好玩到傳說水平也依然需要大量的練習才能。
3. 怎麼來learn to reinforcement learn學習增強學習呢?
最最基本的做法就是joint training,我們同時先學很多遊戲,玩很多遊戲,然後我們就學到了一個神經網路,利用這個學到的知識,我們或許可以在新的遊戲中學得快一點。但是這個方法太簡單粗暴了,我們沒辦法保證學到的知識有用啊。簡單的說這種做法是不經過大腦沒有分析的。就像我們玩爐石傳說,我們可能玩了偶數薩,任務賊,奇數騎,奧祕法,但是我們如果只是傻傻玩沒有獲得更高的經驗的話,我們在玩新的卡組比如機械克蘇恩牧的時候就會傻逼。這就是所謂的知其然不知其所以然。
那麼接下來更進一步的辦法是我們構造我們的神經網路,讓神經網路能夠不斷的接收過去的歷史資訊,我們希望讓神經網路學習到的是如何根據歷史資訊去自適應新的環境。也就是說我們學習一個分析環境的方法,這樣我們就可以在新環境中更明白應該怎麼去做。授人與魚不如授人與漁是吧。這個也是目前Meta Reinforcement Learning的基本方法。
4. 這篇ICLR19說什麼呢?
這篇paper思考的問題是我雖然通過Meta Reinforcement Learning的演算法能使之後面對新任務的時候學習更快,但是我訓練這個Meta Reinforcement Learning的神經網路也很慢啊。能不能讓這個過程也更快呢?
模仿學習比增強學習快很多,那麼,我們能不能用模仿學習來學會增強學習呢?
那答案當然是可以。
實際上,Meta Learning的終極奧義就是我們可以讓神經網路學習任意的目標,只要我們能夠給定一個監督訊號將梯度傳遞下去。比如說圖靈測試這個問題,我們可以假設有一個這樣的神經網路,我們訓練的時候不要管這個神經網路要做什麼,它可以自己去網上找資訊,去看奇葩說,但是我們就要求測試的時候能夠通過圖靈測試,那麼只要我們能夠把圖靈測試的監督訊號傳遞給之前的訓練,我們就能夠訓練這個神經網路。
所以,這裡就是我們用模仿學習來給神經網路訓練目標,讓其加快增強學習的訓練。
直接解釋一下下圖:我們meta-train這個神經網路的時候,我們對於一個task,先採集樣本,然後用RL訓練幾步,對這裡就是幾步,然後我們不管這幾步到底訓練得怎麼樣,我就要求神經網路能夠達到模仿學習專家給出的水平。這樣,通過這種強要求,反覆使用不同的任務進行訓練,訓練到一定程度,耶,這個神經網路真的只要用RL訓練幾步,效果就比較接近模仿學習的樣本了,這就達到了學會增強學習的目的。對於一個新的任務,也就可以快速學習了!

這個idea完全繼承了MAML的思想,只是在處理方式上把增強學習和模仿學習結合在了一起,那麼效果也是顯然會有的。不過我看這篇文章的實驗做的不是很充分,有可能會被拒掉。但想法是好的,也算創新。

今天對這篇paper的講解可能比較粗糙,感興趣的朋友還是去看看原文吧。
對於這篇paper,我個人的啟發就是Meta Learning的潛力非常大,把它挖深了可以有無限可能。
最後,歡迎各位感興趣的朋友關注我新開的公眾號 FloodSung的AI遊樂場 ,相比於知乎專欄,我可以更快速的為大家分享最前沿AI,謝謝!所有文章都將首先在公眾號釋出!
公眾號二維碼在這裡:
https:// github.com/floodsung/so ngrotek.github.io/blob/master/gallery/qrcode.jpg