NeurIPS 2018 | 騰訊AI Lab:可自適應於不同環境和任務的強化學習方法
本文是由南加州大學和騰訊 AI Lab 合作發表於 NeurIPS 2018 的 Spotlight 論文之一 ,這項工作研究了同時在不同環境(Env)和不同任務(Task)之間遷移的問題,目的是利用稀疏的(Env, Task)組合就能學到在所有可能組合中遷移的能力。

論文連結:PaperWeekly
本文提出了一種新穎的部件神經網路,它描述瞭如何從環境和任務來組成強化學習策略的元規則。 值得注意的是,這裡的主要挑戰之一是 環境和任務的特徵描述必須與元規則一起學習 。為此,研究者又進一步提出了新的訓練方法來解鎖這兩種學習任務,使得最終的特徵描述不僅成為環境和任務的獨特簽名,更成為組建策略的有效模組。研究者在 GRIDWORLD 和 AI2-THOR 上進行了大量實驗,結果表明新提出的模型可以有效地在 400 個(Env, Task)組合之間成功遷移,而模型的訓練只需要這些組合的大概 40%。
方法簡介
傳統的強化學習在同一個環境下試圖解決同一個任務 ——比如 AlphaGo,我們希望把這種受限情況下的進展推廣到更一般的情況:多個環境(比如不同的迷宮),多個任務(比如逃離迷宮、找到寶藏、收集金幣等不同任務)。

如上圖所示,紅色代表訓練階段見到的環境與任務組合,灰色代表只在測試階段才會見到的組合:
(a)是最簡單的情況,儘管有一些組合在訓練階段沒見過,但是每個環境(同理,每個任務)都在訓練的時候出現過;
(b)相對複雜一些,在測試階段出現的新的組合裡面,或者任務是新的——訓練時候沒有見過,或者環境是新的;
(c)是最複雜的情況,在測試階段出現的新組合裡面,任務和環境都是以前沒有見過的。
我們提出一個統一的框架來解決上述三個問題, 這個框架的關鍵在於同時學習環境和任務的描述子以及如何從這些描述子構建規則。
我們的基本假設是規則的構建方式對於不同的(環境、任務)組合是相通的:於是,當智慧體在測試階段給定了新的(環境、任務)組合時,針對(a)它可以利用以前學習到的描述子構建相應的規則;針對(b)和(c),也就是存在新的以前沒見過的環境或/和任務,我們允許智慧體做少量的互動來快速學習描述子——一旦環境和任務描述子學習完成,它就可以構建規則,不需要像傳統的強化學習那樣重新學習規則。
具體來說,我們提出的框架如下:

雖然上述框架具備了我們要求的同時學習規則以及環境與任務描述子的功能,但是在學習階段有一個陷阱:很可能, 規則和描述子會耦合在一起 ,使得智慧體在見到的(環境、任務)組合上表現很好,但是沒辦法在測試階段處理新的組合。
為了解決這個問題,就需要把規則構建方式和描述子解耦,使得描述子確實可以有效描述和區分不同的環境與任務,同時又能幫助構建有效的規則。相對應的,在訓練的時候,除去傳統的用於完成任務的獎勵函式,我們還加上 針對描述子特有的用於分類的獎勵函式 ——基於描述子的狀態描述應該能成功區分不同環境和任務。
實驗設定
我們分別在走迷宮和室內導航上進行了實驗。 以下主要描述走迷宮;關於室內導航的實驗請見論文。

上圖展示了 16 個不同的迷宮(環境),其中紅黃綠紫等顏色方塊代表不同寶藏——它們各自代表一個任務,同時收集它們的不同順序又能定義新的任務。
如下圖所示,我們假定智慧體在迷宮中行走的時候,視野範圍只有 3 x 3。

實驗結果
如下圖所示,我們的方法(SynPo)成功的超過了最近提出的幾個方法,包括多工神經網路(MTL),模組化神經網路(ModuleNet),專門用於遷移學習的 SF,還有一個我們自己方法的簡化版(MLP)。

另外,我們也分別研究了智慧體在見過和沒見過的(環境、任務)組合上的表現。如下圖所示,對於智慧體在訓練階段見過的組合,它在測試階段始終表現不錯;對於沒見過的組合,它只需要在 40% 的組合上學習,就能達到很好的效果。

最後,我們給出在 10 個環境和 10 個任務組合上訓練,然後在 20 個環境和 20 個任務上做測試的結果。如下圖所示,每一行代表一個任務,每一列代表一個環境,其中左上角的 10 個環境和任務是用於訓練的。

測試階段,為了拓展到新的環境(右上角),我們允許智慧體和環境做少量互動,用於得到環境的描述子,然後構建規則;為了拓展到新的任務(左下角),我們如法炮製,得到任務的描述子。
得到所有描述子以後,我們就可以構建針對任意組合的規則了。在相應規則指導下,智慧體完成任務的表現如上圖,深色代表高成功率,淺色代表低成功率。我們可以看到向新的任務遷移比向新的環境遷移容易一些,而兩者都是以前未見的時候,遷移是最難的。
#投 稿 通 道#
如何才能讓更多的優質內容以更短路徑到達讀者群體,縮短讀者尋找優質內容的成本呢? 答案就是:你不認識的人。
總有一些你不認識的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋樑,促使不同背景、不同方向的學者和學術靈感相互碰撞,迸發出更多的可能性。
PaperWeekly 鼓勵高校實驗室或個人,在我們的平臺上分享各類優質內容,可以是 最新論文解讀 ,也可以是 學習心得 或 技術乾貨 。我們的目的只有一個,讓知識真正流動起來。
:memo: 來稿標準:
• 稿件確係個人 原創作品 ,來稿需註明作者個人資訊(姓名+學校/工作單位+學歷/職位+研究方向)
• 如果文章並非首發,請在投稿時提醒並附上所有已釋出連結
• PaperWeekly 預設每篇文章都是首發,均會新增“原創”標誌
:mailbox_with_mail: 投稿方式:
• 方法一:在PaperWeekly知乎專欄頁面點選“投稿”,即可遞交文章
• 方法二:傳送郵件至: [email protected] ,所有文章配圖,請單獨在附件中傳送
• 請留下即時聯絡方式(微信或手機),以便我們在編輯釋出時和作者溝通
關於PaperWeekly
PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選 「交流群」 ,小助手將把你帶入 PaperWeekly 的交流群裡。
加入社群: ofollow,noindex"> http:// paperweek.ly
微信公眾號:PaperWeekly