1. 程式人生 > >不設目標也能通關「馬里奧」的AI演算法,全靠好奇心學習

不設目標也能通關「馬里奧」的AI演算法,全靠好奇心學習

在強化學習中,設計密集、定義良好的外部獎勵是很困難的,並且通常不可擴充套件。通常增加內部獎勵可以作為對此限制的補償,OpenAI、CMU 在本研究中更近一步,提出了完全靠內部獎勵即好奇心來訓練智慧體的方法。在 54 個環境上的大規模實驗結果表明:內在好奇心目標函式和手工設計的外在獎勵高度一致;隨機特徵也能作為強大的基線。

通過與任務匹配的獎勵函式最大化來訓練智慧體策略。對於智慧體來說,獎勵是外在的,並特定於它們定義的環境。只有獎勵函式密集且定義良好時,多數的 RL 才得以成功實現,例如在電子遊戲中的「得分」。然而設計一個定義良好的獎勵函式非常困難。除了「塑造」外在獎勵外,也可以增加密集的內在獎勵,即由智慧體本身產生獎勵。內在獎勵包括使用預測誤差作為獎勵訊號的「好奇心」和阻止智慧體重新訪問相同狀態的「訪問計數」。其思想是,這些內在獎勵通過引導智慧體對環境進行有效地探索,以尋找下一個外在獎勵,從而縮小與稀疏外在獎勵間的差距。

強化學習演算法依賴外在於智慧體的工程環境獎勵。但是,用手工設計的密集獎勵來對每個環境進行標註的方式是不可擴充套件的,這就需要開發智慧體的內在獎勵函式。好奇心是一種利用預測誤差作為獎勵訊號的內在獎勵函式。在本文中:(a)對包括 Atari 遊戲在內的 54 個標準基準環境進行了第一次大規模的純好奇心驅動學習研究,即沒有任何外在獎勵。結果取得了驚豔的效能,並在許多遊戲環境中,內在好奇心目標函式和手工設計的外在獎勵高度一致。(b)研究了使用不同的特徵空間計算預測誤差的效果,表明隨機特徵對於許多流行的 RL 遊戲基準來說已經足夠了,但是學習特徵似乎泛化能力更強 (例如遷移到《超級馬里奧兄弟》中的新關卡)。(c)展示了隨機設定中基於預測的獎勵的侷限性。

程式碼和模型連結:https://pathak22.github.io/large scale-curiosity/

1 引言

強化學習(RL)已經成為訓練智慧體以完成複雜任務的一種普遍的方法。在 RL 中,通過與任務匹配的獎勵函式最大化來訓練智慧體策略。對於智慧體來說,獎勵是外在的,並特定於它們定義的環境。只有獎勵函式密集且定義良好時,多數的 RL 才得以成功實現,例如在電子遊戲中的「得分」。然而設計一個定義良好的獎勵函式非常困難。除了「塑造」外在獎勵外,也可以增加密集的內在獎勵,即由智慧體本身產生獎勵。內在獎勵包括使用預測誤差作為獎勵訊號的「好奇心」和阻止智慧體重新訪問相同狀態的「訪問計數」。其思想是,這些內在獎勵通過引導智慧體對環境進行有效地探索,以尋找下一個外在獎勵,從而縮小與稀疏外在獎勵間的差距。

但如果完全沒有外在獎勵呢?發展心理學家認為內在動機(即好奇心)是人類發展早期階段的主要動力:嬰兒看似無目標的探索,其實可以學習到終身有益的技能。從玩《我的世界》到參觀動物園,都沒有外在獎勵。調查表明,在特定環境中,僅使用內在獎勵對智慧體進行預訓練,可以使它在新環境下對新任務進行微調時學習得更快。然而到目前為止,僅利用內在獎勵的學習還未被系統地研究過。

在本文中,研究者對只由內在獎勵驅動的智慧體進行了大規模的實證研究。他們選擇了 Pathak 等人提出的基於動力的好奇心的內在獎勵模型,因為它可擴充套件、可簡化並行,所以非常適用於大型實驗。該方法的中心思想是將內在獎勵看作在預測智慧體當前狀態的行為結果時的誤差,即智慧體學習的正向動力的預測誤差。研究者深入研究了 54 個環境中基於動力的好奇心:如圖 1 中的電子遊戲、物理引擎模擬和虛擬 3D 導航任務。

圖 1:54 個環境中的研究快照。研究者證明了智慧體能夠在不使用外在獎勵或結束訊號而只利用好奇心的情況下取得進展。

為了更好地理解好奇心驅動學習,研究者進一步研究了決定好奇心驅使學習表現的關鍵因素。在高維原始觀測空間(如,影象)中預測未來狀態還是頗具挑戰的,但最近研究顯示,輔助特徵空間中的學習動力會改善這個結果。然而如何選擇嵌入空間也是個關鍵又開放的問題。通過系統的控制變數研究,研究人員檢驗了編碼智慧體觀測的不同方法,使智慧體可以在只由好奇心驅動時也有優良表現。為保證動態線上訓練的穩定性,嵌入空間應該:(a)維數緊湊;(b)保留足夠的觀測資訊;(c)是觀測的平穩函式。研究證明,通過隨機網路對觀察結果進行編碼是一種簡單而有效的技術,可用於在許多流行的 RL 基準中建模好奇心。這可能表明許多流行的 RL 視訊遊戲測試平臺在視覺上並不複雜。有趣的是,雖然隨機特徵足以讓玩家在訓練中表現出色,但學習特徵似乎泛化能力更好(如在《超級馬里奧兄弟》中創造新的遊戲關卡)。

總結:(a)研究者對好奇心驅動在各個環境中的探索進行了大量研究,包括: Atari 遊戲、超級馬里奧兄弟、Unity 中的虛擬 3D 導航、多人乒乓以及 Roboschool 環境。(b)研究者廣泛研究了基於動力的好奇心的特徵空間:隨機特徵、畫素、反向動力學和變分自編碼器,並評估了對未知環境的泛化能力。(c)最後討論了基於好奇心的公式直接預測誤差的侷限性。他們發現,如果智慧體本身是環境中隨機源,那麼它可以在沒有任何實際進展的情況下獎勵自己。研究人員在一個 3D 導航任務中證明了這種限制,其中智慧體控制了環境的不同部分。

論文:Large-Scale Study of Curiosity-Driven Learning

論文地址:https://arxiv.org/pdf/1808.04355v1.pdf

摘要:強化學習演算法依賴外在於智慧體的工程環境獎勵。但是,用手工設計的密集獎勵來對每個環境進行標註的方式是不可擴充套件的,這就需要開發智慧體的內在獎勵函式。好奇心是一種利用預測誤差作為獎勵訊號的內在獎勵函式。在本文中:(a)對包括 Atari 遊戲在內的 54 個標準基準環境進行了第一次大規模的純好奇心驅動學習研究,即沒有任何外在獎勵。結果取得了驚豔的效能,並在許多遊戲環境中,內在好奇心目標函式和手工設計的外在獎勵高度一致。(b)研究了使用不同的特徵空間計算預測誤差的效果,表明隨機特徵對於許多流行的 RL 遊戲基準來說已經足夠了,但是學習特徵似乎泛化能力更強 (例如遷移到《超級馬里奧兄弟》中的新關卡)。(c)展示了隨機設定中基於預測的獎勵的侷限性。

3 實驗

3.1 無外在獎勵的好奇心驅動學習

圖 2:8 款 Atari 遊戲和《超級馬里奧兄弟》的特徵學習方法對比。這些評估曲線顯示了沒有獎勵或結束訊號,僅是純好奇心訓練的 agent 平均獎勵 (標準誤差)。可以看到,純好奇心驅動的 agent 無需外在獎勵,就能夠在這些環境中獲得獎勵。所有 Atari 遊戲的結果都在圖 8 的附錄中。在畫素上訓練的好奇心模型在任何環境中都表現不佳,VAE 特徵的表現要麼與隨機和反向動力特徵相同,要麼不如後者。此外在 55% 的 Atari 遊戲中,反向動力訓練的特徵比隨機特徵表現得更好。有趣的是,好奇心模型的隨機特徵是一個簡單卻強大的基線,大致可在 Atari 的半數遊戲中取得優良表現。

3.2 模型在《超級馬里奧兄弟》新關卡的泛化能力

圖 4:《馬里奧》泛化實驗結果。左圖是 1-1 關到 1-2 關的遷移結果,右圖是 1-1 關到 1-3 關的遷移結果。圖下方是源和目標環境的地圖。所有的智慧體都是在無外在獎勵的情況下訓練出來的。

3.3 好奇心與稀疏的外在獎勵

圖 5:在最終外在獎勵+好奇心獎勵的訓練中,在 Unity 環境下的平均外在獎勵。注意,只有外在獎勵的訓練曲線始終為零。