1. 程式人生 > >深度增強學習綜述

深度增強學習綜述

本文是對《深度增強學習綜述》一文的解讀。文章從增強學習談起,談到對深度學習的引入,層層遞進、簡明扼要地從技術層面闡釋了深度增強學習的原理和效用。

當今世界,科技發展日新月異。即便是業界中人,往往也搞不清同行們的動態。所以,隔三差五需要有人梳理業界的動態。

“Deep ReinforcementLearning: An Overview” [1] 這篇論文的作者,梳理了深度學習與增強學習相融合的最新動態。

這是一篇苦心之作,

  1. 梳理了該領域各個學派的基本思路及其區別。

  2. 羅列了各種測試平臺,目前主要是各種遊戲,之所以用遊戲來做測試,是因為容易採集資料。

  3. 值得讀的論文,羅列了各個學派的重要論文。

  4. 枚舉了若干重要的應用,包括遊戲,重點介紹了下圍棋的 AlphaGo,教無人機做特技,教機器人行走和跳躍,機器翻譯和對話,智慧醫療診斷,深度學習系統的自動設計等等。

論文:深度強化學習概覽

作者:Yuxi Li,加拿大阿爾伯塔大學(University of Alberta)計算機系的博士

摘要

本文概述了最近取得許多令人振奮的成果的深度增強學習(RL)。我們從深度學習和增強學習的背景開始說起,並介紹了各種測試平臺。然後我們討論了 Deep Q-Network(DQN)及其擴充套件,非同步方法,策略優化,激勵,以及規劃。接著,我們討論了注意力和記憶,無監督學習,以及學習學習(learning to learn)。我們還討論了 RL 的各種應用,包括遊戲(尤其是 AlphaGo),機器人,語音對話系統(即,chatbot),機器翻譯,文字序列預測,神經架構設計,個性化網路服務,醫療保健,金融,以及音樂自動生成等。我們也提了一些尚沒有綜述的主題/論文。本論文以一系列值得閱讀的 RL 重要論文的列舉結束。

什麼是增強學習,為什麼需要引入深度學習?

不妨把機器學習看成二維空間,第一個維度是問題,第二個維度是方法,用什麼方法來解決問題。

大致來說,機器學習想解決兩大類問題,模擬和決策。

1. 模擬:

給定一系列輸入 x 和輸出 y,模擬兩者之間的函式關係 y = f(x)。

預測是函式模擬的一個小類,譬如根據各種經濟因素 x,預測股票價格。

分類是另一個小類,譬如給定一張人像照片 x,識別照片中的人物是不是y。

2. 決策:

先構造三元組,包括狀態 state、行動action、收益 reward。

序列是一連串三元組

輸入若干序列,作為訓練資料。

決策的任務,是分析這些訓練資料,發現最優行動策略,目的是獲得最大的收益。

類似於金融折現率,未來的收益,折算成現鈔,得打個折扣。遠期的折扣,比近期的折扣大,這就是的意義。

決策的應用很多,下棋、開車、問答、醫療診斷、機器人自主行走跳躍等等,都是決策問題。

邏輯迴歸 Logistic Regression、向量機 SVM、決策樹Decision Tree 等等是傳統的機器學習的方法,主要用於解決模擬問題。

深度學習 Deep Learning 是最新的方法,起先也主要用於解決模擬問題。

增強學習 Reinforcement Learning,譬如 Q-learning 演算法,是解決決策問題的傳統方法。

為什麼要用深度學習這個新方法解決決策問題?

目的無非是,1. 解決更復雜的決策問題,2. 學得更準,3. 學得更快,4. 用更少的訓練資料。

傳統的增強學習存在什麼問題?

盧浮宮館藏美術作品眾多,經驗豐富的導遊,會幫遊客規劃一條參觀路徑,走最短的路,看最多的名畫。

如何規劃最佳參觀路徑,是一個決策問題。傳統的方法,是增強學習 Reinforcement Learning。

簡單而蠻力的辦法,是找一張盧浮宮地圖,儘可能羅列所有可能的參觀路徑,評價每一種路徑的總收益。

這是 Monte Carlo tree search (MCTS) 的思路。

MCST 簡單有效,但是缺陷是計算成本高。

下圍棋的 AlphaGo,用 MCST 演算法來精算區域性的對弈策略。

但是,不能用這個方法來學習整盤棋的策略,因為如果要窮舉整盤棋的所有對弈策略,數量級大概是。單機搞不定,雲端計算也搞不定。

如何降低計算量?思路是不必浪費精力去為槽糕的路徑評估收益。問題是,如何甄別槽糕的路徑?

不妨換一個思路。不會有觀眾故意跟自己過不去,專挑路程長、名畫少的槽糕路徑去參觀盧浮宮。

我們不必關心哪條路徑是槽糕的路徑,我們只需要研究其他觀眾曾經走過的路徑,就不會偏離最佳的路徑太遠。

什麼是最佳路徑?兩個要素,

1. 當前收益大:每走一步,多半能看到一副名畫。

2. 潛在的未來收益大:每走一步,離其它名畫更近。

用數學公式來表達,就是,

的專業名稱是行動價值Action Value。

用價值取代收益,既著眼當前收益,又兼顧未來潛力。

即便當前沒有收益,譬如爬樓梯時一幅作品都看不到,但是樓上的展廳有名畫,未來潛力巨大,爬樓就是明智的行動。

為了估算當前的行動價值,先得估算下一步的潛在價值。

為了估算下一步的潛在價值,先得估算再下一步的潛在價值。

重複以上步驟,直到走出盧浮宮出口。這個辦法,就是 Q-learning演算法。

Q-learning 演算法是傳統增強學習中最重要的演算法。除此之外,有若干變種。

但是無論哪一種變種,面對複雜的問題,傳統的增強學習演算法都難以勝任。

如果狀態不僅僅是位置,而且也包含每幅名作附近的擁堵程度,參觀盧浮宮的路徑規劃就變得更復雜了。

如果行動不僅僅是前進、後退、左轉、右轉,而且也包括速度,問題就更復雜了。

如果收益不僅僅取決於作品的知名度,而且也包括觀眾的品味,問題就更復雜了。

解決複雜的決策問題,是增強學習與深度學習融合的一大動機。

增強學習與深度學習融合的切入點,是用結構複雜的神經網路,來估算增強學習中的行動價值、收益、策略等等。

深度增強學習深在哪裡?

1. 用深度學習來估算價值

Deep Q-network (DQN), Double DQN , Dueling architecture 等等演算法,都是這個思路。

先根據訓練資料,來計算當前的行動價值,

然後用深度神經網路,估算,如果估算得完全準確,那麼

如果兩者之間有差距,那麼就不斷調整深度神經網路的引數,縮小兩者的差距,這就是深度增強學習的訓練過程。

這個辦法,就是 DeepQ-network DQN,及其變種 Double DQN 的基本原理。

DQN 的計算成本較大,為了學得更快。決鬥模型 Dueling architecture 提議,拆解。

把拆解為,其中是每個狀態的價值,而是指在狀態下采取行動後,價值的增量。

DQN 演算法用一個規模較大的神經網路,去模擬,訓練過程的計算成本高。

而決鬥架構 Duelingarchitecture 用兩個規模較小的神經網路,分別去模擬和,從而大大降低了訓練過程的計算成本。

2. 用深度學習來估算策略

DPG (Deterministic PolicyGradient),Deep DPG,GPS (Guided Policy Search),TRPO (Trust Region Policy Optimization) ,PGQ 等等演算法,都是這個思路。

DPG 把增強學習的訓練過程,類比成演員和評委的互動。

DPG 用一個神經網路 actor,去模擬策略。

用另一個神經網路 critic,評估使用某種策略後的行動價值。

選定了策略 π 後,在每一種狀態,actor 都會選擇固定的行動,所以,

正因為如此,訓練評委神經網路 critic時,只需要對狀態做梯度下降(Gradient Descent),不僅計算量小,而且能夠解決複雜的增強學習問題。

Deep DPG 在此基礎上,做了一些改進。尤其是把訓練資料回放,並且每次訓練時,柔和地改進網路引數。

回放和柔和改進,目的是為了既不增加訓練資料的數量,又提高訓練的穩定性。

3. 用深度學習來估算收益

某些應用場景的收益,無法用簡單的方式表達,譬如模仿書法家的字型風格,或者模仿某位飛行員的特技飛行動作。

反向增強學習 Inverse ReinforcementLearning,小樣本學習 One-shot Learning 等等演算法,針對這類模仿問題,做過有益的嘗試。

生成對抗網路,Generative AdversarialNetworks (GANs),提供了新思路。

GAN 主要由兩個神經網路構成,

1. 生成模型Generator,從訓練資料中猜測這些樣本的資料分佈,並偽造資料。

2. 鑑別模型Discriminator,識別哪些資料是真實的訓練資料,哪些是生成模型偽造的假資料。

兩個模型不斷對抗,使得生成模型偽造的資料越來越像真的,而鑑別模型的識別能力越來越精準。

對抗的結果,是生成模型對資料分佈的猜測,越來越精準。

模仿,是增強學習的一個子領域。

把 GAN 應用於增強學習,將是一大熱點。

4. 融合

DQN 用深度學習來估算價值函式,DPG 用深度學習來估算策略函式,GAN 用深度學習來估算難以言說的收益函式。

Asynchronous AdvantageActor-Critic (A3C) 演算法,試圖把模擬價值函式的決鬥架構,與模擬策略的演員-評委模型,外加多核平行計算,融合在一起。

Differentiable NeuralComputer (DNC) 不糾結價值函式和策略函式的細節,而是把它們看成黑盒子的內部構成。

DNC 用 LSTM 來分析訓練資料,把分析結果儲存在 LSTM 外部的儲存空間。

LSTM 分析結果是一組數字向量,數字向量的物理意義很隱晦,如同表達生命特徵的 DNA,但是它們包含了和的內容。

雖然數字向量的物理意義很隱晦,但是隻要黑盒子能夠做出正確的決策,就是好盒子。

DNC 的論文作者,用這個技術來玩積木遊戲,來規劃倫敦地鐵任何兩站之間的最佳換乘路徑,效果很好。

黑盒子能不能完成更復雜的任務?這是吊足觀眾胃口的懸念。