「AlphaGo 之父」David Silver最新演講,傳授強化學習的十大原則

機器之心 翻譯
David Silver 作者 deeplearningindaba 選自
「AlphaGo 之父」David Silver最新演講,傳授強化學習的十大原則
9 月 9 日-14 日,Deep Learning Indaba 2018 大會在南非斯泰倫博斯舉行。會上,DeepMind 強化學習研究小組負責人、首席研究員、AlphaGo 專案負責人 David Silver 發表演講,介紹了強化學習的十大原則。機器之心對該演講進行了介紹。
演講課件地址:http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf
原則一:評估方法驅動研究進展
David Silver 指出,客觀、量化的評估方法是強化學習進展的重要驅動力:
-
評估指標的選擇決定了研究進展的方向;
-
這可以說是強化學習專案中最重要的一個決定。
David Silver 介紹了兩種評估方法:
-
排行榜驅動的研究
確保評估指標緊密對應最終目標;
避免主觀評估(如人類評估)。
-
假設驅動的研究
-
形成一個假設:Double-Q 學習優於 Q 學習,因為前者減少了向上偏誤(upward bias);
在寬泛的條件下驗證該假設;
對比同類方法,而不是隻與當前最優方法進行對比;
尋求理解,而不是排行榜表現。
原則二:可擴充套件性是成功的關鍵
David Silver 認為可擴充套件性是強化學習研究成功的關鍵。
-
演算法的可擴充套件性指與資源相關的演算法的效能變化;
-
資源包括計算量、記憶體或資料;
-
演算法的可擴充套件性最終決定演算法成功與否;
-
可擴充套件性比研究的起點更加重要;
-
優秀的演算法在給定有限資源的條件下是最優的。
原則三:通用性(Generality)支援演算法的長遠有效性
演算法的通用性指它在不同強化學習環境中的效能。研究者在訓練時要避免在當前任務上的過擬合,並尋求可以泛化至未來未知環境的演算法。
我們無法預測未來,但是未來任務的複雜度可能至少和當前任務持平;在當前任務上遇到的困難在未來則很有可能增加。
因此,要想使演算法可以泛化至未來的不同強化學習環境,研究者必須在多樣化且真實的強化學習環境集合上測試演算法。
原則四:信任智慧體的經驗
David Silver 指出經驗(觀察、動作和獎勵)是強化學習的資料,公式可以寫作:
h_t=o_1,r_1,a_2,o_2,r_2,...,a_t,o_t,r_t
經驗流隨智慧體在環境中學習時間的延長而累積。
他告誡我們,要把智慧體的經驗作為知識的唯一來源。人們在智慧體學習遇到問題時傾向於新增人類的專業知識(人類資料、特徵、啟發式方法、約束、抽象、域操控)。
他認為,完全從經驗中學習看起來似乎不可能。也就是說,強化學習的核心問題非常棘手。但這是 AI 的核心問題,也值得我們付出努力。從長遠來看,從經驗中學習一直是正確的選擇。
原則五:狀態是主觀的
David Silver 指出:
-
智慧體應該從它們的經驗中構建屬於自己的狀態,即:s_t=f(h_t)
-
智慧體狀態是前一個狀態和新觀察的函式:s_t=f(s_t-1,a_t-1,o_t,r_t)
如下圖所示:
-
它是迴圈神經網路的隱藏狀態。
-
永遠不要根據環境的「真實」狀態來定義狀態(智慧體應該是一個部分可觀察馬爾可夫鏈模型)。
原則六:控制資料流
-
智慧體存在於豐富的感覺運動(sensorimotor)資料流中:
-
觀測結果的資料流輸入到智慧體中;
智慧體輸出動作流。
-
智慧體的動作會影響資料流:
-
特徵控制 => 資料流控制
-
資料流控制 => 控制未來
-
控制未來 => 可以最大化任意獎勵
原則七:用價值函式對環境建模
David Silver 首先給出了使用價值函式的三個原因:
-
高效地對未來進行總結/快取;
-
將規劃過程簡化為固定時間的查詢,而不是進行指數時間量級的預測;
-
獨立於時間步跨度進行計算和學習。
他指出,學習多個價值函式可以高效地建模環境的多個方面(控制狀態流),包括隨後的狀態變數;還能在多個時間尺度上學習。他還提醒我們避免在過於簡化的時間步上建模環境。
原則八:規劃:從想象的經驗中學習
David Silver 提出了一種有效的規劃方法,並將其分為兩步。首先想象下一步會發生什麼,從模型中取樣狀態的軌跡;然後利用我們在真實經驗中用過的 RL 演算法從想象的經驗中學習。他提醒我們從現在開始關注價值函式逼近。
原則九:使用函式近似器
David Silver 認為,可微網路架構是一種強大的工具,可以豐富狀態表示,同時使可微記憶、可微規劃以及分層控制更加便利。他提出將演算法複雜度引入網路架構,以減少演算法複雜度(指引數的更新方式),增加架構的表達性(指引數的作用)。
原則十:學會學習
AI 史是一個進步史:
-
第一代:舊式的 AI
-
手動預測:此時的人工智慧只能執行手動預測
什麼也學不會
-
第二代:淺層學習
-
手動構建特徵:研究人員需要耗費大量時間、精力手動構建特徵
學習預測
-
第三代:深度學習
-
手動構建的演算法(優化器、目標、架構……)
端到端學習特徵和預測
-
第四代:元學習
-
無需手工
端到端學習演算法和特徵以及預測
理論 強化學習 David Silver
相關資料
Artificial Intelligence
在學術研究領域,人工智慧通常指能夠感知周圍環境並採取行動以實現最優的可能結果的智慧體(intelligent agent)
來源: Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.
Neural Network
(人工)神經網路是一種起源於 20 世紀 50 年代的監督式機器學習模型,那時候研究者構想了「感知器(perceptron)」的想法。這一領域的研究者通常被稱為「聯結主義者(Connectionist)」,因為這種模型模擬了人腦的功能。神經網路模型通常是通過反向傳播演算法應用梯度下降訓練的。目前神經網路有兩大主要型別,它們都是前饋神經網路:卷積神經網路(CNN)和迴圈神經網路(RNN),其中 RNN 又包含長短期記憶(LSTM)、門控迴圈單元(GRU)等等。深度學習是一種主要應用於神經網路幫助其取得更好結果的技術。儘管神經網路主要用於監督學習,但也有一些為無監督學習設計的變體,比如自動編碼器和生成對抗網路(GAN)。
來源:機器之心
Meta learning
元學習是機器學習的一個子領域,是將自動學習演算法應用於機器學習實驗的元資料上。現在的 AI 系統可以通過大量時間和經驗從頭學習一項複雜技能。但是,我們如果想使智慧體掌握多種技能、適應多種環境,則不應該從頭開始在每一個環境中訓練每一項技能,而是需要智慧體通過對以往經驗的再利用來學習如何學習多項新任務,因此我們不應該獨立地訓練每一個新任務。這種學習如何學習的方法,又叫元學習(meta-learning),是通往可持續學習多項新任務的多面智慧體的必經之路。
來源:機器之心
Planning
人工智慧領域的「規劃」通常是指智慧體執行的任務/動作的自動規劃和排程,其目的是進行資源的優化。常見的規劃方法包括經典規劃(Classical Planning)、分層任務網路(HTN)和 logistics 規劃。
來源:機器之心
Reinforcement learning
強化學習是一種試錯方法,其目標是讓軟體智慧體在特定環境中能夠採取回報最大化的行為。強化學習在馬爾可夫決策過程環境中主要使用的技術是動態規劃(Dynamic Programming)。流行的強化學習方法包括自適應動態規劃(ADP)、時間差分(TD)學習、狀態-動作-回報-狀態-動作(SARSA)演算法、Q 學習、深度強化學習(DQN);其應用包括下棋類遊戲、機器人控制和工作排程等。
來源:機器之心
Deep learning
深度學習(deep learning)是機器學習的分支,是一種試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對資料進行高層抽象的演算法。 深度學習是機器學習中一種基於對資料進行表徵學習的演算法,至今已有數種深度學習框架,如卷積神經網路和深度置信網路和遞迴神經網路等已被應用在計算機視覺、語音識別、自然語言處理、音訊識別與生物資訊學等領域並獲取了極好的效果。
來源: LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

機器之心是國內領先的前沿科技媒體和產業服務平臺,關注人工智慧、機器人和神經認知科學,堅持為從業者提供高質量內容和多項產業服務。
推薦文章