《深度強化學習》手稿開放了!
一年前,機器之心釋出了加拿大阿爾伯塔大學計算機系博士 Yuxi Li 的深度強化學習綜述論文,該論文概述了在深度強化學習(Deep Reinforcement Learning)方面喜人的進展。而這本剛上線的《深度強化學習》手稿對前面的版本《深度強化學習綜述》做了大規模的改進;從一年多前的 70 頁擴充到現在的 150 頁。本文對此手稿進行了介紹。
《 深度強化學習 》希望幫助初學者瞭解 深度強化學習 ,也希望為教授、研究人員、學生、工程師、管理人員、投資者等廣大讀者提供一份 深度強化學習 參考資料。
她在描繪 深度強化學習 領域大方向的同時兼顧了許多技術細節。她在歷史背景中討論最新進展。她努力回答了下面三個問題:1)為什麼用深度學習?2)最前沿的發展有哪些?3)有什麼問題及解決方案?手稿中難免有不足乃至錯誤之處,真誠歡迎寶貴建議和意見。
這個部落格收集了很多 深度強化學習 的資料: https://medium.com/@yuxili/resources-for-deep-reinforcement-learning-a5fdf2dc730f.
《 深度強化學習 》討論了六個核心元素 (core elements): 值函式 (value function)、策略 (policy)、獎賞 (reward)、模型 (model)、探索與利用 (exploration vs. exploitation)、以及表徵 (representation);
六個重要機制 (important mechanisms):注意力與儲存機制 (attention and memory)、無監督學習(unsupervised learning)、層次強化學習(hierarchical RL)、多智慧體強化學習(multi-agent RL)、關係強化學習(relational RL)、和元學習(learning to learn);
以及十二個應用場景 (applications):遊戲 (games)、機器人學(robotics)、自然語言處理(natural language processing, NLP)、計算機視覺(computer vision)、金融 (finance)、商務管理 (business management)、醫療 (healthcare)、教育 (education)、能源 (energy)、交通 (transportation)、計算機系統 (computer systems)、以及科學、工程和藝術 (science, engineering, and art).
深度強化學習 最近取得了世人矚目的成績,比如,應用於雅達利遊戲 (Atari games) 上的 DQN 演算法吹響了這波 深度強化學習 前進的號角;在計算機圍棋 (AlphaGo/AlphaGoZero) 和德州撲克 (DeepStack) 上面取得了人工智慧里程碑級別的成就。 深度強化學習 有很多新穎的演算法被研發出來,比如,DQN、 A3C、TRPO、PPO、DDPG、Trust-PCL、GPS、UNREAL, 等等。
深度強化學習 也被應用於很多很廣的方向,比如,奪旗遊戲 (Capture the Flag)、刀塔 (Dota 2)、星際爭霸 (StarCraft II)、機器人學、動畫人物模擬、智慧對話、神經元網路結構設計、機器學習自動化、資料中心降溫系統、推薦系統、資料擴充、模型壓縮、組合優化、程式合成、定理證明、醫學成像、音樂合成、化學逆合成,等等。
這個部落格收集了很多強化學習的應用場景: https://medium.com/@yuxili/rl-applications-73ef685c07eb
什麼情況下強化學習會有幫助?答案是:如果一個問題可以被描述成或轉化成序貫決策 (sequential decision making) 問題,可以構造出強化學習需要用的狀態 (state)、動作 (action)、可能還有獎賞 (reward) 等元素的時候。有時候一個問題可以用強化學習解決,但這個問題從表面上看可能不像強化學習問題。籠統地說,如果一個問題中包含人工設計的某種「策略」,那麼強化學習就有可能發揮作用,自動化並且優化這些策略。創造性會在核心元素、重要機制、應用場景等方面進一步向前推動 深度強化學習 的發展。
深度強化學習 雖然已經取得了很多傲人的成績,但是,她也有很多問題亟需解決,比如成績分配 (credit assignment), 稀疏獎賞 (sparse reward), 取樣效率 (sample efficiency), 不穩定性 (instability), 發散性 (divergence), 可解釋性 (interpretability), 安全性 (safety),等等;甚至可複製性 (reproducibility) 仍然是一個問題。
《 深度強化學習 》提出了六個研究方向,同時作為挑戰和機遇。應該提到的是,在這些方向,已經有了一些進展,比如,Dopamine、TStarBots、 unsupervised video object segmentation for deep RL、generative query network、neural-symbolic learning, universal planning networks, causalInfoGAN, meta-gradient RL, 等等。(這些進展的參考資料請參閱英文原版,見文末。) 這些方向的發展,會大幅度促進強化學習乃至人工智慧的發展。
-
系統地比較 深度強化學習 演算法
-
「解決」多智慧體問題
-
基於實體 (entities) 學習,而不只是基於原始資料學習
-
為強化學習設計最優的表徵形式
-
自動化強化學習(AutoRL)
-
研發強化學習殺手級應用
希望強化學習可以與人工智慧深度結合,在端到端 (end-to-end) 的學習方式中加入更多智慧去完成從原始輸入到決策的設計工作、加入知識、加入常識、以更高效、更容易理解的方式去學習、同時避免犯顯然的錯誤;而不是像以前深度學習那樣以黑盒子的方式學習。
深度學習和強化學習分別於 2013 年和 2017 年被《麻省理工學院科技評論》評選為十項突破性技術之一;她們會在通向強人工智慧的道路上發揮關鍵作用。David Silver 提出了一個假設:人工智慧=強化學習+深度學習。深度學習和強化學習都會進一步繁榮發展。深度學習正在經歷爆炸性的大發展。而現在正是培育、教育、引領強化學習市場的大好時機。
深度學習在這次第三波人工智慧的蓬勃發展中,會發揮越來越深遠的影響;我們也在深度學習的很多成就中看到了她的作用。強化學習提供更通用的學習和決策模式;她會深遠影響深度學習、機器學習、乃至人工智慧的進一步發展。
強化學習時代馬上就來。讓我們做好準備!
歡迎閱讀本文的英文版,Introducing Deep Reinforcement Learning, https://medium.com/@yuxili/deeprl-6c8c48b6489b; 裡面包含了大量的超連結。歡迎下載閱讀《 深度強化學習 》,Deep Reinforcement Learning, arXiv 地址:https://arxiv.org/abs/1810.06339
ofollow,noindex" target="_blank">入門 強化學習 深度強化學習
相關資料
Artificial Intelligence
在學術研究領域,人工智慧通常指能夠感知周圍環境並採取行動以實現最優的可能結果的智慧體(intelligent agent)
來源: Russell, S., & Norvig, P. (2003). Artificial Intelligence: A Modern Approach.
Artificial General Intelligence
強人工智慧或通用人工智慧(Strong AI或者 Artificial General Intelligence)是具備與人類同等智慧、或超越人類的人工智慧,能表現正常人類所具有的所有智慧行為。強人工智慧是人工智慧研究的主要目標之一,同時也是科幻小說和未來學家所討論的主要議題。相對的,弱人工智慧(applied AI,narrow AI,weak AI)只處理特定的問題。弱人工智慧不需要具有人類完整的認知能力,甚至是完全不具有人類所擁有的感官認知能力,只要設計得看起來像有智慧就可以了。由於過去的智慧程式多是弱人工智慧,發現這個具有領域的侷限性,人們一度覺得強人工智慧是不可能的。而強人工智慧也指通用人工智慧(artificial general intelligence,AGI),或具備執行一般智慧行為的能力。強人工智慧通常把人工智慧和意識、感性、知識和自覺等人類的特徵互相連結。
來源: 維基百科
AlphaGo
阿爾法圍棋是於2014年開始由英國倫敦Google DeepMind公司開發的人工智慧圍棋程式。AlphaGo是第一個打敗人類職業棋手的計算機程式,也是第一個打敗圍棋世界冠軍的計算機程式,可以說是歷史上最強的棋手。 技術上來說,AlphaGo的演算法結合了機器學習(machine learning)和樹搜尋(tree search)技術,並使用了大量的人類、電腦的對弈來進行訓練。AlphaGo使用蒙特卡洛樹搜尋(MCTS:Monte-Carlo Tree Search),以價值網路(value network)和策略網路(policy network)為指導,其中價值網路用於預測遊戲的勝利者,策略網路用於選擇下一步行動。價值網路和策略網路都是使用深度神經網路技術實現的,神經網路的輸入是經過預處理的圍棋面板的描述(description of Go board)。
來源: Deepmind
Computer Vision
計算機視覺(CV)是指機器感知環境的能力。這一技術類別中的經典任務有影象形成、影象處理、影象提取和影象的三維推理。目標識別和麵部識別也是很重要的研究領域。
來源:機器之心
Deep reinforcement learning
強化學習(Reinforcement Learning)是主體(agent)通過與周圍環境的互動來進行學習。強化學習主體(RL agent)每採取一次動作(action)就會得到一個相應的數值獎勵(numerical reward),這個獎勵表示此次動作的好壞。通過與環境的互動,綜合考慮過去的經驗(exploitation)和未知的探索(exploration),強化學習主體通過試錯的方式(trial and error)學會如何採取下一步的動作,而無需人類顯性地告訴它該採取哪個動作。強化學習主體的目標是學習通過執行一系列的動作來最大化累積的獎勵(accumulated reward)。 一般來說,真實世界中的強化學習問題包括巨大的狀態空間(state spaces)和動作空間(action spaces),傳統的強化學習方法會受限於維數災難(curse of dimensionality)。藉助於深度學習中的神經網路,強化學習主體可以直接從原始輸入資料(如遊戲影象)中提取和學習特徵知識,然後根據提取出的特徵資訊再利用傳統的強化學習演算法(如TD Learning,SARSA,Q-Learnin)學習控制策略(如遊戲策略),而無需人工提取或啟發式學習特徵。這種結合了深度學習的強化學習方法稱為深度強化學習。
來源: Scholarpedia
InfoGAN
GAN的一個變種
來源: InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets
Machine Learning
機器學習是人工智慧的一個分支,是一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算複雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動“學習”的演算法。因為學習演算法中涉及了大量的統計學理論,機器學習與推斷統計學聯絡尤為密切,也被稱為統計學習理論。演算法設計方面,機器學習理論關注可以實現的,行之有效的學習演算法。
來源:Mitchell, T. (1997). Machine Learning. McGraw Hill.
neurons
(人工)神經元是一個類比於生物神經元的數學計算模型,是神經網路的基本組成單元。 對於生物神經網路,每個神經元與其他神經元相連,當它“興奮”時會向相連的神經元傳送化學物質,從而改變這些神經元的電位;神經元的“興奮”由其電位決定,當它的電位超過一個“閾值”(threshold)便會被啟用,亦即“興奮”。 目前最常見的神經元模型是基於1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神經元模型”。 在這個模型中,神經元通過帶權重的連線接處理來自n個其他神經元的輸入訊號,其總輸入值將與神經元的閾值進行比較,最後通過“啟用函式”(activation function)產生神經元的輸出。
來源: Overview of Artificial Neural Networks and its Applications. (2018). medium.com.
Meta learning
元學習是機器學習的一個子領域,是將自動學習演算法應用於機器學習實驗的元資料上。現在的 AI 系統可以通過大量時間和經驗從頭學習一項複雜技能。但是,我們如果想使智慧體掌握多種技能、適應多種環境,則不應該從頭開始在每一個環境中訓練每一項技能,而是需要智慧體通過對以往經驗的再利用來學習如何學習多項新任務,因此我們不應該獨立地訓練每一個新任務。這種學習如何學習的方法,又叫元學習(meta-learning),是通往可持續學習多項新任務的多面智慧體的必經之路。
來源:機器之心
Natural language processing
自然語言處理(英語:natural language processing,縮寫作 NLP)是人工智慧和語言學領域的分支學科。此領域探討如何處理及運用自然語言;自然語言認知則是指讓電腦“懂”人類的語言。自然語言生成系統把計算機資料轉化為自然語言。自然語言理解系統把自然語言轉化為計算機程式更易於處理的形式。
來源: 維基百科
Recommender system
推薦系統(RS)主要是指應用協同智慧(collaborative intelligence)做推薦的技術。推薦系統的兩大主流型別是基於內容的推薦系統和協同過濾(Collaborative Filtering)。另外還有基於知識的推薦系統(包括基於本體和基於案例的推薦系統)是一類特殊的推薦系統,這類系統更加註重知識表徵和推理。
來源:機器之心
Reinforcement learning
強化學習是一種試錯方法,其目標是讓軟體智慧體在特定環境中能夠採取回報最大化的行為。強化學習在馬爾可夫決策過程環境中主要使用的技術是動態規劃(Dynamic Programming)。流行的強化學習方法包括自適應動態規劃(ADP)、時間差分(TD)學習、狀態-動作-回報-狀態-動作(SARSA)演算法、Q 學習、深度強化學習(DQN);其應用包括下棋類遊戲、機器人控制和工作排程等。
來源:機器之心
Robotics
機器人學(Robotics)研究的是「機器人的設計、製造、運作和應用,以及控制它們的計算機系統、感測反饋和資訊處理」 [25] 。 機器人可以分成兩大類:固定機器人和移動機器人。固定機器人通常被用於工業生產(比如用於裝配線)。常見的移動機器人應用有貨運機器人、空中機器人和自動載具。機器人需要不同部件和系統的協作才能實現最優的作業。其中在硬體上包含感測器、反應器和控制器;另外還有能夠實現感知能力的軟體,比如定位、地圖測繪和目標識別。之前章節中提及的技術都可以在機器人上得到應用和整合,這也是人工智慧領域最早的終極目標之一。
來源:機器之心
Deep learning
深度學習(deep learning)是機器學習的分支,是一種試圖使用包含複雜結構或由多重非線性變換構成的多個處理層對資料進行高層抽象的演算法。 深度學習是機器學習中一種基於對資料進行表徵學習的演算法,至今已有數種深度學習框架,如卷積神經網路和深度置信網路和遞迴神經網路等已被應用在計算機視覺、語音識別、自然語言處理、音訊識別與生物資訊學等領域並獲取了極好的效果。
來源: LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep learning. nature, 521(7553), 436.

機器之心是國內領先的前沿科技媒體和產業服務平臺,關注人工智慧、機器人和神經認知科學,堅持為從業者提供高質量內容和多項產業服務。
推薦文章