20篇強化學習論文總結
前段時間,我們為大家整理了 ofollow,noindex"> 105篇強化學習論文的綜述及列表(點選獲取) 。
為了方便大家學習,我們將會出 5期 強化學習的論文總結,每期會有 20篇 左右的論文,在 每週一 釋出,敬請關注。
本期內容如下:
1.Robust Adversarial Reinforcement Learning
來源:ICML’17
總結:
本文討論了強化學習的魯棒性。作者提出當前的強化學習方法難以泛化的兩個主要原因:
(1)模擬環境和真實世界存在巨大差異導致模擬環境學習的策略難以遷移到真實世界。
(2)在真實世界直接學習則缺乏資料。作者提出了魯棒對抗增強學習的思想,通過同時訓練兩個智慧體來使得強化學習更好地泛化到真實世界。兩個智慧體分別稱為“protagonist”和“adversary”。“adversary”的目標是產生系統擾動干擾“protagonist”的決策,“protagonist”的目標是能在“adversary”的干擾下完成給定的任務。文中還設計了一個零和馬爾可夫博弈作為兩個智慧體的學習目標。
下載連結:https://www.aminer.cn/archive/robust-adversarial-reinforcement-learning/599c7954601a182cd26310c2
2.Mastering the game of Go with deep neural networks and tree search
來源:Nature
總結:
本文介紹了圍棋AI程式AlphaGo使用的技術。圍棋AI的挑戰主要來自兩方面:一方面是龐大的搜尋空間;另一方面是圍棋的局面和走棋難以評估。AlphaGo設計了value networks和policy networks兩個 深度神經網路 分別用於評估局面和選擇下一步的走棋位置。這兩個深度網路採用監督學習和強化學習兩種方式訓練,並通過蒙特卡洛樹搜尋(Monte Carlo Tree Search, MCTS)將兩者結合到一起。文章發表時,AlphaGo和其他圍棋AI程式對弈能達到99.8%的勝率,並以5:0的比分擊敗了歐洲冠軍。
下載連結:https://www.aminer.cn/archive/mastering-the-game-of-go-with-deep-neural-networks-and-tree-search/56ab70cd0cf2c98bf5bc717a
3.Mastering the game of Go without human knowledge
來源:Nature
總結:
本文介紹了無監督版的AlphaGo,AlphaGoZero。在AlphaGo的訓練過程中需要有人類專家的棋譜作為訓練樣本進行監督訓練,而在AlphaGoZero完全依靠自我對弈,通過強化學習的方式訓練。與AlphaGo不同,AlphaGoZero通過一個神經網路用於局面評估和走棋位置選擇,而並非value networks和policy networks兩個網路完成。
下載連結:https://www.aminer.cn/archive/mastering-the-game-of-go-without-human-knowledge/59ec02da0cf22f5df7319dc3
4.Continuous Control With Deep Reinforcement Learning
來源:arXiv
總結:
本文將DQN應用在連續行動空間的強化學習問題上。DQN只能處理離散、低維的動作空間,難以直接擴充套件到連續行動空間上。作者提出了Deep DPG演算法,是一個基於DPG(Deterministic Policy Gradient)的Actor-Critic方法,該演算法在actor網路部分使用DPG演算法,在critic網路使用DQN學習值函式。
下載連結:https://www.aminer.cn/archive/continuous-control-with-deep-reinforcement-learning/573696096e3b12023e51cb6b
5.Benchmarking Deep Reinforcement Learning for Continuous Control
來源:ICML’16
總結:
本文提供了一個連續控制領域的Benchmark,幫助研究人員測試對比強化學習演算法。Benchmark中包含31個連續控制任務,包括簡單任務(如cart-pole balancing),locomotion任務(如Humanoid locomotion),部分可觀測任務以及層次結構的任務。Benchmark中還包括這些任務的基線演算法用於對比演算法效果。關於Benchmark的更多內容可以參考以下連結:https://github.com/rlworkgroup/garage.
下載連結:https://www.aminer.cn/archive/benchmarking-deep-reinforcement-learning-for-continuous-control/57a4e91aac44365e35c97e12
6. Deep Reinforcement Learning for Mention-Ranking Coreference Models
來源:EMNLP’16
總結:
本文提供了一個使用強化學習解決共指消解(coreference resolution)問題的方法。共指消解通常使用啟發式的損失函式,這些損失函式需要調整超參來保證效果。作者在mention-ranking 模型中使用強化學習選擇啟發式損失函式的超參。
下載連結:https://www.aminer.cn/archive/deep-reinforcement-learning-for-mention-ranking-coreference-models/58437722ac44360f1082f5bd
7.Hybrid Code Networks: Practical and Efficient End-to-EndDialog Control with Supervised and Reinforcement Learning
來源:ACL’17
總結:
本文介紹了一個end-to-end對話系統的學習方法HCNs(Hybrid Code Networks)。HCNs在RNN的基礎上可以結合領域知識,這些領域知識通過domain-specific software和domain-specific action templates兩個模組實現。模型可以通過監督學習和強化學習來訓練。實驗表明通過HCNs加入領域知識可以減少學習需要的資料同時提高任務導向型對話系統的效果。
下載連結:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/02/williams2017acl.pdf
8.Towards End-to-End Reinforcement Learning of Dialogue Agents for Information Access
來源:ACL’17
總結:
本文介紹了對話機器人KB-InfoBot的實現技術。KB-InfoBot通過與使用者對話幫助使用者搜尋知識庫的資訊。過去的對話系統通過語義分析將使用者的輸入轉化為符號化的表示,但這種方式無法表達語義分析過程中的不確定性,同時這種方式得到的損失度量不可導,破壞了end-to-end的學習過程。KB-InfoBot用後驗分佈來表示使用者對知識庫實體的查詢意圖,並結合強化學習進行end-to-end的訓練,利用使用者反饋學習對話系統的行動策略。
下載連結:https://www.aminer.cn/archive/towards-end-to-end-reinforcement-learning-of-dialogue-agents-for-information-access/59ae3c262bbe271c4c71e9cb
9. Deep Reinforcement Learning for Dialogue Generation
來源:EMNLP’16
總結:
本文介紹了強化學習在對話生成中的應用。基於Seq2Seq模型的對話系統通常有兩個問題:一方面會產生很多通用的,沒有信息量的回答;另一方面這類模型會做出重複迴應,陷入死迴圈。為了解決上述問題,作者提出了多輪對話需要滿足的三個要求:informativity,coherence和ease of answering,並定義了三個獎勵函式,使用強化學習訓練使對話系統可以更好地與使用者互動。
下載連結:https://www.aminer.cn/archive/deep-reinforcement-learning-for-dialogue-generation/57a4e91dac44365e35c98401
10.Online Reinforcement Learning in Stochastic Games
來源:NIPS’17
總結:
本文研究瞭如何在隨機博弈場景中使用增強學習。在傳統的強化學習中,馬爾可夫決策過程被用於描述單智慧體與環境的互動。隨機博弈作為馬爾可夫決策過程的擴充套件,可用於描述多個智慧體與環境的互動。本文考慮兩人零和隨機博弈的場景,與傳統強化學習的區別主要在兩人同時行動,並且共同對系統的獎勵產生影響。基於該場景,作者提出了UCSG(Upper Confidence Stochastic Game)演算法並做了相關的理論分析,如regret bound,sample complexity等。
下載連結:https://www.aminer.cn/archive/online-reinforcement-learning-in-stochastic-games/5a260c0c17c44a4ba8a1e165
11.Self-critical Sequence Training for Image Captioning
來源:CVPR’17
總結:
本文在影象標註(Image Captioning)任務中應用了強化學習的方法。Encoder/Decoder模型在影象標註任務中取得了巨大的成功,但依然存在兩個問題:訓練和測試時單詞生成方式不一致,訓練時是由ground-truth生成的單詞,測試時是由模型生成的單詞,一旦單詞預測錯誤,測試誤差會不斷累積;另一方面測試時單詞的生成過程不可導,無法進行end-to-end的訓練。強化學習的引入可以有效解決上述兩個問題。本文提出了SCST(Self-Critical Sequence Training)演算法,利用測試階段的獎勵直接優化CIDEr指標可以有效提高模型效果。
下載連結:https://www.aminer.cn/archive/self-critical-sequence-training-for-image-captioning/58d82fcbd649053542fd683e
12. Improved Image Captioning via PolicyGradient Optimization of SPIDEr
來源:ICCV’17
總結:
本文提出了基於強化學習的影象標註方法,該方法使用SPIDEr作為獎勵函式,並使用了基於Monte Carlo rollouts的PG(PolicyGradient)優化。SPIDEr是SPICE和CIDEr兩個圖示標註指標的組合。這兩個指標分別用於衡量標註是否與影象相符以及標註是否符合句法。
下載連結:https://arxiv.org/pdf/1612.00370.pdf
13. Safe and Nested Subgame Solving forImperfect-Information Games
來源:NIPS’17
總結:
本文介紹了德州撲克AI系統Libratus背後的技術,該系統在2017年擊敗了人類頂級職業玩家。德州撲克是一種非完美資訊遊戲,玩家無法知道對手的牌面,玩家在當前狀態下子博弈(subgame)的最優策略會受到對手玩家的影響。這和完美資訊遊戲,如國際象棋,圍棋等有本質區別。本文介紹了Libratus使用的subgame solving技術,並進行了理論和實驗分析。
下載連結:https://www.aminer.cn/archive/safe-and-nested-subgame-solving-for-imperfect-information-games/599c794e601a182cd262e8ab
14. Learning to Collaborate: Multi-ScenarioRanking via Multi-Agent Reinforcement Learning
來源:WWW’18
總結:
本文提出了一個多場景聯合排序演算法,目標是提高多場景的整體效果。多場景之間存在博弈關係,單個場景提升無法保證整體提升。本文將多場景排序看做一個完全合作,部分可觀測的多智慧體序列決策問題,並採用多智慧體強化學習的框架建模。作者提出了MA-RDPG(Multi-Agent Recurrent Deterministic Policy Gradient)演算法,利用DRQN對使用者的歷史資訊建模,同時用DPG對連續狀態和連續動作空間進行探索。
下載連結:https://s5.51cto.com/oss/201801/17/a6d11ce96aa71ead6df7446f6689608a.pdf
15.Neural Adaptive Video Streaming with Pensieve
來源:SIGCOMM’17
總結:
本文使用強化學習的方法優化ABR(adaptive bitrate)演算法。視訊客戶端通常會使用ABR演算法優化使用者體驗。ABR演算法一般使用啟發式的規則來決定視訊塊的位元速率,作者提出了Pensieve系統,採用強化學習的方法自動學習ABR演算法,效果比start-of-the-art的ABR演算法提升12-25%。
下載連結:https://www.aminer.cn/archive/neural-adaptive-video-streaming-with-pensieve/59ae3c4c2bbe271c4c720742
16.ReasoNet: Learning to Stop Reading in Machine Comprehension
來源:KDD’17
總結:
本文提出了一個機器理解模型ReasoNet。ReasoNet是一個多輪推理的演算法,通過強化學習的方法動態決定推理的輪數。模型的想法源於模擬人類閱讀的過程,人類閱讀通常會帶著問題多次閱讀原文直到獲得的資訊足夠回答問題。ResonNet通過Memory Network和注意力機制對問題和原文的互動過程建模,同時引入一個終止狀態判斷是否停止閱讀。由於引入的終止狀態是離散量,模型無法用BP演算法,因此採用強化學習的方法訓練模型。
下載連結:https://www.aminer.cn/archive/reasonet-learning-to-stop-reading-in-machine-comprehension/58437722ac44360f1082f03b
17. Dual Learning for Machine Translation
來源:NIPS’16
總結:
本文介紹了利用單語語料訓練的機器翻譯模型的方法dual-NMT。機器翻譯任務很容易找到對偶問題,例如英譯法的對偶任務是法譯英。Dual-NMT採取了對偶學習的機制,原始任務和對偶任務分別對應一個模型,兩個模型可以形成閉環,利用互動得到的反饋通過強化學習的方式進行訓練。
下載連結:https://www.aminer.cn/archive/dual-learning-for-machine-translation/58d83051d649053542fe9bc0
18. Reinforcement Mechanism Design
來源:IJCAI’17
總結:
本文介紹了一個對動態環境機制建模和計算的框架。該框架結合了強化學習的思想和行為經濟學,用於機制的設計和優化。文中介紹了該框架的兩個實際應用,分別是淘寶的impression allocation和百度搜尋中的廣告拍賣。
下載連結:https://www.aminer.cn/archive/reinforcement-mechanism-design/59ae3c262bbe271c4c71eebb
19.Tuning RecurrentNeural Networks with Reinforcement Learning
來源:arXiv
總結:
本文將強化學習應用在音樂生成任務中。音樂生成通常可以訓練一個RNN(如LSTM)來根據已有的音符預測下一個音符。但這類序列模型很難保證多步生成的序列在全域性保持一致。作者使用強化學習來改進基於RNN的音樂生成模型,在序列模型的目標函式中中加入基於樂理的獎勵函式,通過DQN訓練來提高音樂生成模型的效果。
下載連結:https://www.aminer.cn/archive/tuning-recurrent-neural-networks-with-reinforcement-learning/58d82fced649053542fd70bc
20.Curriculum Learning for Heterogeneous Star Network Embedding via Deep Reinforcement Learning
來源:WSDM’18
總結:
本文將深度強化學習應用到了異構星型網路的表示學習中。在異構星型網路表示的學習過程中通常需要取樣一系列的邊來得到點之間的相似性,作者發現這些邊的順序會顯著影響表示學習的效果。作者借鑑了課程學習(Curriculum Learning)的思想,研究如何在網路表示學習中學習這些邊的取樣順序。該問題可以形式化為馬爾可夫決策過程,作者提出了一個基於深度強化學習的解決方法。
下載連結:https://www.aminer.cn/archive/curriculum-learning-for-heterogeneous-star-network-embedding-via-deep-reinforcement-learning/5a9cb60d17c44a376ffb3c89
AMiner平臺由清華大學計算機系研發,擁有我國完全自主智慧財產權。系統2006年上線,吸引了全球220個國家/地區800多萬獨立IP訪問,資料下載量230萬次,年度訪問量1000萬,成為學術搜尋和社會網路挖掘研究的重要資料和實驗平臺。
理論 強化學習 論文
相關資料
Attention mechanism
我們可以粗略地把神經注意機制類比成一個可以專注於輸入內容的某一子集(或特徵)的神經網路. 注意力機制最早是由 DeepMind 為影象分類提出的,這讓「神經網路在執行預測任務時可以更多關注輸入中的相關部分,更少關注不相關的部分」。當解碼器生成一個用於構成目標句子的詞時,源句子中僅有少部分是相關的;因此,可以應用一個基於內容的注意力機制來根據源句子動態地生成一個(加權的)語境向量(context vector), 然後網路會根據這個語境向量而不是某個固定長度的向量來預測詞。
來源:機器之心
Neural Network
(人工)神經網路是一種起源於 20 世紀 50 年代的監督式機器學習模型,那時候研究者構想了「感知器(perceptron)」的想法。這一領域的研究者通常被稱為「聯結主義者(Connectionist)」,因為這種模型模擬了人腦的功能。神經網路模型通常是通過反向傳播演算法應用梯度下降訓練的。目前神經網路有兩大主要型別,它們都是前饋神經網路:卷積神經網路(CNN)和迴圈神經網路(RNN),其中 RNN 又包含長短期記憶(LSTM)、門控迴圈單元(GRU)等等。深度學習是一種主要應用於神經網路幫助其取得更好結果的技術。儘管神經網路主要用於監督學習,但也有一些為無監督學習設計的變體,比如自動編碼器和生成對抗網路(GAN)。
來源:機器之心
AlphaGo
阿爾法圍棋是於2014年開始由英國倫敦Google DeepMind公司開發的人工智慧圍棋程式。AlphaGo是第一個打敗人類職業棋手的計算機程式,也是第一個打敗圍棋世界冠軍的計算機程式,可以說是歷史上最強的棋手。 技術上來說,AlphaGo的演算法結合了機器學習(machine learning)和樹搜尋(tree search)技術,並使用了大量的人類、電腦的對弈來進行訓練。AlphaGo使用蒙特卡洛樹搜尋(MCTS:Monte-Carlo Tree Search),以價值網路(value network)和策略網路(policy network)為指導,其中價值網路用於預測遊戲的勝利者,策略網路用於選擇下一步行動。價值網路和策略網路都是使用深度神經網路技術實現的,神經網路的輸入是經過預處理的圍棋面板的描述(description of Go board)。
來源: Deepmind
Deep neural network
深度神經網路(DNN)是深度學習的一種框架,它是一種具備至少一個隱層的神經網路。與淺層神經網路類似,深度神經網路也能夠為複雜非線性系統提供建模,但多出的層次為模型提供了更高的抽象層次,因而提高了模型的能力。
來源:機器之心 Techopedia
Deep reinforcement learning
強化學習(Reinforcement Learning)是主體(agent)通過與周圍環境的互動來進行學習。強化學習主體(RL agent)每採取一次動作(action)就會得到一個相應的數值獎勵(numerical reward),這個獎勵表示此次動作的好壞。通過與環境的互動,綜合考慮過去的經驗(exploitation)和未知的探索(exploration),強化學習主體通過試錯的方式(trial and error)學會如何採取下一步的動作,而無需人類顯性地告訴它該採取哪個動作。強化學習主體的目標是學習通過執行一系列的動作來最大化累積的獎勵(accumulated reward)。 一般來說,真實世界中的強化學習問題包括巨大的狀態空間(state spaces)和動作空間(action spaces),傳統的強化學習方法會受限於維數災難(curse of dimensionality)。藉助於深度學習中的神經網路,強化學習主體可以直接從原始輸入資料(如遊戲影象)中提取和學習特徵知識,然後根據提取出的特徵資訊再利用傳統的強化學習演算法(如TD Learning,SARSA,Q-Learnin)學習控制策略(如遊戲策略),而無需人工提取或啟發式學習特徵。這種結合了深度學習的強化學習方法稱為深度強化學習。
來源: Scholarpedia
Generative Model
在概率統計理論中, 生成模型是指能夠隨機生成觀測資料的模型,尤其是在給定某些隱含引數的條件下。 它給觀測值和標註資料序列指定一個聯合概率分佈。 在機器學習中,生成模型可以用來直接對資料建模(例如根據某個變數的概率密度函式進行資料取樣),也可以用來建立變數間的條件概率分佈。
來源: 維基百科
Long-Short Term Memory
長短期記憶(Long Short-Term Memory) 是具有長期記憶能力的一種時間遞迴神經網路(Recurrent Neural Network)。 其網路結構含有一個或多個具有可遺忘和記憶功能的單元組成。它在1997年被提出用於解決傳統RNN(Recurrent Neural Network) 的隨時間反向傳播中權重消失的問題(vanishing gradient problem over backpropagation-through-time),重要組成部分包括Forget Gate, Input Gate, 和 Output Gate, 分別負責決定當前輸入是否被採納,是否被長期記憶以及決定在記憶中的輸入是否在當前被輸出。Gated Recurrent Unit 是 LSTM 眾多版本中典型的一個。因為它具有記憶性的功能,LSTM經常被用在具有時間序列特性的資料和場景中。
Loss function
在數學優化,統計學,計量經濟學,決策理論,機器學習和計算神經科學等領域,損失函式或成本函式是將一或多個變數的一個事件或值對映為可以直觀地表示某種與之相關“成本”的實數的函式。
來源: Wikipedia
Monte Carlo Tree Search
蒙特卡洛樹搜尋(英語:Monte Carlo tree search;簡稱:MCTS)是一種用於某些決策過程的啟發式搜尋演算法,最引人注目的是在遊戲中的使用。一個主要例子是電腦圍棋程式,它也用於其他棋盤遊戲、即時電子遊戲以及不確定性遊戲。
來源: 維基百科
Markov decision process
馬爾可夫決策過程為決策者在隨機環境下做出決策提供了數學架構模型,為動態規劃與強化學習的最優化問題提供了有效的數學工具,廣泛用於機器人學、自動化控制、經濟學、以及工業界等領域。當我們提及馬爾可夫決策過程時,我們一般特指其在離散時間中的隨機控制過程:即對於每個時間節點,當該過程處於某狀態(s)時,決策者可採取在該狀態下被允許的任意決策(a),此後下一步系統狀態將隨機產生,同時回饋給決策者相應的期望值,該狀態轉移具有馬爾可夫性質。
Machine translation
機器翻譯(MT)是利用機器的力量「自動將一種自然語言(源語言)的文字翻譯成另一種語言(目標語言)」。機器翻譯方法通常可分成三大類:基於規則的機器翻譯(RBMT)、統計機器翻譯(SMT)和神經機器翻譯(NMT)。
來源:機器之心
Objective function
目標函式f(x)就是用設計變數來表示的所追求的目標形式,所以目標函式就是設計變數的函式,是一個標量。從工程意義講,目標函式是系統的效能標準,比如,一個結構的最輕重量、最低造價、最合理形式;一件產品的最短生產時間、最小能量消耗;一個實驗的最佳配方等等,建立目標函式的過程就是尋找設計變數與目標的關係的過程,目標函式和設計變數的關係可用曲線、曲面或超曲面表示。
來源: 百度百科
Reinforcement learning
強化學習是一種試錯方法,其目標是讓軟體智慧體在特定環境中能夠採取回報最大化的行為。強化學習在馬爾可夫決策過程環境中主要使用的技術是動態規劃(Dynamic Programming)。流行的強化學習方法包括自適應動態規劃(ADP)、時間差分(TD)學習、狀態-動作-回報-狀態-動作(SARSA)演算法、Q 學習、深度強化學習(DQN);其應用包括下棋類遊戲、機器人控制和工作排程等。
來源:機器之心
Supervised learning
監督式學習(Supervised learning),是機器學習中的一個方法,可以由標記好的訓練集中學到或建立一個模式(函式 / learning model),並依此模式推測新的例項。訓練集是由一系列的訓練範例組成,每個訓練範例則由輸入物件(通常是向量)和預期輸出所組成。函式的輸出可以是一個連續的值(稱為迴歸分析),或是預測一個分類標籤(稱作分類)。
來源: Wikipedia
efy
一飛智控(天津)科技有限公司,2015年成立,國家級高新技術企業,註冊資本800萬元。公司專注於無人機飛行控制系統的研發與製造,為智慧無人裝備行業應用提供完整的控制系統解決方案。一飛智控核心團隊由原中國科學院及北京航空航天大學、南京航空航天大學研發隊伍組建而成,自2004年起開始核心技術的積累,率先提出為無人機造“大腦”的概念。在成就了多個國內商用無人機應用的“第一次”之後,於2015年正式成立一飛智控(天津)科技有限公司,並作為牽頭企業入駐天津市泰達智慧無人裝備產業園。目前公司核心研發團隊超過70人,其中具有博士學位人員佔27.3%,碩士45.5%,被評為“全球前十大有影響力的飛行機器人研發團隊”。
Seq2Seq