1. 程式人生 > >強化學習導論(Reinforcement Learning: An Introduction)讀書筆記(一):強化學習介紹

強化學習導論(Reinforcement Learning: An Introduction)讀書筆記(一):強化學習介紹

因為課題轉到深度強化學習方面,因此開始研究強化學習的內容,同時在讀這方面的書,並將Reinforcement Learning: An Introduction(Richard S. Sutton and Andrew G.Barto)第二版作為主要的學習資料,因為英語讀起來不僅速度慢,而且理解的也沒那麼深入,所以為了記錄學到的知識,並加深理解,同時也抱著分享的態度,開始寫此係列的部落格。

首先從第一章開始,第一章主要是對強化學習做了一個概述。下面只記錄了其中的一部分,包括概念、要素等。

概念

強化學習(Reinforcement Learning, RL)和其他型別的學習(機器學習、深度學習)類似包括待研究的問題以及解決這些問題的方法,還有研究這些問題和方法的領域。具體的來說,強化學習的問題物件是一類如何根據環境做出行動從而進行最大化獎勵的問題。這類問題有三個特徵:

  1. 閉環性(closed-loop):學習系統產生的行為(action)會影響到後續的輸出;
  2. 無監督(no direct instructions):學習物件不會得知哪一種行為更好,哪一種行為更差,它只能通過學習去得這這些資訊,注意在這裡無監督的意思是學習物件得不到直接的指導;
  3. 延時性:行動產生的結果,包括獎勵(reward),需要很多個時間週期才能顯現出來。

強化學習與監督學習和無監督學習都有區別,首先,監督學習的輸入是帶有標籤的資料,這類學習的目標是提高泛化能力,而強化學習是從agent自身與環境的互動中進行學習。其次,無監督學習的目標是為了找出無標籤資料中隱藏的結構,而強化學習的目標是最大化與環境互動所得的獎勵。因此強化學習可以說是除了監督學習與無監督學習之外的第三種正規化。
強化學習面臨的挑戰之一是探索-利用困境(exploit and explore)。

要素

除了agent和環境之外,強化學習的要素還包括策略(Policy)獎勵(reward signal)值函式(value function)環境模型(model),下面對這幾種要素進行說明:

  1. 策略(Policy),策略就是一個從當環境狀態到行為的對映;
  2. 獎勵(reward signal),獎勵是agent執行一次行為獲得的反饋,強化學習系統的目標是最大化累積的獎勵,在不同狀態下執行同一個行為可能會得到不同的獎勵;
  3. 值函式(value function),一種狀態的value為從當前狀態出發到停機狀態所獲得的累積的獎勵;
  4. 環境模型(model),agent能夠根據環境模型預測環境的行為,採用環境模型的強化學習方法稱為基於模型(model-based)的方法,不採用環境模型的強化學習方法稱為model-free方法。

強化學習因其注重agent在與環境的直接互動中進行學習而有別於其他學習方式。

相關推薦

no