1. 程式人生 > >David Silver RL課程第1課(關於增強學習的介紹)

David Silver RL課程第1課(關於增強學習的介紹)

1.The difference of the reinforcement learning:(區別於傳統的監督/非監督學習)

  • no supervisor ,only a reward signal(小孩試錯的過程)

  • feedback is delayed,not instantaneous(錯誤的決定不會即時顯現災難,要經過幾個階段的驗證,反饋被延遲)

  • time really matters(sequential連續的,not i.i.d data)(獨立同分布已經被破壞掉了,agent根據環境影響來採取措施應對環境的變化)

2.增強學習可以用在各個領域利用獎勵機制便於優化決策,需要不同資料集的集合。例如在遊戲中通過不斷地學習試錯找到完美的策略。

3.Rewards

  • 是一個標量的反饋訊號,用隨機變數 表示。

  • 轉換後的標量獎勵訊號要足夠多,並且有一定的優先順序(有衡量尺度)。

  • 每一步決策都要找到對應的,時每一步的reward相加最後實現最大化

4.Goal:select actions to maximise total future reward

建立統一的框架,使用機器學習的方法,使用相同的形式應對不同的連續決策問題,提前考慮未來,最大化未來的獎勵

  • Actions may have long term consequences

  • Reward may be dalayed

  • It may be better to sacrifice(犧牲) immediate reward to gain more long-term reward

需要提前考慮未來,結果是長期性的。可能不是當下想要的結果,但是經過幾步以後,就變成我們想要的結果了,這就意味著現在需要放棄一些好的獎勵,而在不久的未來則會得到更高的獎勵,所以不要太貪心,需要目光長遠,例如長期投資問題或者飛機飛行油耗問題

5.資料流傳播方向:

agent負責take action,agent採取行動的每一步都是基於它當前所獲得的資訊。agent有兩個輸入,一個是觀察得到的外部資訊,另外一個就是獲得的獎勵,共同決定了下一步的措施。我們的目標就是找到位於大腦中的演算法。

在另一個方面,我們有一個外部環境。隨著時間不斷迴圈agent與environment之間的互動,agent每採取一步行動,agent就會得到來自外部世界觀測的輸入;agent採取行動之後,新的環境就產生了,產生對應的obsercation和reward,產生了下一個外部資訊以及對應的分數。我們不能控制環境,只能唯一地通過agent採取行動這個渠道來影響環境。

  • 增強學習是基於觀察,獎勵,行動措施的時間序列。

  • 這個時間序列代表著agent的經驗,這個經驗就是用於增強學習的資料。

  • 因此增強學習的問題就是聚焦這個資料來源,即這個資料流。

6.History:The history is the sequence of observations,actions,rewards。

  • What happens next depends on the history:

  • The agent selects actions depends on the history.(建立對映)

  • The environment selects observations/rewards(環境根據history發生變化產生rewards)

  • 但是history通常很巨大

7.State 對history簡要的總結,用state代替history

  • State is the information used to determine what happens next.

  • State is a function of the history.

  • state分為agent state和environment state

8.An information state(Markov state) contains all useful information from history.

Markov鏈 (Markov性質)

A state  is Markov if and only if   

下一時刻的狀態與原來的state無關,僅和當下有關

  • Once the state is known,the history may be thrown away.

  • The state is a sufficient statistic of the future.

  • The environment stste  is Markov.

  • The history  is Markov(定義,可以儲存整個的history)

9.Full observability environment (全觀察環境)(課程大部分涉及到此種環境)

  • agent directly observes environment state(數字所表示的狀態)

  • agent state和environment state相同

  • This is a Markov decision process(MDP)

10.Partial observability:agent indirectly observes environment

  • eg: robot/poker playing agent

  • 此時agent state和environment state不相同

  • This is a partially observable Markov decision process(POMDP)

11.建立代理 

  • 記住每一次的觀測,動作,獎勵  complete history:

  • Beliefs of environment state:(貝葉斯問題)

  • neural network: 線性組合方式將最近agent的狀態與最近的觀測結合起來,就能得到最新的狀態(迴圈神經網路)

12.An RL agent may include one or more of these components:

  • policy:agent's behaviour function(行為函式,狀態到行動的對映)

  • value function:how good is each state and/or action.(預期獎勵)

  • model:agent's representation of the environment(判斷環境的變化)

13.Policy

  • A policy is the agent's behaviour

  • It is a map from statre to action.

  • Deterministic policy:

  • Stochastic(隨機)policy: 隨即方式狀態對映到狀態 

14.Value:未來獎勵的預測

  • Value function is a prediction of future reward.

  • Used to evaluate the goodness and badnenss of states.

  • And therefore to select between actions.

  • 對於一種policy ,其中是下一階段的獎勵,其中增加一個小於1的權重值,這表明我們更關注當前的獎勵,即,作為折現值。

15.Model:並不是環境本身,不是必須要求的。

  • A model predicts what the environment will do next.

  • transition model:P predicts the next state(dynamics)

  • reward model:R predicts the next (immediate) reward.

  • 狀態轉換模型:是根據當前的狀態和動作,環境所處的下一個狀態的概率。

預期獎勵是基於先前的以及當下的狀態的。

16.對增強學習分類根據agent是否包含這三個關鍵元素:

  • Value Based:No Policy(Implicit不清楚的),即不需要明確的Policy;Value Function

  • Policy Based:Policy;No Value Function

  • Actor Critic:Policy;Value Function

17.根據model分類:

  • Model Free:Policy and/or Value Function;No Model

  • Model Based:Policy and/or Value FUnction;Model