David Silver強化學習課程筆記（一）

阿新 • • 發佈：2019-01-17

大家好，我是微念。

國慶這些天大致學習了一下David Silver的強化學習課程，感覺挺受用的，大家可以去百度雲盤（無字幕版本）下載視訊，或者去B站搜尋觀看（有字幕版本），課程課件下載地址為David Silver課程課件。

下面將我學習這門課程視訊的一些筆記記錄下來，便於以後檢視。

第一課：強化學習簡介

1.強化學習的特徵

強化學習與其它機器學習正規化有什麼不同呢？

1）沒有監督，僅僅只有一個獎勵訊號，或者說，不直接判定某個狀態或動作的好壞，而是給出一個獎勵；

2）沒有即時的反饋，或者說，反饋是有延遲的。比如圍棋，我們當前的落子並不會直接被賦予獎勵，而是整盤棋下完之後才有一個反饋（+1表示贏，-1表示輸）；

3）資料是序列化的，資料與資料之間是有關的，而不是i.i.d的；

4）智慧體的行為將影響後續的資料，比如在圍棋中，我們當前的落子將會影響棋局的走向。

2.獎勵

關於獎勵的具體定義就不詳述了，不過需要注意獎勵（reward）和回報（return）是不一樣的，回報是累積獎勵。

此外，課程中給出了獎勵假說（強化學習是建立在該假說上的）：

所有的目標都能夠被表述為期望累積獎勵的最大化。

All goals can be described by the maximisation of expected cumulative reward.

3.智慧體與環境

課程中給出了智慧體與環境的互動示意圖：

這裡值得注意的是，t是在env. step中進行增量操作的。比方說，我們的智慧體處在時間步t，此時執行了某個動作a，環境在受到該動作影響之後，產生獎勵r，因為獎勵的給出是需要時間的，因此該獎勵時間步為t+1。

4.狀態

history和state是不一樣的，所謂history，指的是由observations、actions、rewards所組成的序列，而state則是history的函式，具體如下：

1）history：

2）state：

此外，視訊中還提到了三個狀態概念：environment state、agent state、information state（也叫作 Markov state）。其中environment state表示環境用於選擇下一個observation/reward的資料；agent state表示智慧體用於選擇下一個action的任何資訊；而information state則包含history中所有有用的資訊。

下面以小鼠例子對agent state進行理解：

上面有說到agent state表示智慧體用於選擇下一action的任何資訊，或者換句話說，它是RL演算法所使用的資訊。因此對於上面三個問題，答案分別是：1）電擊，2）乳酪，3）無法確定。

5.RL智慧體的分類

1）基於值函式（Value Based）-->不需要顯式的策略，只需要max(V)；

2）基於策略（Policy Based）-->直接由state得到動作；

3）AC（Actor Critic）-->其中actor即policy，critic即value function。

其中AC演算法我們可以從命名中看出其想法，也就是策略就好比一個演員，選擇某一個動作，而值函式則類似於一個評論家，對演員的各種動作進行評分。即值函式將引導策略朝著獎勵高的方向進行更新。

6.學習與規劃

學習（Learning）和規劃（Planning）是sequential decision making中的兩個基本問題，這兩個問題分別如下：

1）Reinforcement Learning：

a）智慧體本身並不知道環境的相關資訊；

b）智慧體與環境進行互動，從而獲取環境的相關資訊，比如獎勵；

c）智慧體通過所得到的資訊對策略進行改進。

2）Planning：

a）環境的模型M是知道的，模型包括transition和reward，transition是在某個狀態s下執行動作a，轉移到狀態s'的概率分佈，而reward是在某個狀態s下執行動作a所得到的獎勵，或者在某個狀態s下的獎勵；

b）智慧體利用M進行計算，並不需要實質性地與環境互動，就好比自己在腦子裡想，我下一步走這裡，然後這樣走，之後我能得到多少獎勵；

c）智慧體對策略進行改進。

總的來說，learning就是在實踐中學習，而planning則是在model中模擬。

7.預測與控制

1）預測：給定某個策略，估計該策略將能得到多少獎勵；

2）控制：找到一個最優的策略。

下面舉個Gridworld的例子進行學習：

1）預測：

該例子中，我們使用的是一個均勻隨機策略，也即在某一個狀態s處，選擇向四個方向移動的概率均為0.25，然後我們對給出的兩個互動樣本（A-->A'，B-->B'）進行學習，利用迭代的方法求出了均勻隨機策略對應的狀態值函式表。

2）控制：

與預測的例子一樣，同樣的環境以及互動所得樣本，我們並不滿足於對一個均勻隨機策略進行估計，而是以某一個初始化策略作為初值（e.g.均勻隨機策略），迭代更新狀態值函式與策略，最終得到最優策略，這才是我們所謂的“控制”。

不知道怎麼排版的，格式有點亂，請見諒......

如有不當之處，請指正，謝謝。

David Silver強化學習課程筆記（一）

第一課：強化學習簡介

1.強化學習的特徵

2.獎勵

3.智慧體與環境

4.狀態

5.RL智慧體的分類

6.學習與規劃

7.預測與控制

David Silver強化學習課程筆記（一）

David Silver強化學習課程筆記（五）

David Silver強化學習課程筆記（三）

David Silver強化學習課程筆記（八）（下）

David Silver強化學習公開課（一）：馬爾科夫決策過程

Elam的吳恩達深度學習課程筆記（一）

David Silver強化學習公開課（四）：不基於模型的預測

斯坦福深度學習課程筆記（一）

斯坦福CS224N_自然語言處理NLP深度學習DL課程筆記（一）

Andrew Ng機器學習課程筆記（四）之神經網絡

《Python 機器學習》筆記（一）

Shiro入門視頻課程——筆記（一）

【2018版】Spring4.3入門視頻課程——筆記（一）

Hibernate框架技術視頻課程——筆記（一）

PHP、MySQL和JavaScript學習手冊筆記（一）

tensorflow課程筆記（一）

機器學習速成筆記（一）：主要術語

李航—統計學習方法筆記（一）

機器學習實戰筆記（一）- 使用SciKit-Learn做回歸分析

學習Coq筆記（一）：Windows下安裝Coq

David Silver強化學習課程筆記（一）

第一課：強化學習簡介

1.強化學習的特徵

2.獎勵

3.智慧體與環境

4.狀態

5.RL智慧體的分類

6.學習與規劃

7.預測與控制

相關推薦