David Silver強化學習Lecture1：強化學習簡介

阿新 • • 發佈：2019-02-27

優化計算 rod 簡介因此 roc 課件布局表示

課件：Lecture 1: Introduction to Reinforcement Learning

視頻：David Silver深度強化學習第1課 - 簡介 (中文字幕)

強化學習的特征

作為機器學習的一個分支，強化學習主要的特征為:

無監督,僅有獎勵信號；
反饋有延遲,不是瞬時的;
時間是重要的(由於是時序數據,不是獨立同分布的);
Agent的動作會影響後續得到的數據;

強化學習問題

獎勵(Rewards)

獎勵 \(R_t\) 是一個標量的反饋信號,表示Agent在 \(t\) 時刻的表現如何.

Agent的目標: 最大化累積獎勵(maximise cumulative reward).

強化學習基於獎勵假設(reward hypothesis).

獎勵假設(Reward Hypothesis):
所有強化學習任務的目標都可以被描述為最大化期望累積獎勵.

序貫決策(Sequential Decision Making)

目標: 選擇合適的動作最大化將來的累積獎勵.

動作可能會產生長期後果；
獎勵會有延遲性;
犧牲立即回報可能會獲得更多的長期回報.

智能體和環境(Agent and Environment)

智能體在每個時刻\(t\)會:

執行動作(Action)\(A_t\);
接收觀測(Observation)\(O_t\);
接收標量獎勵(Reward)\(R_t\)

.

而環境則會:

接收動作(Action)\(A_t\);
產生觀測(Observation)\(O_{t+1}\);
產生標量獎勵(Reward)\(R_{t+1}\).

歷史與狀態(History and State)

歷史(History):由一系列觀測,動作和獎勵構成.

\[ H_t = O_1, R_1, A_1, \dots, A_{t-1}, O_t, R_t \]

下一步將發生什麽取決於歷史:

智能體選擇的action;
環境選擇的observations/rewards.

狀態(State):用來決定接下來會發生什麽的信息.

狀態是歷史的函數:

\[ S_t = f(H_t) \]

環境狀態(Environment State)

環境狀態 \(S_{t}^{e}\) 是環境的私有表示,通常對於智能體來說該狀態不可見.

即使\(S_{t}^{e}\)可見,也可能包含不相關信息.

智能體狀態(Agent State)

智能體狀態 \(S_{t}^{a}\) 是智能體的內部表示,包含其用來決定下一步動作的信息,也是強化學習算法使用的信息.

可以寫成歷史的函數: \(S_{t}^{a} = f(H_t)\)

信息狀態(Information State)

信息狀態(也稱為馬爾科夫狀態): 包含歷史中所有有用的信息.

技術分享圖片

馬爾科夫狀態表明: 未來只與現在有關,而與過去無關.

其中,環境狀態\(S_t^e\)和歷史\(H_t\)具有馬爾科夫性質.

Rat Example

假如個體狀態=序列中的後三個事件(不包括電擊、獲得奶酪，下同),事件序列3的結果會是什麽? (答案是：電擊)
假如個體狀態=亮燈、響鈴和拉電閘各自事件發生的次數,那麽事件序列3的結果又是什麽? (答案是：奶酪)
假如個體狀態=完整的事件序列,那結果又是什麽? (答案是：未知)

完全可觀測環境(Fully Observable Environments)

完全可觀測性(Full observability): 智能體可以直接觀測到環境狀態,即
\[ O_t = S_t^a = S_t^e \]

智能體狀態 = 環境狀態 = 信息狀態
實際上是馬爾科夫決策過程(Markov Decision Process, MDP)

部分可觀測環境(Partially Observable Environments)

部分可觀測性(Partial observability): 智能體不能夠直接觀測到環境.

如,機器人不能通過攝像頭得知自身的絕對位置.

智能體狀態 \(\neq\) 環境狀態
部分可觀測馬爾科夫決策過程(POMDP)

此時,智能體必須構建其自身的狀態表示 \(S_t^a\),比如:

完全的歷史: \(S_t^a = H_t\);
環境狀態的置信度: \(S _ { t } ^ { a } = \left( \mathbb { P } \left[ S _ { t } ^ { e } = s ^ { 1 } \right] , \ldots , \mathbb { P } \left[ S _ { t } ^ { e } = s ^ { n } \right] \right)\);
循環神經網絡: \(S_t^a = \sigma \left(S_{t-1}^{a}W_{s} + O_{t}W_{o}\right)\)

智能體的構成

智能體主要包含以下幾種成分:

策略(Policy): 智能體的行為函數;
值函數(Value Function): 每個state或action的好壞;
模型(Model): 智能體對環境的表示.

策略(Policy)

策略是智能體的行為;
是狀態到動作的映射;
確定性策略: \(a = \pi(s)\);
隨機性策略: \(\pi(a|s) = \mathbb{P} \left[ A_{t} = a | S_{t} = s\right]\)

值函數(Value Function)

值函數是對於未來獎勵的預測.

用於評價狀態的好壞;
因此可以用來選擇動作.

\[ v_{\pi}(s) = \mathbb{E}_{\pi} \left[ R_{t+1} + \gamma R_{t+2} + \gamma^2 R_{t+3} + \dots | S_{t} = s \right] \]

模型(Model)

模型用來預測環境接下來會做什麽.

\(\mathcal{P}\): 預測下一個狀態.
\[ \mathcal{P}_{ss'}^{a} = \mathbb{P} \left[ S_{t+1} = s' | S_{t} = s, A_{t} = a\right] \]
\(\mathcal{R}\): 預測下一個(立即)獎勵.
\[ \mathcal{R}_{s}^{a} = \mathbb{E} \left[ R_{t+1} | S_{t} = s, A_{t} = a\right] \]

Maze Example

策略表示:

箭頭表示每個狀態的策略 \(\pi(s)\).

技術分享圖片

值函數表示:

數值表示每個狀態的值 \(v_{\pi}(s)\).

技術分享圖片

模型表示:

智能體可能對環境建立內部模型

網格布局表示轉移模型 \(\mathcal{P}_{ss'}^{a}\);
數值表示每個狀態的立即獎勵 \(\mathcal{R}_{s}^{a}\).

智能體的分類(Categorizing RL agents)

按智能體的成分分類:

基於值函數(Value Based)
基於策略(Policy Based)
演員-評論家(Actor Critic)

或者按有無模型分類:

無模型(Model Free)
基於模型(Model Based)

強化學習的問題

學習與規劃(Learning and Planning)

強化學習

環境的初始狀態未知;
智能體與環境進行交互;
智能體提升其策略.

規劃
環境的模型已知;
智能體通過模型進行計算,無須與外部進行交互;
智能體提升其策略

探索和利用(Exploration and Exploitation)

強化學習是一種試錯(trial-and-error)學習.

智能體需要從與環境的交互中找到一種好的策略,同時不損失過多的獎勵.

探索(Exploration): 從環境中尋找更多信息;
利用(Exploitation): 利用已知信息使獎勵最大化.

探索和利用同等重要,即使根據已有信息選擇出的最優動作可以得到不錯的獎勵,不妨嘗試全新的動作對環境進行探索,也許可以得到更好的結果.

預測和控制(Prediction and Control)

預測(Prediction): 對未來進行評估.

控制(Control): 最優化未來的結果.

David Silver強化學習Lecture1：強化學習簡介

優化計算 rod 簡介因此 roc 課件布局表示課件：Lecture 1: Introduction to Reinforcement Learning 視頻：David Silver深度強化學習第1課 - 簡介 (中文字幕) 強化學習的特征作為機器學習的

學習筆記：強化學習之A3C程式碼詳解

寫在前面：我是根據莫煩的視訊學習的Reinforce learning，具體程式碼實現包括Q-learning，SARSA，DQN，Policy-Gradient，Actor-Critic以及A3C。（莫凡老師的網站：https://morvanzhou.git

六天搞懂“深度學習”之一：機器學習

一般來說，人工智慧、機器學習和深度學習是相互關聯的：“深度學習是一種機器學習，而機器學習是一種人工智慧。” 機器學習指的是人工智慧的特定領域，即，機器學習表示人工智慧的特定技術組成。機器學習是一種從“資料”中找出“模型”的技術。深度學習是機器學習的一種技術。深度學習近年來備受

機器學習8：深度學習——全連線

深度模型最直觀的解釋就是多層網路，最簡單的深度模型是全連線。深度網路的每個全連線層其實質就是一個邏輯迴歸模型，每層包括線性函式與啟用函式。如圖所示： ——全連線細節展示，每一層都是,表示sigmod函式。 ——全連線模型通過多層組合，可以得到如下的解析模型：對於模型中的隱藏

分享《TensorFlow學習指南：深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF

下載：https://pan.baidu.com/s/1v4B-Jp-lQClBWiCfDd1_dw 更多分享：http://blog.51cto.com/14050756 《TensorFlow學習指南：深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF英文完整版PDF，242頁，帶目錄書籤，彩色

《TensorFlow學習指南：深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF

下載：https://pan.baidu.com/s/1v4B-Jp-lQClBWiCfDd1_dw 更多資料：https://pan.baidu.com/s/1g4hv05UZ_w92uh9NNNkCaA 《TensorFlow學習指南：深度學習系統構建詳解》英文PDF+原始碼+部分中文PDF英文完整版

分享《TensorFlow學習指南：深度學習系統構建詳解》英文PDF+源代碼+部分中文PDF

size 分布式部署模型 -o 卷積神經網絡 ref ima 源代碼下載：https://pan.baidu.com/s/1v4B-Jp-lQClBWiCfDd1_dw 更多分享：http://blog.51cto.com/14050756 《TensorFlow學習

學習筆記：規則學習（待完善）

這篇筆記，主要是機器學習第15章的學習筆記。涉及很多概念，後面複習時，來補全文章，主要是概念結構。規則學習：是從訓練資料中學習出一組能用於對未見示列進行判別的規則。 @@1. 規則頭 ===> 規則體 @@2.規則集合，衝突，衝突消解解決衝突的策略：投票

TensorFlow 學習指南：深度學習系統構建詳解

內容簡介面向廣泛的技術受眾（從資料科學家、工程師到學生和研究人員），本書介紹了 TensorFlow 的基本原理和實踐方法。從 TensorFlow 中的一些基本示例開始，深入探討諸如神經網路體系結構、TensorBoard 視覺化、TensorFlow 抽象庫和多執行緒輸入管道等主題。閱讀本書

第一篇學習筆記：《學習計劃》

我是從7月6日開始正式開始學Java的，其實也沒什麼目標，我本來都不打算在搞技術搞開發了，因為年紀也不小了，有28歲，搞開發有些累人，不過我還是決定下來開始學Java，是想玩一玩這個東西，不然我太空虛了，整天搞電腦應用實在太悶，還是搞點開發來的刺激，我不打算拿這東西來混飯賺

PAC學習理論：機器學習那些事

參考翻譯，有大量刪除和修改，如有異議，請拜訪原文。一定要看英文原文！！！。機器學習是有別於專家系統（基於知識/規則）的一種模式識別方法，與專家系統的構建方法不同，但目的相同。本文分析了一眾機器學習方法，並給出了一些機器學習概念的通俗解釋。

Java Web學習(31)： Servlet學習(四)

package com.servlet; import java.io.IOException; import java.io.PrintWriter; import javax.servlet.ServletConfig; import javax.servlet.ServletException;

深度學習大講堂：深度學習在目標跟蹤中的應用

本文作者徐霞清，中國科學院計算技術研究所VIPL組碩士生，導師常虹副研究員。研究方向為深度學習與計算機視覺（目標跟蹤等）。開始本文之前，我們首先看上方給出的3張圖片，它們分別是同一個視訊的第1，40，80幀。在第1幀給出一個跑步者的邊框(bounding-box)

CUDA學習一：CUDA C簡介

#1、一個程式來了解CUDA C #include <stdio.h> #include "commom/book.h" //__global__表示函式在裝置而非主機上執行，add函式由編譯裝置程式碼的編譯器編譯 __global__ void

新興機器學習演算法：遷移學習

1.前言在面對某一領域的具體問題時，通常可能無法得到構建模型所需規模的資料。然而在一個模型訓練任務中針對某種型別資料獲得的關係也可以輕鬆地應用於同一領域的不同問題。這種技術也叫做遷移學習（Tran

Oracle學習10：PLSQL學習

1. PLSQL概述 PLSQL是Oracle內部的一種程式語言。 PLSQL是一門語言。叫做過程化SQL語言（Procedural Language SQL） PLSQL是一種過程化語言，屬於第三代語言，它與C、C++、Java等語言一樣關注於處理細節，

STM32學習之：Context—M3簡介

Cortex-M3概覽（1）簡介 Cortex-M3是一個 32位處理器核心。內部的資料路徑是 32位的，暫存器是 32位的，儲存器介面也是 32 位的。CM3 採用了哈佛結構，擁有獨立的指令匯流排和資料匯流排，可以讓取指與資料訪問並行不悖。這樣一來資料訪問不再佔用指令匯流排，從而提升了效能。為

強化學習(David Silver)4：免模型學習

叠代 ack 方差自舉組合 a* 最小二乘求和效率 0、為什麽免模型學習？ PS：課程中叠代的值是值函數；周誌華老師的西瓜書中叠代的是狀態值函數；課程中叠代的是狀態-動作值函數 1、蒙特卡洛方法：直接通過采樣求和（v(s) = S(s)/n(s)，其中S(s) =

強化學習(David Silver)4：免模型控制

sil 對比 rsa isod 頻率模型找到使用采樣 1、一般的策略叠代優化的方法 1)策略評估 2)策略改善 2、model free的策略叠代優化的方法基於v(s)的優化需要MDP，基於Q的優化不需要，所以策略是 1)使用Q函數策略評估 2)使用厄普西隆貪心策

強化學習(David Silver)6：值函數近似

最優解學習前向算法數據計算 action 算法什麽化學 0、為什麽有值函數近似狀態空間太大，基於DP/MC/TD的方法的離散值太多，存儲量太大，運行太慢 1、值函數近似有兩種方法一個是狀態值函數方法；一個是狀態動作值方法 2、值函數近似的三種類型類型1：輸

David Silver強化學習Lecture1：強化學習簡介

強化學習的特征

強化學習問題

獎勵(Rewards)

序貫決策(Sequential Decision Making)

智能體和環境(Agent and Environment)

歷史與狀態(History and State)

環境狀態(Environment State)

智能體狀態(Agent State)

信息狀態(Information State)

Rat Example

完全可觀測環境(Fully Observable Environments)

部分可觀測環境(Partially Observable Environments)

智能體的構成

策略(Policy)

值函數(Value Function)

模型(Model)

Maze Example

智能體的分類(Categorizing RL agents)

強化學習的問題

學習與規劃(Learning and Planning)

探索和利用(Exploration and Exploitation)

預測和控制(Prediction and Control)

相關推薦