David Silver深度強化學習-1-學習筆記

阿新 • • 發佈：2018-12-12

最近需要學習POMDP相關的東西，奈何需要學習的東西較多。之前沒接觸過強化學習，找了個視訊找了本書看。將一下東西記錄下來吧。視訊地址：David Silver強化學習課程參考部落格：

強化學習簡介

核心思想

在強化學習的主要核心就是： 通過agent觀察的Environment的變化（稱之為observation），來決定採取不同的動作（action），使未來獲得的獎勵（reward）最大。

Agent and Environment

在這裡插入圖片描述如上圖。在一個時間序列過程中,每個時間步t對agent和environment都有影響。對agent來說，在每一個時間步長中，要進行如下操作：

執行動作

觀察環境變化
計算執行此動作的reward

對環境environment來說，執行的操作與agent對應：

接收agent的動作
觀察environment的變化，傳送observation給agent
傳送reward值給agent

History and State

這裡引入這兩個概念：

History 由observations, actions, rewards組成的一個序列
state 決定下一個時間步將會發生什麼的表示

定義公式如下：

$H_t$ = $O_1$ , $A_1$ , $R_1$ … $O_t$ , $A_t$ , $R_t$

狀態由History決定：

$S_t$ = $f(H_t)$

一般地，將History state定義為一個Markov state，即下一時間步的狀態 $S_{(t+1)}$ 只和當前狀態 $S_t$ 有關，與再之前的資訊無關。

Major Components of an RL Agent

agent一般由下列三部分組成，也可不同時存在

policy 策略
Value function 值函式
Model 模型

policy 策略

A policy is the agent’s behavior
It is a map from state to action
Deterministic policy: a = $π$ (s) 確定策略
Stochastic policy: $π(a|s)$ = P $[At=a|St=s]$ 隨機策略

Value function（值函式）

它預測了當前狀態下未來可能獲得的reward的期望，用於衡量當前狀態的好壞。公式: $V_π（S）$ = $E_π[R_{t+1}+ γR_{t+2}+···|S_t = s]$ 表示當前狀態s下，未來n個時間步獲得reward的期望值

Model（模型）

預測environment下一步會做出什麼樣的改變，從而預測agent接收到的狀態或者reward是什麼。

P模型預測環境的下一個狀態
R模型預測下一個reward

探索和利用

強化學習是一種試錯(trial-and-error)的學習方式：最開始的時候不清楚environment（環境）的工作方式，不清楚執行什麼樣的action（行為）是對的，什麼樣的action（行為）是錯的。因而agent需要從不斷嘗試的經驗中發現一個好的policy，從而在這個過程中獲取更多的reward。

在學習過程中，會有一個在Exploration（探索）和Exploitation（利用）之間的權衡。

Exploration（探索）會放棄一些已知的reward資訊，而去嘗試一些新的選擇——即在某種狀態下，演算法也許已經學習到選擇什麼action讓reward比較大，但是並不能每次都做出同樣的選擇，也許另外一個沒有嘗試過的選擇會讓reward更大，即Exploration希望能夠探索更多關於environment的資訊。
Exploitation（利用）指根據已知的資訊最大化reward。

David Silver深度強化學習-1-學習筆記

強化學習簡介

核心思想

Agent and Environment

History and State

Major Components of an RL Agent

policy 策略

Value function（值函式）

Model（模型）

探索和利用

David Silver深度強化學習-1-學習筆記

David Silver深度強化學習第1課- intro-RL

強化學習(David Silver)4：免模型學習

David Silver《強化學習RL》第二講馬爾可夫決策過程

David Silver RL課程第1課（關於增強學習的介紹）

David Silver《強化學習RL》第三講動態規劃尋找最優策略

echarts學習—1（筆記）

David Silver強化學習課程筆記（五）

David Silver強化學習課程筆記（三）

David Silver強化學習課程筆記（一）

David Silver強化學習課程筆記（八）（下）

強化學習(David Silver)4：免模型控制

強化學習(David Silver)6：值函數近似

強化學習(David Silver)2：MDP(馬爾科夫決策過程)

強化學習(David Silver)3：動態規劃

MIT6.S094深度學習與無人駕駛整理筆記（3）——————深度強化學習與運動規劃

David Silver強化學習公開課（一）：馬爾科夫決策過程

ROS開發筆記（9）——ROS 深度強化學習應用之keras版本dqn程式碼分析

David Silver強化學習公開課（四）：不基於模型的預測

深度學習基礎學習筆記-1人工智慧定義

David Silver深度強化學習-1-學習筆記

強化學習簡介

核心思想

Agent and Environment

History and State

Major Components of an RL Agent

policy 策略

Value function（值函式）

Model（模型）

探索和利用

相關推薦