1. 程式人生 > >深度學習 lab16 強化學習筆記(Q-learning sarsa flappy bird)

深度學習 lab16 強化學習筆記(Q-learning sarsa flappy bird)

concept

三個主要概念:狀態State,行動action,獎勵reward

兩種強化學習的方法

1. Policy-Based(policy-gradient):

直接預測在某個環境下應該採取的action
         
適用範圍: 更通用,action種類非常多或者又連續取值的action的環境

2. value-Based(Q-learning)

預測某個環境下所有action的期望值(Q 值), 選取Q值最高的action 執行策略。

適用範圍: 只有少量離散取值的action的環境

Q-learning

一次action 更新一次Q表
在這裡插入圖片描述

演算法更新

算完全部action後,走最好的action
在這裡插入圖片描述

在這裡插入圖片描述

SARSA

直接走了,管你那麼多
在這裡插入圖片描述

在這裡插入圖片描述

sarsa比較膽小, 但是因為markov的 0.9,0.1 所以最後還是能走到黃點
在這裡插入圖片描述

ref 莫凡python,nthu deep learning course