1. 程式人生 > >強化學習Q-learning 和 Sarsa

強化學習Q-learning 和 Sarsa

 

Q-learning 

Q表示的是,在狀態s下采取動作a能夠獲得的期望最大收益,R是立即獲得的收益,而未來一期的收益則取決於下一階段的動作。

更新公式  Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*maxQ(S',a)], alpha 是學習率, \gamma 是衰減函式
Q learning 是一個off-policy 的RL 演算法.

 

Sarsa: on-policy 演算法

更新公式: Q(S,A) ← (1-α)*Q(S,A) + α*[R + γ*Q(S',a’)],

區別:Sarsa是保守的策略, Q-learning 是大膽,全域性最優的策略

 

參考連結:https://www.zhihu.com/question/26408259/answer/123230350

https://www.jianshu.com/p/29db50000e3f?utm_medium=hao.caibaojian.com&utm_source=hao.caibaojian.com

https://blog.csdn.net/qq_39004117/article/details/81705845