1. 程式人生 > >CS294-112 深度強化學習 秋季學期(伯克利)NO.6 Value functions introduction NO.7 Advanced Q learning

CS294-112 深度強化學習 秋季學期(伯克利)NO.6 Value functions introduction NO.7 Advanced Q learning

ted 分享圖片 enc cti solution function part related ons

技術分享圖片

--------------------------------------------------------------------------------------------------------------------------- ---------------------------------------------------------------------------------------------------------------------------

技術分享圖片

技術分享圖片

技術分享圖片

understand that correlated samples cause problem. and how paralled solve the problem

another solution is replay buffers, fully ultilizing the advantage of off policy in Q-learning.

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

there‘s still a problem: Q learning is not gradient descent

技術分享圖片

技術分享圖片

divide Q function into two parts: the target net and the evolving net.

sacrifice speed to get the convergence.

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

overestimation of Natural DQN

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

get trouble in left and right dilemma of avoiding bumping on a tree

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

技術分享圖片

CS294-112 深度強化學習 秋季學期(伯克利)NO.6 Value functions introduction NO.7 Advanced Q learning