強化學習Sarsa演算法走迷宮小例子

阿新 • • 發佈：2018-11-26

Sarsa演算法：

Sarsa演算法與Q-learing演算法的不同之處是什麼？

一個簡單的解釋，引用莫凡大神的話：

他在當前 state 已經想好了 state 對應的 action, 而且想好了下一個 state_ 和下一個 action_ (Qlearning 還沒有想好下一個 action_)
更新 Q(s,a) 的時候基於的是下一個 Q(s_, a_) (Qlearning 是基於 maxQ(s_))

對於第二句話，可以從走迷宮的程式碼中只管體現出來：（程式碼來自於莫凡大神編寫地址：https://github.com/MorvanZhou/Reinforcement-learning-with-tensorflow/blob/master/contents/3_Sarsa_maze/RL_brain.py）

# off-policy
class QLearningTable(RL):
    def __init__(self, actions, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):
        super(QLearningTable, self).__init__(actions, learning_rate, reward_decay, e_greedy)

    def learn(self, s, a, r, s_):
        self.check_state_exist(s_)
        q_predict = self.q_table.loc[s, a]
        if s_ != 'terminal':
            q_target = r + self.gamma * self.q_table.loc[s_, :].max()  # next state is not terminal
        else:
            q_target = r  # next state is terminal
        self.q_table.loc[s, a] += self.lr * (q_target - q_predict)  # update


# on-policy
class SarsaTable(RL):

    def __init__(self, actions, learning_rate=0.01, reward_decay=0.9, e_greedy=0.9):
        super(SarsaTable, self).__init__(actions, learning_rate, reward_decay, e_greedy)

    def learn(self, s, a, r, s_, a_):
        self.check_state_exist(s_)
        q_predict = self.q_table.loc[s, a]
        if s_ != 'terminal':
            q_target = r + self.gamma * self.q_table.loc[s_, a_]  # next state is not terminal
        else:
            q_target = r  # next state is terminal
        self.q_table.loc[s, a] += self.lr * (q_target - q_predict)  # update

可以看出二者的q_target不同，Q-learing取得是最大值，但是實際不一定會選，而Sarsa則是直接取到下一個a_,也就是下一個狀態的動作，這個動作是下一次一定要做的。

強化學習Sarsa演算法走迷宮小例子

Sarsa演算法： Sarsa演算法與Q-learing演算法的不同之處是什麼？一個簡單的解釋，引用莫凡大神的話：他在當前 state 已經想好了 state 對應的 action, 而且想好了下一個 st

強化學習 Sarsa-lambda演算法走迷宮小例子

Sarsa-lambda是Sarsa演算法的一種提速的方法。如果說 Sarsa 和 Qlearning 都是每次獲取到 reward, 只更新獲取到 reward 的前一步. 那 Sarsa-lambda 就是更新獲取到 reward 的前 lambda 步. lambda 是在 [0,

資料結構經典演算法學習之老鼠走迷宮02

老鼠走迷宮基於上一遍博文的基礎上，稍作修改，顯示所有可達到的最近路線（這裡指的最近就是不存在到達出口處還在別的出口來回走，額。。。可能沒表達清楚，讀者可以自己跑一下程式看看就明白了）程式碼實現： p

深度學習BP演算法 BackPropagation以及詳細例子解析

反向傳播演算法是多層神經網路的訓練中舉足輕重的演算法，本文著重講解方向傳播演算法的原理和推導過程。因此對於一些基本的神經網路的知識，本文不做介紹。在理解反向傳播演算法前，先要理解神經網路中的前饋神經網路演算法。前饋神經網路如下圖，是一個多層神

強化學習 DQN演算法

（以下內容取自莫凡大神的教程：https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/4-1-A-DQN/） 1，什麼是DQN：一種融合了神經網路和 Q learning&n

golang廣度優先演算法-走迷宮

廣度優先遍歷，走迷宮思路： 1、建立二維陣列，0表示是路，1表示是牆；建立佇列Q，儲存可遍歷的點，Q的第一個元素為起始點 2、從佇列中取一個點，開始，按上、左、下、右的順序遍歷周圍的點next，next點在陣列的範圍內，且值為0，則把next存入佇列Q中，並在steps

探祕多智慧體強化學習-MADDPG演算法原理及簡單實現

之前接觸的強化學習演算法都是單個智慧體的強化學習演算法，但是也有很多重要的應用場景牽涉到多個智慧體之間的互動，比如說，多個機器人的控制，語言的交流，多玩家的遊戲等等。本文，就帶你簡單瞭解一下Open-AI的MADDPG(Multi-Agent Deep Determinist

react學習--左手法則走迷宮

這是左手法則的流程圖，網上其他流傳的都是錯誤，我當時就是信網上的圖浪費我半天時間 <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta

RL強化學習各種演算法流程虛擬碼

policy iteration value iteration 注：policy iteration使用bellman方程來更新value，最後收斂的value 即是當前policy下的

學習隨筆——Java迴圈語句小例子

一、計算需要多長時間才能夠儲存一定數量的退休金 import java.util.Scanner; public class Retirement { public static vo

PyTorch學習：多項式迴歸的小例子

#多項式迴歸模型 import torch import numpy as np from torch.autograd import Variable import matplotlib.pyplot as plt torch.manual_seed(2018) # 定義一

我用資料結構花了一夜給女朋友寫了個h5走迷宮小遊戲

目錄起因分析畫線(棋盤) 畫迷宮方塊移動結語 @(文章目錄) 先看效果圖(線上電腦嘗試地址http://biggsai.com/maze

強化學習Q-leaning演算法之走迷宮

來自於莫凡大神的強化學習教程，今天學習了走迷宮的小例子。網站網址是：https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/2-2-A-q-learning/ 程式碼如下，一些地方我做了註釋

強化學習 Qlearning小例子

開始入門強化學習，最先看了莫凡大佬的視訊，講解Q-learning演算法不得不說真的是通俗易懂。這裡是視訊地址：https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/2-1-general-r

強化學習(五)：Sarsa演算法與Q-Learning演算法

上一節主要講了Monte-Carlo learning，TD learning，TD(λ)。這三個方法都是為了在給定策略下來估計價值函式V(s)。只不過Monte-Carlo learning需要得到一個完整的episode才能進行一次v值更新，而TD lear

M03 利用Accord 進行機器學習的第一個小例子

statistic decide blog cat studio mac eap strong cte 01 安裝 Visual studio 2017. 不具備安裝這個的話，也可安裝，Microsoft Visual Studio Express (or equiva

強化學習(五) - 無模型學習(Sarsa、Q-Learning)

上一節主要講了Monte-Carlo learning，TD learning。這兩個方法都是在給定策略下來估計價值函式V(s)。但是我們的目標是想得到最優策略。基於模型的策略優化過程分為策略評估和策略改進。從一個策略 π 和 v(s) 函式開始，先利用當前

D-Bus學習（六） Method的收發小例子

分享一下我老師大神的人工智慧教程！零基礎，通俗易懂！http://blog.csdn.net/jiangjunshow 也歡迎大家轉載本篇文章。分享知識，造福人民，實現我們中華民族偉大復興！

D-Bus學習（五） Signal的收發小例子

深度強化學習演算法 A3C （Actor-Critic Algorithm）

對於 A3C 演算法感覺自己總是一知半解，現將其梳理一下，記錄在此，也給想學習的小夥伴一個參考。　　想要認識清楚這個演算法，需要對 DRL 的演算法有比較深刻的瞭解，推薦大家先了解下 Deep Q-learning 和 Policy Gradient 演

強化學習Sarsa演算法走迷宮小例子

相關推薦