【強化學習筆記】6.4 基於值函式逼近的強化學習方法-TD Q-learning線性逼近程式碼實現

阿新 • • 發佈：2019-02-16

針對一個迷宮問題，設計TD Q-learning線性逼近演算法（異策略）。
迷宮圖示見下圖，其中紅色部分為障礙物，綠色部分為出口：
這裡寫圖片描述

使用的模型是：線性模型
輸入是狀態的特徵，這裡是25維的one-hot編碼
輸出是動作對應的4維陣列
使用tensorflow進行SDG訓練。
（踩過的坑：輸入輸出設計，權重初始化，調參等）
（可以改進的地方：目標函式，輸入和輸出設計，改進模型引數提高訓練效率，自適應調整迭代引數等）

#!/usr/bin/env python
# -*- coding:utf-8 -*-

#import gym
import random
import numpy as np
import tensorflow as tf

class GriDMdp:
    def __init__(s):
        s.gamma 
 = 0.9
        s.alpha = 0.3
        s.epsilon = 0.1
        s.states = range(1,26)
        s.actions = ['n', 'e', 's', 'w']
        s.terminate_states = {15:1.0, 4:-1.0, 9:-1.0, \
            11:-1.0, 12:-1.0, 23:-1.0, 24:-1.0, 25:-1.0}
        s.trans = {}
        for state in s.states:
            if not state in 
 s.terminate_states:
                s.trans[state] = {}
        s.trans[1]['e'] = 2
        s.trans[1]['s'] = 6
        s.trans[2]['e'] = 3 
        s.trans[2]['w'] = 1
        s.trans[2]['s'] = 7
        s.trans[3]['e'] = 4
        s.trans[3]['w'] = 2
        s.trans[3]['s'] = 8
        s.trans[5]['w' 
] = 4
        s.trans[5]['s'] = 10
        s.trans[6]['e'] = 7
        s.trans[6]['s'] = 11
        s.trans[6]['n'] = 1
        s.trans[7]['e'] = 8
        s.trans[7]['w'] = 6 
        s.trans[7]['s'] = 12
        s.trans[7]['n'] = 2
        s.trans[8]['e'] = 9
        s.trans[8]['w'] = 7 
        s.trans[8]['s'] = 13
        s.trans[8]['n'] = 3
        s.trans[10]['w'] = 9
        s.trans[10]['s'] = 15
        s.trans[13]['e'] = 14
        s.trans[13]['w'] = 12 
        s.trans[13]['s'] = 18
        s.trans[13]['n'] = 8
        s.trans[14]['e'] = 15
        s.trans[14]['w'] = 13
        s.trans[14]['s'] = 19
        s.trans[14]['n'] = 9
        s.trans[16]['e'] = 17
        s.trans[16]['s'] = 21
        s.trans[16]['n'] = 11
        s.trans[17]['e'] = 18
        s.trans[17]['w'] = 16 
        s.trans[17]['s'] = 22
        s.trans[17]['n'] = 12
        s.trans[18]['e'] = 19
        s.trans[18]['w'] = 17 
        s.trans[18]['s'] = 23
        s.trans[18]['n'] = 13
        s.trans[19]['e'] = 20
        s.trans[19]['w'] = 18 
        s.trans[19]['s'] = 24
        s.trans[19]['n'] = 14
        s.trans[20]['w'] = 19
        s.trans[20]['s'] = 25
        s.trans[20]['n'] = 15
        s.trans[21]['e'] = 22
        s.trans[21]['n'] = 16
        s.trans[22]['e'] = 23
        s.trans[22]['w'] = 21
        s.trans[22]['n'] = 17

        s.rewards = {}
        for state in s.states:
            s.rewards[state] = {}
            for action in s.actions:
                s.rewards[state][action] = 0
                if state in s.trans and action in s.trans[state]:
                    next_state = s.trans[state][action]
                    if next_state in s.terminate_states:
                        s.rewards[state][action] = s.terminate_states[next_state]
        s.pi = {}
        for state in s.trans:
            s.pi[state] = random.choice(s.trans[state].keys())
        s.last_pi = s.pi.copy()

        s.v = {}
        for state in s.states:
            s.v[state] = 0.0
    def get_random_action(s, state):
        s.pi[state] = random.choice(s.trans[state].keys())
        return s.pi[state]

    def transform(s, state, action):
        next_state = state
        state_reward = 0
        is_terminate = True
        return_info = {}

        if state in s.terminate_states:
            return next_state, state_reward, is_terminate, return_info
        if state in s.trans:    
            if action in s.trans[state]:
                next_state = s.trans[state][action]
        if state in s.rewards:
            if action in s.rewards[state]:
                state_reward = s.rewards[state][action]
        if not next_state in s.terminate_states:
            is_terminate = False
        return next_state, state_reward, is_terminate, return_info

    def print_states(s):
        for state in s.states:
            if state in s.terminate_states:
                print "*",
            else:
                print round(s.v[state], 2),
            if state % 5 == 0:
                print "|"

    def get_features(s, state):
        featrues = [0.0] * 25
        featrues[state - 1] = 1.0
        return featrues

def td_Qlearning_linear_approximation(grid_mdp):
    '''action_strategy is greey'''
    #construct model
    x_ph = tf.placeholder(tf.float32, shape=[None, 25], name="input_name")
    y_ph = tf.placeholder(tf.float32, shape=[None, 4], name="output_name")
    #w = tf.Variable(tf.random_uniform([25,4], -1.0, 1.0))
    w = tf.Variable(tf.zeros([25, 4]))
    b = tf.Variable(tf.zeros([4]))
    y = tf.matmul(x_ph, w) + b
    loss = tf.reduce_mean(tf.square(y - y_ph))
    optimizer = tf.train.GradientDescentOptimizer(0.03)
    train = optimizer.minimize(loss)
    init = tf.global_variables_initializer()
    sess = tf.Session()
    sess.run(init)

    action_dic = {'e':0,'w':1,'s':2,'n':3}
    total_loss = 0.0
    for iter_idx in range(1,20000):
        #print "-----------------------"
        one_sample_list = []
        state = random.choice(grid_mdp.states)
        while(state in grid_mdp.terminate_states):
            state = random.choice(grid_mdp.states)
        sample_end = False
        while sample_end != True:
            # choose epsilon_greey strategy
            action_list = grid_mdp.trans[state].keys()
            len_action = len(action_list) 
            action_prob = [grid_mdp.epsilon / float(len_action)] * len_action
            input_features = grid_mdp.get_features(state)
            pred_state_action_value = sess.run(y, feed_dict = {x_ph: [input_features]})
            max_idx = 0
            max_val = float("-inf")
            max_aidx = 0
            for aidx in range(len_action):
                act_idx = action_dic[action_list[aidx]]
                tmp_value = pred_state_action_value[0, act_idx]
                if tmp_value > max_val:
                    max_val = tmp_value
                    max_idx = aidx
                    max_aidx = act_idx
            action_prob[max_idx] += (1.0 - grid_mdp.epsilon)
            # action-strategy choose epsilon_greey strategy
            action = np.random.choice(action_list, p=action_prob)
            next_state, state_reward, is_terminate, return_info = grid_mdp.transform(state, action)
            # target-strategy choose greey strategy
            real_y = pred_state_action_value
            if next_state in grid_mdp.trans:
                next_action_list = grid_mdp.trans[next_state].keys()
                len_next_action = len(next_action_list) 
                next_action_prob = [grid_mdp.epsilon / float(len_next_action)] * len_next_action
                next_input_features = grid_mdp.get_features(next_state)
                next_pred_state_action_value = sess.run(y, feed_dict = {x_ph: [next_input_features]})
                next_max_idx = 0
                next_max_val = float("-inf")
                next_max_aidx = 0
                for next_aidx in range(len_next_action):
                    next_act_idx = action_dic[next_action_list[next_aidx]]
                    next_tmp_value = next_pred_state_action_value[0, next_act_idx]
                    if next_tmp_value > next_max_val:
                        next_max_val = next_tmp_value
                        next_max_idx = next_aidx
                        next_max_aidx = next_act_idx
                next_action_idx = next_max_aidx
                difference = state_reward + grid_mdp.gamma * next_pred_state_action_value[0, next_action_idx] - pred_state_action_value[0, max_aidx]
                real_y[0, max_aidx] += grid_mdp.alpha * difference 
            else:
                difference = state_reward - pred_state_action_value[0, max_aidx]
                real_y[0, max_aidx] += grid_mdp.alpha * difference
            # train
            feed_data = {x_ph: [np.array(input_features)], y_ph: real_y}
            sess.run(train, feed_dict = feed_data)
            total_loss += sess.run(loss, feed_data)
            state = next_state
            sample_end = is_terminate

        if iter_idx % 100 == 0:
            print "-"*18 + str(iter_idx) + "-"*18
            iter_para = 0.01
            #iter_para = 0.01/(float(iter_idx/100)**0.5)
            print "total_loss: ", total_loss, "iter_para: ", iter_para
            total_loss = 0.0
            #optimizer = tf.train.GradientDescentOptimizer(iter_para)
            for state in grid_mdp.trans:
                input_features = grid_mdp.get_features(state)
                pred_state_action_value = sess.run(y, feed_dict = {x_ph: [input_features]})
                max_idx = np.argwhere(pred_state_action_value[0,] == pred_state_action_value[0,].max())[0,0]
                for action in action_dic:
                    if action_dic[action] == max_idx:
                        print state, action, pred_state_action_value    
    sess.close()
grid_mdp = GriDMdp()
td_Qlearning_linear_approximation(grid_mdp)

【強化學習筆記】6.4 基於值函式逼近的強化學習方法-TD Q-learning線性逼近程式碼實現

針對一個迷宮問題，設計TD Q-learning線性逼近演算法（異策略）。迷宮圖示見下圖，其中紅色部分為障礙物，綠色部分為出口：使用的模型是：線性模型輸入是狀態的特徵，這裡是25維的one-hot編碼輸出是動作對應的4維陣列使用t

【extjs6學習筆記】0.4 準備：書籍與文檔

學習筆記翻譯 example nbsp detail started ext js 6 art ear Ext JS 6 By Example Ext JS Essentials Learning Ext JS - Fourth Edition Ext JS 6:

【python學習筆記】6.抽象

位置參數 name 默認參數 [] 順序 fun append 聲明 value 【python學習筆記】6.抽象創建函數: 使用def語句定義函數，不用聲明參數類型，和返回值類型 def function_name(param1, param2):

【視頻編解碼·學習筆記】6. H.264碼流分析工程創建

clear href mark 一個 html filename down 創建 fail 一、準備工作：新建一個VS工程SimpleH264Analyzer，修改工程屬性參數-> 輸出目錄：$(SolutionDir)bin\$(Configuration)\，

【Linux學習筆記】第4章 Linux磁盤管理

linux centos 磁盤格式化 LVM 4.1df命令df 查看文件系統磁盤空間使用情況。文件系統磁盤總大小（kB）已使用可用已用% 掛載點（目錄）Linux磁盤不能直接訪問，必須要有一個掛載點。參數：-h 可根據磁盤大小顯示適當的單位。帶有tmpfs代表臨時的

【迅為iTop4412學習筆記】6. 驅動註冊

宣告以下都是我剛開始看驅動視訊的個人強行解讀，如果有誤請指出，共同進步。本節目標驅動註冊上一篇我們註冊了裝置，接下來就是要註冊驅動，而註冊完驅動，就可以基佬配對了… 首先我們開啟標頭檔案，看一下驅動註

【Vue.js學習筆記】6：動態繫結CSS樣式,條件渲染和v-show

動態繫結CSS樣式這部分涉及官方文件中的Class與Style繫結。 index.html <!DOCTYPE html> <html lang="en" xmlns:v-bind="http://www.w3.org/1999/xhtml" xmlns:

【SciKit-Learn學習筆記】6：樸素貝葉斯做文件分類並繪製混淆矩陣

學習《scikit-learn機器學習》時的一些實踐。條件獨立樸素即指的是條件獨立假設，假設n個特徵之間不相關，則可據聯合概率的條件展開式： p

【學習筆記】lua中基於原型的繼承

print("-------------------") --基於原型的繼承 --理解為基類 Robort = {id = 001, name = "Li Lei"} function Robort:getId() return self.id end function Robort:setId(

【python學習筆記】6：用Gauss-Legendre求積公式近似求積分值

高斯-勒讓德求積公式給出了一個定積分的近似求法：不妙的是這種求法對上下限要求為1和-1，但是因為積分可以變限，所以求任意定積分只要做變換就好：用高斯公式求積分的近似值，精確度是非常高的，一般用幾個點就可以得到很不錯的近似值。這裡用了三點高斯積分和五點高斯積分。

【FLA學習筆記】7：基於Opterator Precedence(算符優先)的LL(1)語法分析

簡述課本第四章的遞迴下降和表驅動都是自頂向下的，即通過推導得到能夠完全匹配輸入串的推導式。第五章的優先分析法和第六章的LR分析是自底向上的(規約得到開始符)。第五章的簡單優先分析法是規範規約(左規約)，而算符優先分析法不是規範規約，並且只考慮終結符之

【MongoDB學習筆記】6：資料備份(mongodump)與恢復(mongorestore)流程

備份資料要備份某個DB中的全部Collection，相當於備份RDBMS中某個Schema下的全部Table。比如想要備份這個DB： > show dbs admin 0.000GB config 0.000GB local 0.000

【學習筆記】Java中生成對象的5中方法

目標獲得 cti com pre lan except 我們 highlight 概述：本文介紹以下java五種創建對象的方式： 1.用new語句創建對象，這是最常用的創建對象的方式。 2.使用Class類的newInstance方法 3.運用反射手段，調用java.la

【安全牛學習筆記】MSsqlL註入取得網站路徑最好的方法

security+ 漏洞信息安全 sql註入 exec master..xp_dirtree‘d:/test‘假設我們在test裏有兩個文件夾test1和test2在test1裏又有test3結果顯示subdirectory depthtest1 1test3 2test2 1哈哈發現沒有那

【js高程學習筆記】關於變數值和函式引數

變數包含了兩種不同型別的值：基本型別（Undefined、null、Boolean、Number、string都屬於基本型別）引用型別（物件）兩種值在賦值上不同的是：將一個引用型別的值（物件）賦值給一個變數，可以為其新增/刪除屬性和方法。但如果是一個基本型別的值是不可以

【學習筆記】開發工具：1、Git的學習使用（簡單介紹）

一、Git的特點 1、較優的儲存能力； 2、比較好的效能； 3、開源的產品； 4、易備份； 5、支援離線操作； 6、定製工作流程。二、Git的下載安裝配置 1、下載地址：https://git-scm.com/download/ 進入後選擇對應的作業系

【學習筆記】唐大仕—Java程式設計第4講類、包和介面之4.6 介面

【學習筆記】唐大仕—Java程式設計第4講類、包和介面之4.6 介面介面（interface）介面，某種特徵的約定定義介面interface 所有方法都自動是public abstract 實現介面implements 可以實現多繼承與類的繼承關係無關面向介面程式設計，而不

【Python3 爬蟲學習筆記】解析庫的使用 6 —— Beautiful Soup 4

text text引數可用來匹配節點的文字，傳入的形式可以是字串，可以是正則表示式，可以是正則表示式物件，示例如下： import re html = ''' <div class="panel"> <div class="panel-body

【強化學習筆記】4.4 無模型的強化學習方法-蒙特卡羅演算法與重要性取樣程式碼實現

#!/usr/bin/env python # -*- coding:utf-8 -*- #import gym import random import numpy as np class GriDMdp: def __init__(s):

【強化學習筆記】4.2 無模型的強化學習方法-蒙特卡羅演算法程式設計實現

本文給出基於蒙特卡洛的強化學習方法（隨機策略計算狀態值函式）和基於蒙特卡洛的強化學習方法（ε−greedy策略計算狀態行為值函式）兩種方法的程式設計實現。問題模型是迷宮問題。針對一個迷宮問題，設計基於蒙特卡洛的強化學習方法。迷宮圖示見下圖，其中紅色

【強化學習筆記】6.4 基於值函式逼近的強化學習方法-TD Q-learning線性逼近程式碼實現

相關推薦