tensorflow4:建立一個簡單的強化學習遊戲

阿新 • • 發佈：2019-02-20

Deep Q Network是DeepMind最早(2013年)提出來的，是深度強化學習方法。最開始AI什麼也不會，通過給它提供遊戲介面畫素和分數，慢慢把它訓練成遊戲高手。這裡首先給出一個基本的遊戲例子，然後再給出強化學習方法。
1.基本遊戲

#coding=utf-8
import pygame
from pygame.locals import *
import sys
BLACK =(0,0,0)
WHITE = (255,255,255)

SCREEN_SIZE = [320,400]#螢幕大小
BAR_SIZE = [20,5]#擋板大小
BALL_SIZE = [15,15]#球的尺寸

class 
 Game(object):
    def __init__(self):
        pygame.init()
        self.clock = pygame.time.Clock()#定時器
        self.screen = pygame.display.set_mode(SCREEN_SIZE)
        pygame.display.set_caption('Simple Game')

        self.ball_pos_x = SCREEN_SIZE[0]//2 - BALL_SIZE[0]/2
        self.ball_pos_y = SCREEN_SIZE[1 
]//2 - BALL_SIZE[1]/2
        #ball 移動方向
        self.ball_dir_x = -1 #-1:left 1:right
        self.ball_dir_y = -1# -1:up

        self.ball_pos = pygame.Rect(self.ball_pos_x,self.ball_pos_y,BALL_SIZE[0],BALL_SIZE[1])

        self.score =0
        self.bar_pos_x = SCREEN_SIZE[0]//2 - BAR_SIZE[0]//2
        self.bar_pos = pygame.Rect(self.bar_pos_x,SCREEN_SIZE[1 
]-BAR_SIZE[1],BAR_SIZE[0],BALL_SIZE[1])

    def bar_move_left(self):#左移
        self.bar_pos_x = self.bar_pos_x - 2

    def bar_move_right(self):
        self.bar_pos_x = self.bar_pos_x + 2

    def run(self):
        pygame.mouse.set_visible(0) #移動滑鼠不可見
        bar_move_left =False
        bar_move_right = False
        while True:
            for event in pygame.event.get():
                if event.type == QUIT:
                    pygame.quit()
                    sys.exit()#接收到退出事件後退出程式

                elif event.type == pygame.MOUSEBUTTONDOWN and event.button ==1:#滑鼠左鍵按下
                    bar_move_left = True
                elif event.type == pygame.MOUSEBUTTONUP and event.button == 1: #左鍵彈起
                    bar_move_left = False
                elif event.type == pygame.MOUSEBUTTONDOWN and event.button == 3:#右鍵
                    bar_move_right = True
                elif event.type == pygame.MOUSEBUTTONUP and event.button == 3:  # 左鍵彈起
                    bar_move_right = False

            if bar_move_left == True and bar_move_right ==False:
                self.bar_move_left()
            if bar_move_left == False and bar_move_right == True:
                self.bar_move_right()

            self.screen.fill(BLACK)
            self.bar_pos.left = self.bar_pos_x
            pygame.draw.rect(self.screen, WHITE, self.bar_pos)

            self.bar_pos.left += self.ball_dir_x * 2
            self.ball_pos.bottom += self.ball_dir_y * 3
            pygame.draw.rect(self.screen, WHITE, self.ball_pos)

            if self.ball_pos.top <= 0 or self.ball_pos.bottom >= (SCREEN_SIZE[1]- BAR_SIZE[1] + 1):
                self.ball_dir_y =self.ball_dir_y * -1
            if self.ball_pos.left <=0 or self.ball_pos.right >= (SCREEN_SIZE[0]):
                self.ball_dir_x = self.ball_dir_x * -1

            if self.bar_pos.top <= self.ball_pos.bottom and (
                    self.bar_pos.left < self.ball_pos.right and self.bar_pos.right > self.ball_pos.left):
                self.score += 1
                print("Score: ", self.score, end='\r')
            elif self.bar_pos.top <= self.ball_pos.bottom and (
                    self.bar_pos.left > self.ball_pos.right or self.bar_pos.right < self.ball_pos.left):
                print("Game Over: ", self.score)
                return self.score

            pygame.display.update()#更新軟體介面顯示
            self.clock.tick(60)
game = Game()
game.run()#啟動

執行結果：
結果圖1

2.強化學習程式碼：

#coding=utf-8
import pygame
import random
from pygame.locals import *
import numpy as np
from collections import deque
import tensorflow as tf
import cv2

BLACK= (0,0,0)
WHITE = (255, 255, 255)
SCREEN_SIZE = [320, 400]
BAR_SIZE = [50, 5]
BALL_SIZE = [15, 15]

# 神經網路的輸出
MOVE_STAY = [1, 0, 0]
MOVE_LEFT = [0, 1, 0]
MOVE_RIGHT = [0, 0, 1]

class Game(object):
    def __init__(self):
        pygame.init()
        self.clock = pygame.time.Clock()
        self.screen = pygame.display.set_mode(SCREEN_SIZE)
        pygame.display.set_caption('Simple Game')

        self.ball_pos_x = SCREEN_SIZE[0] // 2 - BALL_SIZE[0] / 2
        self.ball_pos_y = SCREEN_SIZE[1] // 2 - BALL_SIZE[1] / 2

        self.ball_dir_x = -1  # -1 = left 1 = right  
        self.ball_dir_y = -1  # -1 = up   1 = down
        self.ball_pos = pygame.Rect(self.ball_pos_x, self.ball_pos_y, BALL_SIZE[0], BALL_SIZE[1])

        self.bar_pos_x = SCREEN_SIZE[0] // 2 - BAR_SIZE[0] // 2
        self.bar_pos = pygame.Rect(self.bar_pos_x, SCREEN_SIZE[1] - BAR_SIZE[1], BAR_SIZE[0], BAR_SIZE[1])

# action是MOVE_STAY、MOVE_LEFT、MOVE_RIGHT
# ai控制棒子左右移動；返回遊戲介面畫素數和對應的獎勵。(畫素->獎勵->強化棒子往獎勵高的方向移動)
    def step(self, action):
        if action == MOVE_LEFT:
            self.bar_pos_x = self.bar_pos_x - 2
        elif action == MOVE_RIGHT:
            self.bar_pos_x = self.bar_pos_x + 2
        else:
            pass
        if self.bar_pos_x < 0:
            self.bar_pos_x = 0
        if self.bar_pos_x > SCREEN_SIZE[0] - BAR_SIZE[0]:
            self.bar_pos_x = SCREEN_SIZE[0] - BAR_SIZE[0]

        self.screen.fill(BLACK)
        self.bar_pos.left = self.bar_pos_x
        pygame.draw.rect(self.screen, WHITE, self.bar_pos)

        self.ball_pos.left += self.ball_dir_x * 2
        self.ball_pos.bottom += self.ball_dir_y * 3
        pygame.draw.rect(self.screen, WHITE, self.ball_pos)

        if self.ball_pos.top <= 0 or self.ball_pos.bottom >= (SCREEN_SIZE[1] - BAR_SIZE[1] + 1):
            self.ball_dir_y = self.ball_dir_y * -1
        if self.ball_pos.left <= 0 or self.ball_pos.right >= (SCREEN_SIZE[0]):
            self.ball_dir_x = self.ball_dir_x * -1

        reward = 0
        if self.bar_pos.top <= self.ball_pos.bottom and (
                self.bar_pos.left < self.ball_pos.right and self.bar_pos.right > self.ball_pos.left):
            reward = 1  # 擊中獎勵
        elif self.bar_pos.top <= self.ball_pos.bottom and (
            self.bar_pos.left > self.ball_pos.right or self.bar_pos.right < self.ball_pos.left):
            reward = -1# 沒擊中懲罰

            # 獲得遊戲介面畫素
        screen_image = pygame.surfarray.array3d(pygame.display.get_surface())
        pygame.display.update()
            # 返回遊戲介面畫素和對應的獎勵
        return reward, screen_image

# learning_rate
LEARNING_RATE = 0.99
# 更新梯度
INITIAL_EPSILON = 1.0
FINAL_EPSILON = 0.05
# 測試觀測次數
EXPLORE = 500000
OBSERVE = 50000
# 儲存過往經驗大小
REPLAY_MEMORY = 500000

BATCH = 100

output = 3 # 輸出層神經元數。代表3種操作-MOVE_STAY:[1, 0, 0]  MOVE_LEFT:[0, 1, 0]  MOVE_RIGHT:[0, 0, 1]
input_image = tf.placeholder("float", [None, 80, 100, 4]) # 遊戲畫素
action = tf.placeholder("float", [None, output])  # 操作

# 定義CNN-卷積神經網路 參考:http://blog.topspeedsnail.com/archives/10451
def convolutional_neural_network(input_image):
    weights = {'w_conv1': tf.Variable(tf.zeros([8, 8, 4, 32])),
     'w_conv2':tf.Variable(tf.zeros([4, 4, 32, 64])),
    'w_conv3':tf.Variable(tf.zeros([3, 3, 64, 64])),
    'w_fc4':tf.Variable(tf.zeros([3456, 784])),
    'w_out':tf.Variable(tf.zeros([784, output]))}

    biases = {'b_conv1': tf.Variable(tf.zeros([32])),
   'b_conv2':tf.Variable(tf.zeros([64])),
    'b_conv3':tf.Variable(tf.zeros([64])),
    'b_fc4':tf.Variable(tf.zeros([784])),
    'b_out':tf.Variable(tf.zeros([output]))}

    conv1 = tf.nn.relu(
        tf.nn.conv2d(input_image, weights['w_conv1'], strides=[1, 4, 4, 1], padding="VALID") + biases['b_conv1'])
    conv2 = tf.nn.relu(
        tf.nn.conv2d(conv1, weights['w_conv2'], strides=[1, 2, 2, 1], padding="VALID") + biases['b_conv2'])
    conv3 = tf.nn.relu(
        tf.nn.conv2d(conv2, weights['w_conv3'], strides=[1, 1, 1, 1], padding="VALID") + biases['b_conv3'])
    conv3_flat = tf.reshape(conv3, [-1, 3456])
    fc4 = tf.nn.relu(tf.matmul(conv3_flat, weights['w_fc4']) + biases['b_fc4'])


    output_layer = tf.matmul(fc4, weights['w_out']) + biases['b_out']
    return output_layer

    # 深度強化學習入門: https://www.nervanasys.com/demystifying-deep-reinforcement-learning/
    # 訓練神經網路
def train_neural_network(input_image):
    predict_action = convolutional_neural_network(input_image)
    argmax = tf.placeholder("float", [None, output])
    gt = tf.placeholder("float", [None])
    action = tf.reduce_sum(tf.mul(predict_action, argmax), reduction_indices=1)
    cost = tf.reduce_mean(tf.square(action - gt))
    optimizer = tf.train.AdamOptimizer(1e-6).minimize(cost)
    game = Game()
    D = deque()
    _, image = game.step(MOVE_STAY)
    # 轉換為灰度值
    image = cv2.cvtColor(cv2.resize(image, (100, 80)), cv2.COLOR_BGR2GRAY)
    # 轉換為二值
    ret, image = cv2.threshold(image, 1, 255, cv2.THRESH_BINARY)
    input_image_data = np.stack((image, image, image, image), axis=2)

    with tf.Session() as sess:
        sess.run(tf.global_variables_initializer())

        saver = tf.train.Saver()

        n = 0
        epsilon = INITIAL_EPSILON
        while True:
            action_t = predict_action.eval(feed_dict={input_image: [input_image_data]})[0]
            argmax_t = np.zeros([output], dtype=np.int)
            if (random.random() <= INITIAL_EPSILON):
                maxIndex = random.randrange(output)
            else:
                maxIndex = np.argmax(action_t)
            argmax_t[maxIndex] = 1
            if epsilon > FINAL_EPSILON:
                epsilon -= (INITIAL_EPSILON - FINAL_EPSILON) / EXPLORE

            # for event in pygame.event.get():  macOS需要事件迴圈，否則白屏
            #   if event.type == QUIT:
            #       pygame.quit()
            #       sys.exit()
            reward, image = game.step(list(argmax_t))

            image = cv2.cvtColor(cv2.resize(image, (100, 80)), cv2.COLOR_BGR2GRAY)
            ret, image = cv2.threshold(image, 1, 255, cv2.THRESH_BINARY)
            image = np.reshape(image, (80, 100, 1))
            input_image_data1 = np.append(image, input_image_data[:, :, 0:3], axis=2)

            D.append((input_image_data, argmax_t, reward, input_image_data1))

            if len(D) > REPLAY_MEMORY:
                D.popleft()

            if n > OBSERVE:
                minibatch = random.sample(D, BATCH)
                input_image_data_batch = [d[0] for d in minibatch]
                argmax_batch = [d[1] for d in minibatch]
                reward_batch = [d[2] for d in minibatch]
                input_image_data1_batch = [d[3] for d in minibatch]

                gt_batch = []

                out_batch = predict_action.eval(feed_dict={input_image: input_image_data1_batch})

                for i in range(0, len(minibatch)):
                    gt_batch.append(reward_batch[i] + LEARNING_RATE * np.max(out_batch[i]))

                optimizer.run(feed_dict={gt: gt_batch, argmax: argmax_batch, input_image: input_image_data_batch})

            input_image_data = input_image_data1
            n = n + 1

            if n % 10000 == 0:
                saver.save(sess, './game.cpk', global_step=n)# 儲存模型

            print(n, "epsilon:", epsilon, " ", "action:", maxIndex, " ", "reward:", reward)


train_neural_network(input_image)

執行結果圖：
結果圖2
剛開始什麼都不會，後來慢慢就比較強悍了！如果想使用該模型需要重新載入，而且最好在GPU上執行，不然真心比較蛋疼。

附上：python-opencv安裝
由於沒有安裝opencv導致import cv2報錯。
需要在這個網站Python Extension Packages裡面下相關的whl檔案。

由於我的電腦是64位的，我之前安裝過python3.5，所以我就選擇了opencv_python-3.2.0+contrib-cp35-cp35m-win_amd64.whl這個檔案。下載後，cmd 安裝：

pip install opencv_python-3.2.0+contrib-cp35-cp35m-win_amd64.whl

搞定，完成！

tensorflow4:建立一個簡單的強化學習遊戲

Deep Q Network是DeepMind最早(2013年)提出來的，是深度強化學習方法。最開始AI什麼也不會，通過給它提供遊戲介面畫素和分數，慢慢把它訓練成遊戲高手。這裡首先給出一個基本的遊戲例子，然後再給出強化學習方法。 1.基本遊戲 #codi

Spring Boot學習筆記之使用Spring Boot建立一個簡單的web專案（工具使用IntelliJ IDEA）

新建Maven專案 1.File --> New Project --> Maven --> Next 2.填寫專案資訊，完成之後點選Next，然後點選Finish 3.專案建好之後如下圖所示修改pom檔案中的配置資訊 <?xml version

【itext學習之路】-------（第一篇）建立一個簡單的pdf文件

iText是著名的開放原始碼的站點sourceforge一個專案，是用於生成PDF文件的一個java類庫。通過iText不僅可以生成PDF或rtf的文件，而且可以將XML、Html檔案轉化為PDF檔案本教程中，首先要說明的是，itext技術在網上很少能有一個相對全面文

Spring Boot學習實踐（一）（1）建立一個簡單的spring boot應用

一、使用idea建立一個簡單的Spring Boot應用程式環境準備： idea：2018.2 jdk: 1.8 spring boot:是2.0版本以上的以上環境可以根據實際情況去調整。（1）首先找到idea建立應用的New Project,選擇好

WatchKit入門：建立一個簡單的猜數遊戲

轉自：http://www.cocoachina.com/ios/20150202/11087.html 本文由cocoaChina譯者小組成員@TurtleFromMars 翻譯自Appcoda，原作者：julian engel，編者注：再過幾個月Apple Wa

Flask學習筆記：建立一個簡單的Flask應用

1. 做好準備工作進入專案主目錄啟用虛擬環境2. 建立app包：在flask中，含有名為 __init__.py 檔案的子目錄被視為包，可以被匯入。在命令列輸入以下命令，建立一個名為app的目錄：(venv) $ mkdir app在app目錄中建立一個名為__init__.

BI學習之一建立一個簡單的Olap多維資料集的展現

專案背景　　'部落格園'是一家國內的大型日化用品,生活用品生產,銷售公司,它的一部分銷售是放在淘寶網上進行的,在淘寶網上這家公司有多個網店，線下有系統對每個網店的銷售資料通過淘寶API進行抓取儲存，用於每週,月出銷售情況的報表.由於報表設計到多個方面，每一次有新的搭配或者

【EJB學習筆記】——建立一個簡單的EJB應用

　　這裡建立一個簡單的EJB應用，結構如下：　　　　EJB_DEMO專案型別為EJB Project，是需要部署到JBoss上的EJB應用。EJB_DEMO_CLIENT專案型別為普通的Java

webservice學習之一通過jdk-api建立一個簡單的服務

1.建立介面 @WebService() @SOAPBinding(style=SOAPBinding.style.RPC)//jdk1.6時加上。否則會報錯 public interface I

Hibernate學習筆記（二）——建立一個簡單的Hibernate專案

首先來看看Hibernate開發的一個簡單流程：（1）準備開發環境，建立Hibernate專案。（2）在資料庫中建立資料表。（3）建立持久化類。（4）設計對映檔案，使用Hibernate對映檔案將POJO物件對映到資料庫。（5）建立Hibernate的配置檔

Dubbo學習筆記（一）—— 建立一個簡單的Dubbo入門專案演示HelloWorld

一、Dubbo簡介1、dubbo是什麼？▶ 一個分散式服務框架▶ 一個RPC遠端服務呼叫方案▶ 一個SOA服務治理方案2、dubbo架構圖3、節點說明Provider：暴露服務的服務提供方Consumer：呼叫遠端服務的服務消費方Registry：發現並註冊服務的服務註冊中心

【Java編程】建立一個簡單的JDBC連接-Drivers, Connection, Statement and PreparedStatement

code ava 語句 ole man for out 讀取 drop 本blog提供了一個簡單的通過JDBC驅動建立JDBC連接例程，並分別通過Statement和PreparedStatement實現對數據庫的查詢。在下一篇blog中將重點比較Statement與P

django第一課建立一個簡單網頁

src info shortcut url scrip 技術 height template idt 第一步創建項目（有問題可以看我的第一個博客）　　　　C:\Python36\Scripts\django-admin.py startproject *** （我的寫

bootstrap4 建立一個簡單頁面

第一次嘗試用前端框架寫了一個簡單頁面。最重要的應該是先好好讀一遍使用文件啊啊。先貼一波官方連結： http://www.bootcss.com/ 可以少走很多彎路_(:з」∠)_ 另外模板這個東西新手們開啟看看也可以學到很多 https://v4.bootcss.com/do

React 初學者教程13：用 React 建立一個簡單的 Todo List

本文轉載自：眾成翻譯譯者：網路埋伏紀事連結：http://www.zcfy.cc/article/1554 原文：https://www.kirupa.com/react/simple_todo_app_react.htm 概述：通過學習如何建立經

python核心程式設計，使用了twisted.internet類建立一個簡單的半雙工聊天程式

Server部分： '''Created on 2018年5月6日一個時間戳TCP伺服器，他使用了twisted.internet類@author: Administrator'''from twisted.internet import protocol,reactorfrom time imp

Socket的應用（一）——建立一個簡單的回顯客戶端/伺服器

在這篇文章中，我們將利用Python的Socket模組，編寫一個簡單的本地TCPC/S應用：建立Server和Client，在開始時Server等待Client的請求過程中，Server顯示出等待資訊，之後Client連線上Server併發送訊息，最後Server則要回顯出來自客戶端的所有輸出，併發

Spring Boot （基礎篇）：建立一個簡單的SpringBoot專案

Spring Boot建立首先IDEA新建一個專案，File-New-Project-Spring Initializr，然後Next，如下圖：填寫專案資訊：填寫專案使用到的技術，上面的SpringBoot版本建議選擇最新的穩定版，下面勾選上Web就可

Qt【WebSocket】建立一個簡單的websocket連線

1、使用說明 pro檔案中： QT += websockets C++類檔案中： #include <QWebSocket> 2、客戶端的demo 該demo實現的功能： 1、建立webSocket連線； 2、連線中斷後，自動發起重連，週期為3秒。這裡新建一個類，類

用java做一個簡單的打字遊戲

Java也是可以做桌面程式的。只不過需要執行在裝有JDK的電腦環境上，所以應用不是很廣泛，但是用來提高自身的程式碼邏輯還是可以的！偶有一天看到金山的打字通，就想起何不做個簡單的打字遊戲用來練練手。於是就有了下文首先建一個類MyTyping，只有main方法執行main方法

tensorflow4:建立一個簡單的強化學習遊戲

相關推薦