1. 程式人生 > >【強化學習篇】--強化學習案例詳解一

【強化學習篇】--強化學習案例詳解一

AC 沒有 技術 技術分享 ron png strong http mage

一、前述

本文通過一個案例來講解Q-Learning

二、具體

1、案例

假設我們需要走到5房間。

技術分享圖片

轉變為如下圖:先構造獎勵,達到5,即能夠走得5的action則說明獎勵比較高設置成100,沒有達到5說明獎勵比較低,設置成0。

技術分享圖片

技術分享圖片

Q-learning實現步驟:

技術分享圖片

2、案例詳解:

技術分享圖片

技術分享圖片

第一步的Q(1,5):最開始的Q矩陣都是零矩陣,叠代完之後Q(1,5)是100

技術分享圖片

第二次叠代:依舊是隨機

技術分享圖片

收斂的意思是最後Q基本不變了,然後歸一化操作,所有值都除以500,然後計算百分比。

則最後的分值填充如下:

技術分享圖片

【強化學習篇】--強化學習案例詳解一