機器學習（二十五）——強化學習（2）

阿新 • • 發佈：2019-01-26

折扣未來獎勵（Discounted Future Reward）

為了獲得更多的獎勵，我們往往不能只看當前獎勵，更要看將來的獎勵。

給定一個MDP週期，總的獎勵顯然為：

R = r_{1} + r_{2} + \dots + r_{n}

那麼，從當前時間t開始，總的將來的獎勵為：

R_{t} = r_{t} + r_{t + 1} + \dots + r_{n}

但是Environment往往是隨機的，執行特定的動作不一定得到特定的狀態，因此將來的獎勵所佔的權重要依次遞減，因此使用discounted future reward代替：

R_{t} = r_{t} + γ r_{t + 1} + γ^{2} r_{t + 2} + \dots + γ^{n - t} r_{n}

這裡 $γ$ 是0和1之間的折扣因子——越是未來的獎勵，折扣越多，權重越小。而明顯上式是個迭代過程，因此可以寫作：

R_{t} = r_{t} + γ (r_{t + 1} + γ (r_{t + 2} + \dots)) = r_{t} + γ R_{t + 1}

即當前時刻的獎勵等於當前時刻的即時獎勵加上下一時刻的獎勵乘上折扣因子 $γ$ 。

如果 $γ$ 等於0，意味著只看當前獎勵；

如果 $γ$ 等於1，意味著環境是確定的，相同的動作總會獲得相同的獎勵（也就是cyclic Markov processes）。

因此實際中 $γ$ 往往取類似0.9這樣的值。因此我們的任務變成了找到一個策略，最大化將來的獎勵R。

Policy, Value, Transition Model

增強學習中，比較重要的幾個概念：

Policy就是我們的演算法追求的目標，可以看做一個函式，在輸入state的時候，能夠返回此時應該執行的action或者action的概率分佈。

π (a ∣ s) = P [A_{t} = a ∣ S_{t} = s]

Value，價值函式，表示在輸入state，action的時候，能夠返回在state下，執行這個action能得到的Discounted future reward的（期望）值。

Value function一般有兩種。

state-value function：

v_{π} (s) = E_{π} [G_{t} ∣ S_{t} = s]

action-value function：

q_{π} (s; a) = E_{π} [G_{t} ∣ S_{t} = s; A_{t} = a]

後者由於和state、action都有關係，也被稱作state-action pair value function。

Transition model是說環境本身的結構與特性：當在state執行action的時候，系統會進入的下一個state，也包括可能收到的reward。

很顯然，以上三者互相關聯：

如果能得到一個好的Policy function的話，那演算法的目的已經達到了。

如果能得到一個好的Value function的話，那麼就可以在這個state下，選取value值高的那個action，自然也是一個較好的策略。

如果能得到一個好的transition model的話，一方面，有可能可以通過這個transition model直接推演出最佳的策略；另一方面，也可以用來指導policy function或者value function 的學習過程。

因此，增強學習的方法，大體可以分為三類：

Value-based RL，值方法。顯式地構造一個model來表示值函式Q，找到最優策略對應的Q函式，自然就找到了最優策略。

Policy-based RL，策略方法。顯式地構造一個model來表示策略函式,然後去尋找能最大化discounted future reward。

Model-based RL，基於環境模型的方法。先得到關於environment transition的model，然後再根據這個model去尋求最佳的策略。

以上三種方法並不是一個嚴格的劃分，很多RL演算法同時具有一種以上的特性。

這裡寫圖片描述

參考

強化學習（Reinforcement Learning）基礎介紹

穆黎森：演算法工程師入門——增強學習

強化學習（Reinforcement Learning）演算法基礎及分類

強化學習的核心基礎概念及實現

強化學習全解

構建強化學習系統，你需要先了解這些背景知識

易忽略的強化學習知識之基礎知識及MDP（上）

易忽略的強化學習知識之基礎知識及MDP（下）

李飛飛高徒帶你一文讀懂RL來龍去脈

3萬字剖析強化學習在電商環境下應用

機器學習（二十五）——強化學習（2）

折扣未來獎勵（Discounted Future Reward）為了獲得更多的獎勵，我們往往不能只看當前獎勵，更要看將來的獎勵。給定一個MDP週期，總的獎勵顯然為： R=r1+r2+⋯+rnR=r1+r2+⋯+rn 那麼，從當前時間t開始，總

【轉】JMeter學習（二十五）HTTP屬性管理器HTTP Cookie Manager、HTTP Request Defaults

agen 讀取 expired fault 範圍運行時 ear 定制只有一個 Test Plan的配置元件中有一些和HTTP屬性相關的元件：HTTP Cache Manager、HTTP Authorization Manager、HTTP Cookie Manager

Linux學習筆記（二十五）shell特殊符號、 sort_wc_uniq、tee_tr_split

tee_tr_split命令一、特殊字符 1.‘* ‘任意個任意字符‘? ‘任意一個字符‘# ‘註釋字符‘ \ ‘脫義字符‘ | ‘管道符其中大部分之前都用過，對於脫義符‘\‘脫義符用法舉例如圖 2.幾個與管道有關的命令cut 分割，-d 分隔符 -f 指定段號 -c 指定第幾個字符 sort 排序，

Linux 學習總結（二十五）系統管理4

iptables filter nat netfilter iptables 應用實例一 filter表案例 1 需求：只針對filter表，預設INPUT 鏈DROP ，其他兩個鏈ACCEPT，然後針對192.169.188.0/24開通22端口，對所有網段開放80端口，21端口。我們編寫sh

java基礎學習總結（二十五）：logback詳解

為什麼使用logback logback大約有以下的一些優點：核心重寫、測試充分、初始化記憶體載入更小，這一切讓logback效能和log4j相比有諸多倍的提升 logback非常自然地直接實現了slf4j，這個嚴格來說算不上優點，只是這樣，再理解slf4j的前提下會很容易理解

JMeter學習（二十五）HTTP屬性管理器HTTP Cookie Manager、HTTP Request Defaults

Test Plan的配置元件中有一些和HTTP屬性相關的元件：HTTP Cache Manager、HTTP Authorization Manager、HTTP Cookie Manager、HTTP Header Manager、HTTP Request Defaults等，這些是什麼

Spring 學習（二十五）——事務其他屬性(隔離級別、回滾、只讀和過期）

併發事務所導致的問題 •當同一個應用程式或者不同應用程式中的多個事務在同一個資料集上併發執行時, 可能會出現許多意外的問題 •併發事務所導致的問題可以分為下面三種類型: –髒讀: 對於兩個事物 T1, T2, T1 讀取了已經被 T2 更新但還沒有被提交的欄位. 之後, 若

python OpenCV學習筆記（二十五）：傅立葉變換（Fourier Transform ）

傅立葉變換用於分析各種濾波器的頻率特性。對於影象，二維離散傅立葉變換(2D Discrete Fourier Transform/DFT)用於尋找頻域。快速傅立葉變換(Fast Fourier Transform/FFT)的快速演算法用於計算DFT。

OpenCV學習筆記（二十五）——OpenCV圖形介面設計Qt+VS2008

一直對MFC對OpenCV的支援不好而耿耿於懷，瞭解了Qt對OpenCV支援很好，但網上這方面的資料很少。大部分的圖形互動的設計都是基於OpenCV2.0之前的資料結構lpImage進行的。最近得到了一本好書《OpenCV 2 Computer Vision Applica

Android程式設計權威指南（第二版）學習筆記（二十五）—— 第25章搜尋

本章主要講了 ToolBar 中的 SearchView 的使用以及 SharedPreferences 的簡單使用。 GitHub 地址：完成第25章 1. SearchView SearchView 是一個 ActionVi

Spring學習（二十五）Spring AOP之增強介紹

課程概要： Spring AOP的基本概念Spring AOP的增強型別Spring AOP的前置增強Spring AOP的後置增強Spring AOP的環繞增強Spring AOP的異常丟擲增強Sp

MYSQL學習筆記（二十五）資料庫維護

備份資料 (1) 使用命令列實用程式mysqldump轉儲所有資料庫內容到某個外部檔案； (2) 可用命令列實用程式mysqlhotcopy從一個數據庫複製所有資料； (3) 可使用MYSQl的

SpringBoot學習－（二十五）SpringBoot整合Shiro（詳細版本）

整合內容包括自定義realm，實現認證和授權自定義加密，實現密碼加密驗證自定義Cachemanager、Cache，實現Shiro的cache管理，儲存在redis中自定義SessionManager、SessionDao、SessionIdCook

Unity3D學習筆記（二十五）：文件操作

log gin fin 不同 ati text組件內容 mono www 文件是什麽？存儲在硬盤上的最後的節點。文件夾是什麽？文件的上級單位稱為文件夾。文件夾的基本結構？文件夾是層級化結構的，對於同級的文件夾不可以重名，父文件夾和子文件夾可以同名》 IO：I是I

2016集訓測試賽（二十五）小結

時間第一題是我很多分析題目 ... 人的簡單　　這場測試賽有必要小結一下. 　　昨晚 1 點才睡, 今天狀態很差, 先睡了 1 個小時, 然後開始打比賽. 第一題不大會做, 寫了一個代碼後發現是錯的, 第二題看不懂題, 第三題簡單地分析了一下, 發現是一個樹形

C#編程（二十五）----------接口

目的 count() 聲明變量 form [] 類的繼承計算機構造執行接口如果一個類派生自一個接口,聲明這個類就會實現某些函數.並不是所有的面向對象的語言都支持接口. 例如,有一個接口:IDispoable,包含一個方法Dispose(),該方法又類實現,用於清理

企業分布式微服務雲SpringCloud SpringBoot mybatis （二十五）集成swagger2構建Restful API

sel ima eth syn conf ring 但是 batis 關註一、引入依賴 <dependency> <groupId>io.springfox</groupId> <

大數據筆記（二十五）——Scala函數式編程

=== 情況不能 nbsp 結構 map som class 編程 ===================== Scala函數式編程 ======================== 一、Scala中的函數 (*) 函數是Scala中的頭等公民，就和數字一樣，可以在變量中

C之數組（二十五）

C語言數組在 C 語言中，我們不可避免的要接觸到數組。我們就來看看數組是什麽玩意，其實數組就是相同類型的變量的有序集合。下面這張圖更加形象的表示出數組的含義數組在一片連續的內存空間中存儲元素，數組元素的個數是可以顯示或隱式指定的。比如： int a[5] = {1,

python2.7練習小例子（二十五）

點贊實例 net mil 感覺 format 經典題目 tty 遞推 25）：題目：有5個人坐在一起，問第五個人多少歲？他說比第4個人大2歲。問第4個人歲數，他說比第3個人大2歲。問第三個人，又說比第2人大兩歲。問第2個人，說比第一個人大兩歲。最後問第一個人，他說

機器學習（二十五）——強化學習（2）

折扣未來獎勵（Discounted Future Reward）

Policy, Value, Transition Model

參考

相關推薦