深度強化學習（一）： Deep Q Network(DQN)

阿新 • • 發佈：2018-11-10

原文：https://blog.csdn.net/LagrangeSK/article/details/80321265 一、背景

DeepMind2013年的論文《Playing Atari with Deep Reinforcement Learning》指出：從高維感知輸入（如視覺、語音）直接學習如何控制 agent 對強化學習（RL）來說是一大挑戰。

之前很多RL演算法依賴於手工選取的特徵和線性函式逼近（對value function（值函式）或 policy進行逼近）。但這些系統都依賴於特徵的選取質量。

深度學習（DL），尤其是CNN（卷積神經網路），可以很好的提取影象的高維特徵，那麼我們很自然的想到是否可以將其應用於強化學習（RL）上？

二、DL和RL結合的挑戰

那麼很自然，我們需要關注DL和RL的結合有哪些挑戰：

深度學習方法的成功應用案例大部分都具備很好的資料集標籤（labels),而RL沒有明確的標籤，只能通過一個有延遲（也可能有噪聲）的reward來學習。
另外，深度學習一般假設其樣本都是獨立同分布的，但在RL中，通常會遇到一段相關度很高的狀態量（state)，且狀態的分佈也不相同。
過往的研究表明，使用非線性網路表示值函式時出現網路不穩定，收斂困難等問題。

三、DQN的解決方案

DQN將卷積神經網路（CNN）與Q學習結合起來，通過以下方法，對DL與RL結合存在的問題進行解決：

採用Q learning的目標值函式來構造DL的標籤，從而構造DL的loss function;
.採用了記憶回放（experience replay mechanism) 來解決資料關聯性問題;
使用一個CNN（MainNet）產生當前Q值，使用另外一個CNN（Target）產生Target Q值。（在2015年DeepMind的論文Human-level Control Through Deep Reinforcement Learning新版DQN中採用）

3.1 loss function 構造

RL原理此不贅述，Q learning的更新方程如下：

$KaTeX parse error: Expected '}', got '&' at position 127: …+\gamma \max_{a&̲#x27;}Q(s'…$ $θ$ 。

3.2 記憶回放（experience replay mechanism)

為了讓 RL 的資料（關聯性不獨立分佈的資料）更接近DL所需要的資料（獨立同分布資料），在學習過程中建立一個“記憶庫”，將一段時間內的state、action、state_ (下一時刻狀態）以及 reward 儲存在記憶庫裡，每次訓練神經網路時，從記憶庫裡隨機抽取一個batch的記憶資料，這樣就打亂了原始資料的順序，將資料的關聯性減弱。

3.3 目標網路

為了使得演算法效能更穩定，建立兩個結構一樣的神經網路：一直在更新神經網路引數的網路（MainNet) 和用於更新Q值（TargetNet)。

.初始時刻將MainNet的引數賦值給TargetNet，
然後MainNet繼續更新神經網路引數，而TargetNet的引數固定不動。
再過一段時間將MainNet的引數賦給TargetNet，如此迴圈往復。

這樣使得一段時間內的目標Q值是穩定不變的，從而使得演算法更新更加穩定。

四、演算法虛擬碼

2013年版本：
在這裡插入圖片描述
2015年版本：
這裡寫圖片描述

五、演算法流程

2015年版本：

這裡寫圖片描述

六、演算法評價

解決的問題：

解決了Q學習的QTable高維度災難問題，使得Q值連續化
將DL和RL資料集不相容問題解決（記憶庫、固定目標值函式網路）

存在問題：

action依然是從最大的Q值中選取，無法用於action連續的問題
只能處理只需短時記憶問題，無法處理需長時記憶問題；
CNN不一定收斂，需精良調參。

參考文獻：
https://blog.csdn.net/u013236946/article/details/72871858
Human-level Control Through Deep Reinforcement Learning
Playing Atari with Deep Reinforcement Learning

        </div>

深度強化學習（一）： Deep Q Network(DQN)

原文：https://blog.csdn.net/LagrangeSK/article/details/80321265 一、背景 DeepMind2013年的論文《Playing Atari with Deep Reinforcement Learning》指

強化學習（九）與Deep Q-Learning進階之Nature DQN

cal variable 模型基礎討論比較 .com 回放均方差　　　　在強化學習（八）價值函數的近似表示與Deep Q-Learning中，我們講到了Deep Q-Learning（NIPS 2013）的算法和代碼，在這個算法基礎上，有很多Deep Q-Lear

阿里的CTR預測（一）：Deep Interest Network

今天我想介紹阿里的同一推薦團隊一脈相承的兩篇文章，Deep Interest Network for Click-Through Rate Prediction和，Deep Interest Evolution Network for Click-Through Rate Prediction。這是第一部分，

【轉】強化學習（一）Deep Q-Network

原文地址：https://www.hhyz.me/2018/08/05/2018-08-05-RL/ 1. 前言雖然將深度學習和增強學習結合的想法在幾年前就有人嘗試，但真正成功的開端就是DeepMind在NIPS 2013上發表的 Playing Atari with Deep Rein

CSS3總結學習（一）：CSS3用戶界面

interface 繪制如果位置 nbsp 瀏覽器 none ble adding 在CSS3中，新的用戶界面屬性有很多，本文重點介紹resize,box-sizing,offset。瀏覽器支持，如下圖，圖片源於W3school 1.CSS Resizing 在cs

[linux][MongoDB] mongodb學習（一）：MongoDB安裝、管理工具、

ole ont mon mkdir man 管理工具 tar end 認證參考原文：http://www.cnblogs.com/kaituorensheng/p/5118226.html linux安裝完美實現！ 1. mongoDB安裝、啟動、關閉　　1.1

Unity3D學習（一）：簡單梳理下Unity跨平臺的機制原理

12px get 一個 bsp 嵌入 ram 屬於開源 runtime 前言首先需要了解的是，Unity3D的C#基礎腳本模塊是通過Mono來實現的。什麽是Mono？參考下百度百科：Mono是一個由Novell公司（由Xamarin發起）主持的項目，並由Migu

tp5.0 學習（一）：虛擬環境安裝

安裝php admin cat code logs exe erro ron log 一、文件目錄： application: 應用目錄，開發文件存放地 extend:擴展 public:入口文件 thinkphp：核心代碼 vendor：第三方類庫二、域名Apache配

canvas學習（一）：線條，圖像變換和狀態保存

itl height tar 默認 class limit 方法星空 stop canvas學習（一）：線條，圖像變換和狀態保存一：繪制一條線段： var canvas = document.getElementById(‘canvas‘) var ctx = can

強化學習（二）：馬爾可夫決策過程

最優最大值公式 des 版本 ams 強化學習有獎 RoCE Finite Markov Decision Process 馬爾可夫決策過程(MDP)是對連續決策進行建模，當前的動作不僅對當前產生影響，而且還會對將來的的情況產生影響，如果從獎勵的角度，即MDP不僅影響

JavaAPI學習（一）：API && String類 && Stringbuffer && StringBuilder

vax 編碼長度 split() 無敵 esp ogr charat() ble 一、API 　　1、API：英文 Aplication Progrmmer Iteface 的縮寫，即應用編程接口　　　　由官方或第三方提供的能實現特點功能的程序封裝包，包含各功能類，接口

前端學習（一）：基本類型

關系大小寫變量 def 兩個 num eof 初始化 string類 ECMAScript中有5中基本數據類型：Undefined、Null、Boolean、Number、String。 Undefined類型:之所以會出現這個值，就是在當你聲明了一個變量時，並未對其賦

docker學習（一）：docker安裝和架構

本筆記根據51CTO的CloudMan博主的部落格而記錄的。本節主要學習 docker安裝和解除安裝 docker的架構一、Docker的安裝和解除安裝　　Docker的安裝　　1、安裝之前，要先把舊版的Docker給解除安裝了，以下是Docker官網上的安裝前解除安裝Dock

PE檔案格式學習（一）：概述

1.PE檔案簡介 PE檔案格式是Windows系統中應用最廣泛的檔案格式之一,我們常見的可執行檔案.exe、動態連結庫.dll以及驅動檔案.sys等都是PE檔案格式的。可以通過十六進位制工具如010editor檢視PE檔案，可以看到PE檔案都有一個共同的特點，就是它們的最開頭都是4D5A，也就是ASCI

Java學習（一）：第一章計算機、程式和Java概述

第一章計算機、程式和Java概述（1）匯流排--》儲存裝置、記憶體、CPU、通訊裝置、輸入裝置、輸出裝置；（2）語言：機器語言：二進位制形式

pandas系列學習（一）：pandas入門

作者：chen_h 微訊號 & QQ：862251340 微信公眾號：coderpai 介紹 pandas 是一套用於 Python 的快速，高效的資料分析工具。近年來它的受歡迎程度飆升，與資料科學和機器學習等領域的興起同步。正如 Numpy 提供了基礎

網頁開發學習（一）：製作一份邀請函

網頁開發設計是在面試創新實驗室時面試官給的二面試題，讓自己設計實現一個簡單的網頁。所以我決定來做一個邀請函網頁，並將開發過程寫在部落格上供有需要的朋友們檢視。網頁開發工具有很多，我使用的是對新手較為友好的Dreamweaver，其優點在於簡便、直觀、功能豐富，簡稱為“傻瓜化”。下載請

資料結構學習（一）：高精度演算法

高精度演算法，屬於處理大數字的數學計算方法。在一般的科學計算中，會經常算到小數點後幾百位或者更多，當然也可能是幾千億幾百億的大數字。一般這類數字我們統稱為高精度數，高精度演算法是用計算機對於超大資料的一種模擬加，減，乘，除，乘方，階乘，開方等運算。對於非常龐大的數字無法在計算機中正常儲存

Redis學習01_redis安裝部署（centos） Redis學習（一）：CentOS下redis安裝和部署

原文: http://www.cnblogs.com/herblog/p/9305668.html Redis學習（一）：CentOS下redis安裝和部署 1.基礎知識 redis是用C語言開發的一個開源的高效能鍵值對（key-value）資料庫。它通過提

用python來實現機器學習（一）：線性迴歸（linear regression）

需要下載一個data：auto-mpg.data 第一步：顯示資料集圖 import pandas as pd import matplotlib.pyplot as plt columns = ["mpg","cylinders","displacement","horsepowe

深度強化學習（一）： Deep Q Network(DQN)

原文：https://blog.csdn.net/LagrangeSK/article/details/80321265 一、背景

二、DL和RL結合的挑戰

三、DQN的解決方案

3.1 loss function 構造

3.2 記憶回放（experience replay mechanism)

3.3 目標網路

四、演算法虛擬碼

五、演算法流程

六、演算法評價

相關推薦