強化學習系列1：強化學習簡介

阿新 • • 發佈：2018-12-28

2015年10月，AlphaGo在和歐洲冠軍進行的圍棋賽上獲得了5:0的完勝，其後的深度強化學習也隨之火了起來。從本期開始開個新坑，一步步把強化學習的內容捋一遍。

1. 基本概念

強化學習(reinforcement learning)是用來解決連續決策問題的一種方法。針對的模型是馬爾科夫決策過程（Markov Decision Process，MDP）。所謂馬爾科夫決策過程，指的是下一時刻的狀態僅由當前階段（包括狀態、決策）決定，不依賴於以往的狀態，用數學化的語言表達為：

問題是多階段決策過程，階段數為 $I$
每個階段可能的狀態為集合 $S_i$ 。
每個階段可以做的決策為集合 $A_i$
從當前階段狀態到下一階段狀態的轉移函式為 $P$ ，有 $s_{i+1}=P(s_i,a_i)$
決策完成之後，當前階段對應的成本（或者獎賞）為 $c_i=C(s_i,a_i)$ 。求解變數為 $a_i$ ，目標函式為最小化總成本（或者最大化總獎賞） $\Sigma_{i\in I}c_i$

如果階段之間的轉移存在隨機性，那麼狀態轉移函式為轉移概率 $p_{s_{i+1}}=P(s_{i+1},s_i,a_i)$ ，求解變數為 $a_i = \pi(s_i)$ ，當前階段期望成本為 $c_i=\Sigma _{s_{i+1}}C(s_{i+1},s_i,a_i)p_{s_{i+1}}$ ，目標函式為最小化期望總成本 $\Sigma_{i\in I}c_i$ 。
模型在進行決策的時候有多種方法，這裡列舉常用的三種：

確定性的貪婪策略 $\pi(s) = \arg\max_a q^*_{s,a}$
$\epsilon$ -greed策略：以 $1-\epsilon$ 的概率取最優策略，其他等概率。這樣可以平衡利用和探索( $\epsilon$ 的部分)
高斯策略：在連續系統中，行動為 $a+\epsilon$ ，後面為零均值正態分佈的高斯隨機噪聲。

下面介再簡單描述一些重要概念：

馬爾科夫過程（MP）
MP可以用(S,P)序列表示，其中S表示環境狀態，而P表示概率轉移的邊。MP的前進過程用圖表示為：
… $\longrightarrow s_t \stackrel{p_{s_t}}{\longrightarrow} s_{t+1} \longrightarrow$ …
馬爾科夫決策過程（MDP）
MDP是(S,A,P,R)，多了一個決策A和回報R（跨時間的回報需要帶上折扣 $\gamma$ ），可以看做是MDP比MP多出來的D(ecision)。MDP的目標是min $G$ = min $\Sigma_k \gamma^k R^{k+1}$ = min $E_{\pi}\{\Sigma_k \gamma^k R^{k+1}\}$ ，求解變數為 $\pi$ 。MDP的前進過程用圖表示如下：
… $\longrightarrow s_t \stackrel{\pi_{s_t}}{\longrightarrow}a_t ,r_t\stackrel{p_{s_t,a_t}}{\longrightarrow} s_{t+1} \longrightarrow$ …
值函式
MDP使用迭代的方法求解，定義狀態值函式 $v$ 和狀態行為值函式 $q$ 。 $v$ 的引數是s，而 $q$ 的引數是(s,a)。值函式的前進過程圖如下：
… $⟶ v_{π} (s_{t}) ⟶^{π_{s_{t}}} q_{π} (s_{t}, a_{t}), r_{t} ⟶^{p_{s_{t}, a}}$

強化學習系列1：強化學習簡介

1. 基本概念

強化學習系列1：強化學習簡介

openCV學習系列1：我為什麼要學習openCV，什麼是openCV

Caffe學習系列(1)：安裝配置ubuntu14.04+cuda7.5+caffe+cudnn

html5標籤學習系列1：基礎標籤

機器學習筆記1：機器學習定義與分類

機器學習筆記1：機器學習的動機與應用

深度學習系列Part2：遷移學習和微調深度卷積神經網路

學習筆記1：深度學習環境搭建win+python+tensorflow1.5+CUDA9.0+cuDNN7.0

強化學習系列5：有模型的策略迭代方法

強化學習系列3：Open AI的baselines和Spinning Up

強化學習系列7：無模型的蒙特卡洛法

Reinforcement Learning強化學習系列之一：model-based learning

Mybatis學習系列(1) –– 入門簡介

機器學習與深度學習系列連載：第二部分深度學習（十三）迴圈神經網路 1（Recurre Neural Network 基本概念）

機器學習與深度學習系列連載：第二部分深度學習（十）卷積神經網路 1 Convolutional Neural Networks

OGC入門學習專欄-1：OGC簡介（持續更新）

機器學習與深度學習系列連載：第一部分機器學習（十四）非監督度學習-1 Unsupervised Learning-1

the little go book學習筆記(1)：簡介

機器學習公開課筆記(1)：機器學習簡介及一元線性迴歸

《轉》VMware vSphere 5.1 學習系列之一：實驗環境的搭建

強化學習系列1：強化學習簡介

1. 基本概念

相關推薦