1. 程式人生 > >強化學習相關問題

強化學習相關問題

一次看到蘇克在知乎寫的強化學習問題,自己順便學習了一下,可能總結有不對的地方,希望朋友們指出。

1. 強化學習與監督學習的區別

強化學習就是通過不斷與環境互動,利用環境給出的獎懲來不斷的改進策略(即在什麼狀態下采取什麼動作),以求獲得最大的累積獎懲。

主要區別:

  1. 監督學習的訓練樣本是有標籤的,強化學習的訓練是沒有標籤的,是通過不斷與環境互動獲得獎懲來學習的。
  2. 監督學習的過程是靜態的,強化學習的過程是動態的。動靜態是指是否與環境互動。監督學習是給什麼樣本就學得什麼,強化學習是根據與環境互動的獎懲來學習。
  3. 強化學習更側重於決策問題。監督學習更側重執行問題。

2. 強化學習解決序列決策問題

3. 馬爾科夫決策過程

馬爾可夫決策過程是指決策者週期地或連續地觀察具有馬爾可夫性的隨機動態系統,序貫地作出決策。即根據每個時刻觀察到的狀態,從可用的行動集合中選用一個行動作出決策,系統下一步(未來)的狀態是隨機的,並且其狀態轉移概率具有馬爾可夫性。決策者根據新觀察到的狀態,再作新的決策,依此反覆地進行。馬爾可夫性是指一個隨機過程未來發展的概率規律與觀察之前的歷史無關的性質。馬爾可夫性又可簡單敘述為狀態轉移概率的無後效性。狀態轉移概率具有馬爾可夫性的隨機過程即為馬爾可夫過程。馬爾可夫決策過程又可看作隨機對策的特殊情形,在這種隨機對策中對策的一方是無意志的。馬爾可夫決策過程還可作為馬爾可夫型隨機最優控制,其決策變數就是控制變數。

4. 最優值函式與最優策略為什麼等價

π \pi 為原策略, π \pi' 為改進後策略。
V

π ( x ) Q π ( x , π ( x ) ) = x X P π ( x ) [ R x x π ( x ) + γ V π ( x ) ] x X P π ( x ) [ R x x π ( x ) + γ Q π ( x , π ( x ) ) ] = . . . = V π ( x ) V^\pi(x)\le Q^\pi(x,\pi'(x))=\sum_{x'\in X}P^{\pi'(x)}[R_{x-\to x'}^{\pi'(x)}+\gamma V^\pi(x')]\\ \le \sum_{x'\in X}P^{\pi'(x)}[R_{x-\to x'}^{\pi'(x)}+\gamma Q^\pi(x',\pi'(x'))]=...=V^{\pi'}(x)
由此可得值函式對於策略的每一點改進都是單調的,策略改進與值函式的改進是一致的,因此可將值函式的改進視為策略改進。

5. 求解馬爾科夫決策過程都有哪些方法?有模型用什麼方法?動態規劃是怎麼回事?

  1. 求解馬爾科夫決策過程都有哪些方法?有模型用什麼方法?
    策略迭代,值迭代。
  2. 動態規劃是怎麼回事?
    求解決策過程最優化的方法,把多階段過程轉化為一系列單階段問題,利用各階段之間的關係逐個求解,可以認為每個單階段任務之前的多階段過程是最優的,在之前最優的基礎上選出當前階段最優的決策。其基本思想也是將待求解問題分解成若干個子問題,先求解子問題,然後從這些子問題的解得到原問題的解。
    貝爾曼公式就是一個動態規劃的過程。

6. 基於蒙特卡洛的強化學習方法

on-policy與off-policy

7. DP,MC,TD方法的異同

  1. DP有模型學習,利用後繼狀態的值函式估計當前狀態值函式。——利用模型估計當前值函式,利用模型得到後繼狀態。
  2. MC,當沒有模型時,後繼狀態無法完全得到,且沒有狀態轉移概率,只能通過取樣求平均的方法得到。相比於DP,MC需要一次多步實驗結束才能改進一次策略,效率低。——利用取樣求平均估計當前值函式
  3. TD,將DP與MC相結合,利用 R x x a + Q ( x , a ) R^a_{x\to x'}+Q(x',a') 來估計當前值函式。——DP與MC結合估計當前值函式。利用試驗得到後繼狀態。

8. MC和TD分別是無偏估計嗎,為什麼?MC、TD誰的方差大,為什麼?

  1. MC,MC的返回值為 G t = R t + 1 + γ R t + 2 + . . . + γ T 1 R T G_t=R_{t+1}+\gamma R_{t+2}+...+\gamma^{T-1}R_T G t = 1 T t i = t + 1 T R t G_t=\frac{1}{T-t}\sum_{i=t+1}^T R_t ,是對取樣求平均,其就是值函式的定義,因此MC是無偏估計。但是非常依賴每一次的取樣值,因此方差會很大。
  2. TD,TD利用的是 G t = R t + 1 + γ V ( x t + 1 ) G_t = R_{t+1}+\gamma V(x_{t+1}) ,若 V ( x t + 1 ) V(x_{t+1}) 為無偏的,則TD也為無偏估計,但是 V ( x t + 1 ) V(x_{t+1}) 為估計值,則TD是有偏的。由於TD只利用一次取樣,因此對取樣依賴小,隨機性相對MC小,因此方差較小。

9. 寫出用第n步的值函式更新當前值函式的公式(1-step,2-step,n-step的意思)。當n的取值變大時,偏差和方差分別變大、變小?

TD只利用下一個狀態的值函式,如何利用第二個,第三個,…值函式呢?
G t 1 = R t + 1 + γ V ( s t + 1 ) G_t^1=R_{t+1}+\gamma V(s_{t+1}) 表示TD目標,利用第二步狀態更新值函式為 G t 2 = R t + 1 + γ R t + 2 + γ 2 V ( s t + 2 ) G_t^2=R_{t+1}+\gamma R_{t+2}+ \gamma^2 V(s_{t+2}) ,利用第n步狀態更新值函式為 G t n = R t + 1 + γ R t + 2 + . . . + γ n 1 V ( s t + n ) G_t^n=R_{t+1}+\gamma R_{t+2} + ... + \gamma^{n-1} V(s_{t+n})

相關推薦

強化學習 相關資源

ren info round count question posit pre tar tor   最近因為某個不可描述的原因需要迅速用強化學習完成一個小實例,但是之前完全不懂強化學習啊,雖然用了人家的代碼但是在找代碼的過程中還是發現了很多不錯的強化學習資源,決定mark下

強化學習相關問題

一次看到蘇克在知乎寫的強化學習問題,自己順便學習了一下,可能總結有不對的地方,希望朋友們指出。 1. 強化學習與監督學習的區別 強化學習就是通過不斷與環境互動,利用環境給出的獎懲來不斷的改進策略(即在什麼狀態下采取什麼動作),以求獲得最大的累積獎懲。 主要區別:

常用牛人主頁鏈接(計算機視覺、模式識別、機器學習相關方向,陸續更新。。。。)【轉】

short psu works charles 貝葉斯 learning 數學 ocr 相關 轉自:http://blog.csdn.net/goodshot/article/details/53214935 目錄(?)[-] The Kalman

常用牛人主頁鏈接(計算機視覺、模式識別、機器學習相關方向,陸續更新

bject detail ebo abi err 技術 arch college eoj 牛人主頁(主頁有很多論文代碼) Serge Belongie at UC San Diego Antonio Torralba at MIT Alexei Ffros at CMU C

學習筆記TF037:實現強化學習策略網絡

屬於 控制 返回 獎勵 渲染 動作 ren 虛擬 初始 強化學習(Reinforcement Learing),機器學習重要分支,解決連續決策問題。強化學習問題三概念,環境狀態(Environment State)、行動(Action)、獎勵(Reward),目標獲得最多累

強化學習(David Silver)4:免模型學習

叠代 ack 方差 自舉 組合 a* 最小二乘 求和 效率 0、為什麽免模型學習? PS:課程中叠代的值是值函數;周誌華老師的西瓜書中叠代的是狀態值函數;課程中叠代的是狀態-動作值函數 1、蒙特卡洛方法:直接通過采樣求和(v(s) = S(s)/n(s),其中S(s) =

強化學習(David Silver)4:免模型控制

sil 對比 rsa isod 頻率 模型 找到 使用 采樣 1、一般的策略叠代優化的方法 1)策略評估 2)策略改善 2、model free的策略叠代優化的方法 基於v(s)的優化需要MDP,基於Q的優化不需要,所以策略是 1)使用Q函數策略評估 2)使用厄普西隆貪心策

強化學習(David Silver)6:值函數近似

最優解 學習 前向算法 數據 計算 action 算法 什麽 化學 0、為什麽有值函數近似 狀態空間太大,基於DP/MC/TD的方法的離散值太多,存儲量太大,運行太慢 1、值函數近似有兩種方法 一個是狀態值函數方法;一個是狀態動作值方法 2、值函數近似的三種類型 類型1:輸

增量式強化學習

增量 name 效率 eps ima 全局最優 全局 技術分享 alt 線性逼近: 相比較於非線性逼近,線性逼近的好處是只有一個最優值,因此可以收斂到全局最優。其中為狀態s處的特征函數,或者稱為基函數。 常用的基函數的類型為: 增量式方法參數更新過程隨機性比較大,盡管計

Seq2SQL :使用強化學習通過自然語言生成SQL

ati ima sof div sta 領域 不能 分享 普通 論文: https://einstein.ai/static/images/layouts/research/seq2sql/seq2sql.pdf 數據集:https://github.com/salesfo

強化學習

logs .cn nbsp jpg 技術 引用 https -1 知乎 引用自知乎,原文鏈接 https://www.zhihu.com/question/41775291 強化學習

【基礎知識十六】強化學習

動態 sof col -s 範例 如何 差分 ash 抽象 一、任務與獎賞 我們執行某個操作a時,僅能得到一個當前的反饋r(可以假設服從某種分布),這個過程抽象出來就是“強化學習”。 強化學習任務通常用馬爾可夫決策過程MDP來描述: 強化學

強化學習(David Silver)2:MDP(馬爾科夫決策過程)

war 觀察 turn 解法 求解 有關 馬爾科夫 函數 使用 1、MP(馬爾科夫過程) 1.1、MDP介紹 1)MDP形式化地強化學習中的環境(此時假設環境完全可以觀察) 2) 幾乎所有強化學習問題都可以形式化為MDP(部分可觀察的環境也可以轉化為MDP????) 1.2

強化學習(David Silver)3:動態規劃

哈哈 avi 過程 來源 con 隨機 選擇 進行 解決 1、簡介 1.1、動態規劃 動態規劃的性質:最優子結構;無後向性 動態規劃假定MDP所有信息已知,解決的是planning問題,不是RL問題 1.2、兩類問題 預測問題:給定策略,給出MDP/MRP和策略,計算策略值

強化學習之猜猜我是誰--- Deep Q-Network ^_^

導致 line d+ callbacks ima new div pan dense Deep Q-Network和Q-Learning怎麽長得這麽像,難道它們有關系? 沒錯,Deep Q-Network其實是Q-Learning融合了神經網絡的一種方法 這次我們以打飛機的

機器學習相關內容

推導 一個 入門教程 很多 質量 整體 coursera 大數據分析 朋友 接觸計算機不長不短業余的大學幾年加上工作三年,編程三年多,行業自己心裏有了自己的打算,在程序這一塊的領域也有了自己的一點點體會,總有自己的想法。下一個三年的階段性目標:機器學習。 機器學習的子類是深

SX知識學習——相關sources

form ade https 公眾號 format DC content AD str 1、博客及公眾號:http://www.biotrainee.com/forum-118-1.html 2、Bioinformatics data skill:https://www.

強化學習初步學習

image eva gin ive span auto isp block pla Iterative Policy Evaluation How to Improve a Policy

AI+遊戲:高效利用樣本的強化學習 | 騰訊AI Lab學術論壇演講

騰訊 AI 人工智能 3月15日,騰訊AI Lab第二屆學術論壇在深圳舉行,聚焦人工智能在醫療、遊戲、多媒體內容、人機交互等四大領域的跨界研究與應用。全球30位頂級AI專家出席,對多項前沿研究成果進行了深入探討與交流。騰訊AI Lab還宣布了2018三大核心戰略,以及同頂級研究與出版機構自然科研的

強化學習步驟

學習 otl 學習步驟 ID spm force silver mach page 1.Python基礎(莫煩) 2.數據分析的視頻:Numpy,Matplotlib, Pandas(已發鏈接) 3.強化學習基礎(莫煩) B站 4.強化學習理論課(silver) 5.Q