區分Model-free和Model-based方法

阿新 • • 發佈：2018-11-20

強化學習方法分為Model-free和Model-based方法，那麼這兩種方法的區別在哪：

首先我們定義強化學習中的馬爾可夫決策過程MDP，用四元組表示<S,A,R,T><S,A,R,T>：

SS：環境的狀態空間
AA：agent可選擇的動作空間
R（s，a）R（s，a）：獎勵函式，返回的值表示在ss狀態下執行aa動作的獎勵
T(s′|s,a)T(s′|s,a): 狀態轉移概率函式，表示從ss狀態執行aa動作後環境轉移至s′s′狀態的概率
我們的目標是：找到一個策略ππ能夠最大化我們的對未來獎勵的期望E(∑nt=0γtRt)E(∑t=0nγtRt)，RtRt為tt時刻的獎勵，γγ為折扣因子，代表距離現在越遙遠的獎勵不如現在的獎勵大

現在，如果我們知道MDP中的所有東西，那麼我們可以不用在環境中做出動作便可直接求解，我們通常稱在執行動作前作出的決策為規劃(planning)，那麼一些經典的規劃演算法能夠直接求解MDP問題，包括值迭代和策略迭代等

但是在強化學習中，agent卻不是那麼容易知曉MDP中所有的元素的，比如，agent也許不會知道環境將會如何改變當它執行了一個動作後（狀態轉移概率函式TT），也不會知道它執行這個動作獲得即時的獎勵將會是多少（獎勵函式RR），agent能做的就是：根據自己已有的策略ππ選擇關於當前狀態ss下自己認為好的動作aa，執行此動作給環境，觀察環境給出的反饋rr和下一個狀態s′s′，並根據這個反饋rr調整更新自己的策略ππ，這樣反覆迭代，直到找到一種最優的策略π′π′能夠最大限度獲得正反饋

那麼，當agent不知道轉移概率函式TT和獎勵函式RR，它是如何找到一個好的策略的呢，當然會有很多方法：

Model-based RL
一種方法就是Model-based方法，讓agent學習一種模型，這種模型能夠從它的觀察角度描述環境是如何工作的，然後利用這個模型做出動作規劃，具體來說，當agent處於s1s1狀態，執行了a1a1動作，然後觀察到了環境從s1s1轉化到了s2s2以及收到的獎勵rr, 那麼這些資訊能夠用來提高它對T(s2|s1,a1)T(s2|s1,a1)和R(s1,a1)R(s1,a1)的估計的準確性，當agent學習的模型能夠非常貼近於環境時，它就可以直接通過一些規劃演算法來找到最優策略，具體來說：當agent已知任何狀態下執行任何動作獲得的回報，即R(st,at)R(st,at)已知，而且下一個狀態也能通過T(st+1|st,at)T(st+1|st,at)被計算，那麼這個問題很容易就通過動態規劃演算法求解，尤其是當T(st+1|st,at)＝1T(st+1|st,at)＝1時，直接利用貪心演算法，每次執行只需選擇當前狀態stst下回報函式取最大值的動作(maxaR(s,a|s=st)maxaR(s,a|s=st))即可，這種採取對環境進行建模的強化學習方法就是Model-based方法

Model free RL
但是，事實證明，我們有時候並不需要對環境進行建模也能找到最優的策略，一種經典的例子就是Q-learning，Q-learning直接對未來的回報Q(s,a)Q(s,a)進行估計，Q(sk,ak)Q(sk,ak)表示對sksk狀態下執行動作atat後獲得的未來收益總和E(∑nt=kγkRk)E(∑t=knγkRk)的估計，若對這個Q值估計的越準確，那麼我們就越能確定如何選擇當前stst狀態下的動作：選擇讓Q(st,at)Q(st,at)最大的atat即可，而Q值的更新目標由Bellman方程定義，更新的方式可以有TD（Temporal Difference）等，這種是基於值迭代的方法，類似的還有基於策略迭代的方法以及結合值迭代和策略迭代的actor-critic方法，基礎的策略迭代方法一般回合制更新（Monte Carlo Update），這些方法由於沒有去對環境進行建模，因此他們都是Model-free的方法

所以，如果你想檢視這個強化學習演算法是model-based還是model-free的，你就問你自己這個問題：在agent執行它的動作之前，它是否能對下一步的狀態和回報做出預測，如果可以，那麼就是model-based方法，如果不能，即為model-free方法

Reference
https://www.quora.com/What-is-the-difference-between-model-based-and-model-free-reinforcement-learning
---------------------
作者：ppp8300885
來源：CSDN
原文：https://blog.csdn.net/ppp8300885/article/details/78524235
版權宣告：本文為博主原創文章，轉載請附上博文連結！

區分Model-free和Model-based方法

區分Model-free和Model-based方法

keras中的model.fit和model.fit_generator

keras中model.evaluate 和 model.predict的區別

SpringMVC控制器方法參數傳入的ModelMap 和Model類型有啥區別

Django需求分析和model設計過程中系列報錯解決方法

CVPR 2015 In Defense of Color-based Model-free Tracking 閱讀筆記

Mongoose 內置 CURD 方法、擴展 Mongoose Model 的靜態方法和實例方法

【強化學習RL】model-free的prediction和control — MC, TD(λ), SARSA, Q-learning等

區分slice,splice和split方法

Learning an Optimal Policy: Model-free Methods

Java SpringMVC框架學習（二）httpServeltRequest和Model傳值的區別

使用generator生成dao、mapping和model

CBV模式和model form組件

3- vue django restful framework 打造生鮮超市 - model設計和資源導入

理解Spring MVC Model Attribute 和 Session Attribute

C/C++ - malloc/free和new/delete的區分

django中將model轉換為dict的方法

[Reinforcement Learning] Model-Free Prediction

JS區分中英文字元的兩種方法: 正則和charCodeAt()方法

MVC中@Html.DisplayFor(p=>p.Id)和 @Model.Id的區別

區分Model-free和Model-based方法

相關推薦