1. 程式人生 > >強化學習(David Silver)2:MDP(馬爾科夫決策過程)

強化學習(David Silver)2:MDP(馬爾科夫決策過程)

war 觀察 turn 解法 求解 有關 馬爾科夫 函數 使用

1、MP(馬爾科夫過程)

1.1、MDP介紹

1)MDP形式化地強化學習中的環境(此時假設環境完全可以觀察)

2) 幾乎所有強化學習問題都可以形式化為MDP(部分可觀察的環境也可以轉化為MDP????)

1.2、MDP定義

MDP是一個二元組<S,P>,其中S是狀態集合;P是狀態轉移概率

2、MRP(馬爾科夫獎勵過程)

在MP中加入了Reward

Reward在狀態後直接產生(課程中使用的G(GrossReturn),是當前狀態後所有Reward的和,是從T+1時間開始計算的,使用折扣累積的收益)

狀態值函數:某個狀態後的收益總和的期望

貝爾曼方程:

v(st)=R(T)+LAMBDA*

在MRP中,即時收益和action無關;僅和狀態有關,狀態出現後即產生收益

MRP的貝爾曼方程是一個線性方程組,可以直接求解;MRP不可以

MRP的叠代解法:DP/MC/TD

3、MDP(馬爾科夫決策過程)

狀態值函數和動作值函數的關系

最優策略:最優策略的所有狀態值函數都比其它策略的狀態值函數大

最優策略使得值函數達到最優

最優策略使得動作值函數達到最優

最優值函數是從某個最優動作選擇的;最優動作值函數,卻是加和所有狀態值函數(*****因為策略覺得動作選擇;而MDP決定狀態轉移,狀態轉移和策略無關)

最優策略沒有公式解

求解方式:值叠代;策略叠代;Q-learing;Sarsa

4、MDP擴展

無限/連續MDP

部分觀察MDP

無折扣,均值MDP

Question:

1、為什麽說部分可觀察的環境也可以轉化為MDP

強化學習(David Silver)2:MDP(馬爾科夫決策過程)