強化學習(David Silver)2:MDP(馬爾科夫決策過程)
阿新 • • 發佈:2017-10-23
war 觀察 turn 解法 求解 有關 馬爾科夫 函數 使用
1、MP(馬爾科夫過程)
1.1、MDP介紹
1)MDP形式化地強化學習中的環境(此時假設環境完全可以觀察)
2) 幾乎所有強化學習問題都可以形式化為MDP(部分可觀察的環境也可以轉化為MDP????)
1.2、MDP定義
MDP是一個二元組<S,P>,其中S是狀態集合;P是狀態轉移概率
2、MRP(馬爾科夫獎勵過程)
在MP中加入了Reward
Reward在狀態後直接產生(課程中使用的G(GrossReturn),是當前狀態後所有Reward的和,是從T+1時間開始計算的,使用折扣累積的收益)
狀態值函數:某個狀態後的收益總和的期望
貝爾曼方程:
v(st)=R(T)+LAMBDA*
在MRP中,即時收益和action無關;僅和狀態有關,狀態出現後即產生收益
MRP的貝爾曼方程是一個線性方程組,可以直接求解;MRP不可以
MRP的叠代解法:DP/MC/TD
3、MDP(馬爾科夫決策過程)
狀態值函數和動作值函數的關系
最優策略:最優策略的所有狀態值函數都比其它策略的狀態值函數大
最優策略使得值函數達到最優
最優策略使得動作值函數達到最優
最優值函數是從某個最優動作選擇的;最優動作值函數,卻是加和所有狀態值函數(*****因為策略覺得動作選擇;而MDP決定狀態轉移,狀態轉移和策略無關)
最優策略沒有公式解
求解方式:值叠代;策略叠代;Q-learing;Sarsa
4、MDP擴展
無限/連續MDP
部分觀察MDP
無折扣,均值MDP
Question:
1、為什麽說部分可觀察的環境也可以轉化為MDP
強化學習(David Silver)2:MDP(馬爾科夫決策過程)