AI學習筆記——求解最優MDP
上一篇文章介紹了MDP的基本概念,但是我們更關心的是如何尋找到最佳的路徑解決MDP問題。MDP過程中,可以有無數種策略(policy),找到最佳的路徑實際上就是找到最佳的Policy 來最大化V函式(Value Function)或者Q函式(Action-Value Function)。
用數學表示式表達出來就是:


其中加星號* 的v和q表示最優的v和q。
還記得上一篇文章中的那個例子嗎?學生學習的的狀態有Facebook, Class1, Class2, Pass, Sleep 6個狀態(State),每個狀態都有一個或者多個行動(Action)。最優的V函式和Q函式都已求出來了,找到最優策略就是找到最大q*的過程。顯然紅色的路徑就是最優策略,只有沿著這條路徑才能的到最大的獎勵。

同樣的,用Bellman 等式可以得到最優V函式和最優Q函式的關係,以及他們自己的遞迴關係:

同樣的用Bellman等式,我們可以驗證為什麼V(Pass) = 10.
Pass 這個狀態有兩個行動,分別為Study和Pub。Study 對應一個狀態Sleep,Pub對應三個狀態Class1, Class2, 和 Pass。那麼假設γ=1
V(Pass) = Max{+10+0,+1+(0.2x6 + 0.4 8 + 0.4 10)} = Max{10, 8.6} = 10。
用同樣的方法可以驗證每一個狀態的V函式。
當然我們現在只能驗證,無法真正求解最優V函式和Q函式,如果能求解最優Ballman 等式我們就能得到最優的V函式和Q函式進而得到最優的策略。
但是遺憾的是最優Ballman等式並不是線性的,所以不能直接通過解線性方程的方法求得。但是可以通過一些迭代演算法求得,之前的Q-Learning和Sarsa 演算法就是求最優Ballman等式的演算法,當然這些演算法也就是強化學習的演算法了。
文章首發steemit.com 為了方便牆內閱讀,搬運至此,歡迎留言或者訪問我的Steemit主頁