AI學習筆記——求解最優MDP

軟體開發 · 發表 2018-09-22 07:02:17

摘要：上一篇文章介紹了MDP的基本概念，但是我們更關心的是如何尋找到最佳的路徑解決MDP問題。MDP過程中，可以有無數種策略(policy)，找到最佳的路徑實際上就是找到最佳的Policy 來最大化V函式(Value Function)或者Q函式(Action-Value Function)。...

上一篇文章介紹了MDP的基本概念，但是我們更關心的是如何尋找到最佳的路徑解決MDP問題。MDP過程中，可以有無數種策略(policy)，找到最佳的路徑實際上就是找到最佳的Policy 來最大化V函式(Value Function)或者Q函式(Action-Value Function)。

用數學表示式表達出來就是：

其中加星號* 的v和q表示最優的v和q。

還記得上一篇文章中的那個例子嗎？學生學習的的狀態有Facebook, Class1, Class2, Pass, Sleep 6個狀態(State)，每個狀態都有一個或者多個行動(Action)。最優的V函式和Q函式都已求出來了，找到最優策略就是找到最大q*的過程。顯然紅色的路徑就是最優策略，只有沿著這條路徑才能的到最大的獎勵。

同樣的，用Bellman 等式可以得到最優V函式和最優Q函式的關係，以及他們自己的遞迴關係：

同樣的用Bellman等式，我們可以驗證為什麼V(Pass) = 10.

Pass 這個狀態有兩個行動，分別為Study和Pub。Study 對應一個狀態Sleep，Pub對應三個狀態Class1, Class2, 和 Pass。那麼假設γ=1

V(Pass) = Max{+10+0，+1+(0.2x6 + 0.4 8 + 0.4 10)} = Max{10, 8.6} = 10。

用同樣的方法可以驗證每一個狀態的V函式。

當然我們現在只能驗證，無法真正求解最優V函式和Q函式，如果能求解最優Ballman 等式我們就能得到最優的V函式和Q函式進而得到最優的策略。

但是遺憾的是最優Ballman等式並不是線性的，所以不能直接通過解線性方程的方法求得。但是可以通過一些迭代演算法求得，之前的Q-Learning和Sarsa 演算法就是求最優Ballman等式的演算法，當然這些演算法也就是強化學習的演算法了。

文章首發steemit.com 為了方便牆內閱讀，搬運至此，歡迎留言或者訪問我的Steemit主頁

AI學習筆記——求解最優MDP

您可能也會喜歡…