1. 程式人生 > >FPGA機器學習之stanford機器學習第十六堂

FPGA機器學習之stanford機器學習第十六堂

              Reinforcement Learning

               強化學習。這裡舉例子是自主飛行的飛機。控制飛機,如果自主寫程式的話,會很難,所以需要它自學習。

             最好用的地方,就是下棋。不過,怎麼半監督學習演算法。只有下棋的結果,贏和輸,其實也算是監督了。

所以它就會自主的去贏更多的棋,來學習。

          一直採取行動。就是整個過程一直都在訓練著。

                就是在行為過程中,不斷的給獎勵和批評。來優化更好的方案。

MDP如何工作的。

     選擇動作A0,執行新的狀態A1,取決於以前的概率。情況。

這個是獲得的獎勵總和最大。r大於0,小於1.

這樣它就不會不斷執行a0,a1,做正確的事情,使得獎勵最大化。



加1的位置就是我們要走到的地方。就是棋局贏了的 意思。


後面就是的政策價值函式圖。


用盡所有的策略。得出最大值。

值迭代演算法。



其實那裡的.8是0.8的縮略寫法。

政策迭代


對於狀態很多的,傾向使用迭代方法求解。

不知道狀態轉移概率。


微笑本人能力有限,但是我努力的學習,發展,現在寫的可能有點亂套,總有一天我會成為高手的