1. 程式人生 > >Udacity強化學習系列(二)—— 馬爾科夫決策過程(Markov Decision Processes)

Udacity強化學習系列(二)—— 馬爾科夫決策過程(Markov Decision Processes)

說到馬爾科夫Markov,大家可能都不陌生,陌生的[連結往裡走](https://baike.baidu.com/item/%E9%A9%AC%E5%B0%94%E5%8F%AF%E5%A4%AB%E8%BF%87%E7%A8%8B/2952385?fromtitle=%E9%A9%AC%E5%B0%94%E7%A7%91%E5%A4%AB%E8%BF%87%E7%A8%8B&fromid=8577940&fr=aladdin)。
Markov決策一般場景我們仍然按Udacity強化學習系列(一)中的例子來說。
![Markov](https://img-blog.csdn.net/2018091615462799?watermark/2/text/aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L3dvYWk4MzM5/font/5a6L5L2T/fontsize/400/fill/I0JBQkFCMA==/dissolve/70)