1. 程式人生 > >強化學習的歷史和學習部落格網址

強化學習的歷史和學習部落格網址

強化學習推薦學習網站:莫凡部落格https://morvanzhou.github.io/tutorials/machine-learning/reinforcement-learning/

 

1.強化學習的歷史發展

  1. 1956年Bellman提出了動態規劃方法。
  2. 1977年Werbos提出只適應動態規劃演算法。
  3. 1988年sutton提出時間差分演算法。
  4. 1992年Watkins 提出Q-learning 演算法。
  5. 1994年rummery 提出Saras演算法。
  6. 1996年Bersekas提出解決隨機過程中優化控制的神經動態規劃方法。
  7. 2006年Kocsis提出了置信上限樹演算法。
  8. 2009年kewis提出反饋控制只適應動態規劃演算法。
  9. 2014年silver提出確定性策略梯度(Policy Gradents)演算法。
  10. 2015年Google-deepmind 提出Deep-Q-Network演算法。

2.強化學習的介紹

  1. Supervised learning:監督學習有標籤,能告訴你訓練結果的對與錯。可以看成根據監督者的先驗知識提供的先例進行監督學習。
  2. Unsupervised learning:非監督學習無標籤,演算法能夠通過資料之間的關聯性將資料分類進行處理。
  3. Reinforcement learning:強化學習的目標是使得回報最大化。強化學習和非監督學習的關鍵部分就是回報的選擇。強化學習是學習狀態和行為之間的對映關係,以使得數值回報達到最大化。換句話說,在未知採取何種行為的情況下,學習者必須通過不斷嘗試才能發現採取哪種行為能夠產生最大回報。

隨機博弈包括兩個框架:
1.馬爾科夫決策過程(MDP)MDP包括一個智慧體和多個狀態。
2.矩陣博弈矩陣博弈包括多個智慧體和一個狀態。

隨機博弈可以看成是多個智慧體和多個狀態的問題。


3.常用強化學習演算法介紹

強化學習從提出到現在,也差不多半個世紀左右。到目前為止,常見的強化學習的演算法有下面幾種,以及不同的分類。

這裡寫圖片描述

  1. Model-free:不嘗試去理解環境, 環境給什麼就是什麼,一步一步等待真實世界的反饋, 再根據反饋採取下一步行動。
  2. Model-based:先理解真實世界是怎樣的, 並建立一個模型來模擬現實世界的反饋,通過想象來預判斷接下來將要發生的所有情況,然後選擇這些想象情況中最好的那種,並依據這種情況來採取下一步的策略。它比 Model-free 多出了一個虛擬環境,還有想象力。
  3. Policy based:通過感官分析所處的環境, 直接輸出下一步要採取的各種動作的概率, 然後根據概率採取行動。
  4. Value based:輸出的是所有動作的價值, 根據最高價值來選動作,這類方法不能選取連續的動作。
  5. Monte-carlo update:遊戲開始後, 要等待遊戲結束, 然後再總結這一回閤中的所有轉折點, 再更新行為準則。
  6. Temporal-difference update:在遊戲進行中每一步都在更新, 不用等待遊戲的結束, 這樣就能邊玩邊學習了。
  7. On-policy:必須本人在場, 並且一定是本人邊玩邊學習。
  8. Off-policy:可以選擇自己玩, 也可以選擇看著別人玩, 通過看別人玩來學習別人的行為準則。

--------------------- 作者:術君閣 來源:CSDN 原文:https://blog.csdn.net/qq_20499063/article/details/78762596?utm_source=copy 版權宣告:本文為博主原創文章,轉載請附上博文連結!