1. 程式人生 > >強化學習--綜述3之強化學習的分類

強化學習--綜述3之強化學習的分類

強化學習的分類

  RL 演算法可以分為基於模型的方法(Model-based)與免模型的方法(Model-free)。
  1)前者主要發展自最優控制領域。通常先通過高斯過程(GP)或貝葉斯網路(BN)等工具針對具體問題建立模型,然後再通過機器學習的方法或最優控制的方法,如模型預測控制(MPC)、線性二次調節器(LQR)、線性二次高斯(LQG)、迭代學習控制(ICL)等進行求解。
  2)而後者更多地發展自機器學習領域,屬於資料驅動的方法。通過大量取樣,估計代理的狀態、動作的值函式或回報函式,從而優化動作策略。

兩者的區別

  1)免模型方法無法從不帶反饋訊號的樣本中學習,而反饋本身就是稀疏的,因此免模型方向樣本利用率很低,而資料驅動的方法則需要大量取樣。

  2)免模型方法不對具體問題進行建模,而是嘗試用一個通用的演算法解決所有問題。而基於模型的方法則通過針對特定問題建立模型,充分利用了問題固有的資訊。免模型方法在追求通用性的同時放棄這些富有價值的資訊。

  3)基於模型的方法針對問題建立動力學模型,這個模型具有解釋性。而免模型方法因為沒有模型,解釋性不強,除錯困難。

  4)相比基於模型的方法,尤其是基於簡單線性模型。而後者更多地發展自機器學習領域,屬於資料驅動的方法。演算法的方法,免模型方法不夠穩定,在訓練中極易發散。

大多數RL都是將DL和免模型方法結合

  DRL 的病根多半在採用了免模型方法上。為什麼多數 DRL 的工作都是基於免模型方法呢?
  1)免模型的方法相對簡單直觀,開源實現豐富,比較容易上手,從而吸引了更多的學者進行研究,有更大可能做出突破性的工作,如 DQN 和 AlphaGo。
  2)當前 RL 的發展還處於初級階段,學界的研究重點還是集中在環境是確定的、靜態的,狀態主要是離散的、靜態的、完全可觀察的,反饋也是確定的問題。

使用模型方法

  基於模型的方法一般先從資料中學習模型,然後基於學到的模型對策略進行優化。
  基於模型的 DRL 方法相對而言不那麼簡單直觀,與 DL 的結合方式相對更復雜,設計難度更高。
  基於模型的方法不僅能大幅降低取樣需求,還可以通過學習任務的動力學模型,為預測學習打下基礎。