強化學習--綜述3之強化學習的分類

阿新 • • 發佈：2018-11-07

強化學習的分類

RL 演算法可以分為基於模型的方法(Model-based)與免模型的方法(Model-free)。
1）前者主要發展自最優控制領域。通常先通過高斯過程(GP)或貝葉斯網路(BN)等工具針對具體問題建立模型,然後再通過機器學習的方法或最優控制的方法,如模型預測控制(MPC)、線性二次調節器(LQR)、線性二次高斯(LQG)、迭代學習控制(ICL)等進行求解。
2）而後者更多地發展自機器學習領域,屬於資料驅動的方法。通過大量取樣,估計代理的狀態、動作的值函式或回報函式,從而優化動作策略。

兩者的區別

1）免模型方法無法從不帶反饋訊號的樣本中學習,而反饋本身就是稀疏的,因此免模型方向樣本利用率很低,而資料驅動的方法則需要大量取樣。

2）免模型方法不對具體問題進行建模,而是嘗試用一個通用的演算法解決所有問題。而基於模型的方法則通過針對特定問題建立模型,充分利用了問題固有的資訊。免模型方法在追求通用性的同時放棄這些富有價值的資訊。

3）基於模型的方法針對問題建立動力學模型,這個模型具有解釋性。而免模型方法因為沒有模型,解釋性不強,除錯困難。

4）相比基於模型的方法,尤其是基於簡單線性模型。而後者更多地發展自機器學習領域,屬於資料驅動的方法。演算法的方法,免模型方法不夠穩定,在訓練中極易發散。

大多數RL都是將DL和免模型方法結合

DRL 的病根多半在採用了免模型方法上。為什麼多數 DRL 的工作都是基於免模型方法呢？
1）免模型的方法相對簡單直觀,開源實現豐富,比較容易上手,從而吸引了更多的學者進行研究,有更大可能做出突破性的工作,如 DQN 和 AlphaGo。
2）當前 RL 的發展還處於初級階段,學界的研究重點還是集中在環境是確定的、靜態的,狀態主要是離散的、靜態的、完全可觀察的,反饋也是確定的問題。

使用模型方法

基於模型的方法一般先從資料中學習模型,然後基於學到的模型對策略進行優化。
基於模型的 DRL 方法相對而言不那麼簡單直觀,與 DL 的結合方式相對更復雜,設計難度更高。
基於模型的方法不僅能大幅降低取樣需求,還可以通過學習任務的動力學模型,為預測學習打下基礎。

強化學習--綜述3之強化學習的分類

強化學習的分類

兩者的區別

大多數RL都是將DL和免模型方法結合

使用模型方法

強化學習--綜述3之強化學習的分類

強化學習--綜述2之強化學習的泡沫

XHTML學習筆記(3)之自適應高度

Caffe深度學習進階之Cifar-10分類任務（上）

OpenGl學習筆記3之模型變換、檢視變換、投影變換、視口變換介紹

cocos2d-x 學習日誌(3)之QQ平臺接入

麥子學院學習視頻之機器學習(1):1.1 機器學習介紹

[GAN學習系列3]採用深度學習和 TensorFlow 實現圖片修復(上）

[GAN學習系列3]採用深度學習和 TensorFlow 實現圖片修復(中）

[GAN學習系列3]採用深度學習和 TensorFlow 實現圖片修復(下）

葉梓老師開講0基礎學習人工智慧人工智慧之機器學習與深度學習-6術語辨析——雲端計算

葉梓老師開講0基礎學習人工智慧人工智慧之機器學習與深度學習-6術語辨析——大資料

TensorsFlow學習筆記3----面向機器學習初學者的MNIST教程（MNIST For ML Beginners）

深度強化學習綜述(上)

乾貨滿滿的深度強化學習綜述（中文）

強化學習系列3：Open AI的baselines和Spinning Up

強化學習綜述

增強學習（強化學習）基礎之蒙特卡洛方法

【深度學習介紹系列之二】——深度強化學習：卷積神經網路

機器學習之強化學習

強化學習--綜述3之強化學習的分類

強化學習的分類

兩者的區別

大多數RL都是將DL和免模型方法結合

使用模型方法

相關推薦