[Reinforcement Learning] 強化學習介紹

資料探勘 · 發表 2018-10-27 17:53:00

摘要：隨著AlphaGo和AlphaZero的出現，強化學習相關演算法在這幾年引起了學術界和工業界的重視。最近也翻了很多強化學習的資料，有時間了還是得自己動腦筋整理一下。強化學習定義先借用維基百科上對強化學習的標準定義：強化學習（Reinforcement Learning，簡稱R...

隨著AlphaGo和AlphaZero的出現，強化學習相關演算法在這幾年引起了學術界和工業界的重視。最近也翻了很多強化學習的資料，有時間了還是得自己動腦筋整理一下。

強化學習定義

先借用維基百科上對強化學習的標準定義：

強化學習（Reinforcement Learning，簡稱RL）是機器學習中的一個領域，強調如何基於環境而行動，以取得最大化的預期利益。

從本質上看，強化學習是一個通用的問題解決框架，其核心思想是 Trial & Error 。

強化學習可以用一個閉環示意圖來表示：

起源於動物學習心理學的試錯法（trial-and-error），因此符合行為心理學。
尋求探索（exploration）和採用（exploitation）之間的權衡：強化學習一面要採用（exploitation）已經發現的有效行動，另一方面也要探索（exploration）那些沒有被認可的行動，已找到更好的解決方案。
考慮整個問題而不是子問題。
通用AI解決方案。

機器學習是人工智慧的一個分支，在近30多年已發展為一門多領域交叉學科，而強化學習是機器學習的一個子領域。強化學習與機器學習之間的關係可以通過下圖來形式化的描述：

注：上圖中Machine Learning分支應該包含進化演算法（Evolutionary Algorithms）。

強化學習與其他機器學習的不同：

強化學習與監督學習可以參考下圖：

兩者的目標都是學習一個model，而區別在於：

監督學習：

強化學習：

進化演算法（Evolutionary Algorithms，簡稱EA）是通過生物進化優勝略汰，適者生存的啟發而發展的一類演算法，通過種群不斷地迭代達到優化的目標。進化演算法屬於仿生類演算法的一種，仿生類演算法還包括粒子群演算法（PSO）、人工免疫演算法以及如日中天的神經網路演算法等。

進化演算法最大的優點在於整個優化過程是gradients-free的，其思想可以通過下圖表示：

RL和EA雖然都屬於優化問題的求解框架，而且兩者都需要大量的算力，但是兩者有著本質上的區別。

Sutton在其強化學習介紹一書中也重點談到了RL與EA的區別，這裡簡單談一下兩者的區別：

近期隨著RL的研究熱潮不斷推進，很多研究也嘗試通過將EA和RL結合解決優化問題，比如OpenAI通過使用進化策略來優化RL，獲得了突破性的進展[3]。

強化學習分類比較多樣：

下圖為根據環境是否已知進行細分的示意圖：