Hinton Neural Networks課程筆記1e: 監督學習、強化學習、無監督學習，及其應用

阿新 • • 發佈：2019-02-11

這節課介紹了機器學習的幾大框架，分別是監督學習（supervised learning）、強化學習（reinforcement learning）和無監督學習（unsupervised learning）。都是十分古老、傳統、廣泛應用的框架。
types

監督學習

監督學習是根據輸入預測輸出，即學習一個y=f(x;W)。這裡面的W是f引數的顯示錶示，輸入是x，輸出是y。學習過程就是給很多(x,y)對，然後學習W使得f(x;W)儘可能地和y近似。
監督學習分為兩個子類，是根據輸出y的性質定的，分別是分類問題（classification）和迴歸問題（regression）。分類問題的輸出y的可能性有限可數，例如數字識別問題就是分類問題（輸出是數字類別，只有10種可能）。而回歸問題的輸出則是位於實數域內，所以可能性無限。
supervised learning

而對於預測輸出f(x;W)和實際真值輸出y之間的差異性可以有不同的衡量方法，即為損失函式。通常情況下，迴歸問題的損失函式為誤差平方和12(y−f(x;W))2（前面加個12是為了方便求導的時候和指數域上的2對消）。而分類問題則有其他更合適的損失函式。

強化學習

課程中只在這裡提及到了強化學習。強化學習模型根據輸入學習一系列動作（action），而不同的動作會逐漸累計起來，在某些時候就會得到一些reward。模型學習的目的就是最大化這個reward。筆者根據自身記憶可以舉一個相關例項：通常強化學習在遊戲領域應用較多，輸入就是當前的狀態（如前後左右哪裡有敵人，自身的技能CD值，紅藍條等等），應用學習到的模型可以根據當前輸入，輸出一個可以期望獲得最大reward的動作（比如說放個大招），而最後的reward就是遊戲的輸贏（贏了就有1）。上面只是一個簡單的例子，實際使用中，輸入狀態的設計、動作的集合、reward的公式以及根據中間狀態得到一些更加頻繁的reward，都是強化學習領域需要研究學習的內容。
關於強化學習，Hinton也說了幾個比較有意思的部分。首先是reward會隨時間衰減，即太遙遠的reward對該動作的影響會很小（感覺有點類似學習貪婪演算法）。然後強化學習是具有難度的，因為某個reward的獲得往往基於一系列的動作，很難判斷是當前系列動作內的哪個動作使得結果更好（/壞）；其次強化學習的資訊量只來源於時而出現的reward，資訊量不足以支撐學習過多的引數，Hinton給了個2012年的參考值，大概只能學習幾十個幾百個引數（資訊量少是強化學習主要應用於遊戲領域的原因，但也因為遊戲的資料易於獲得，使得現在強化學習不再侷限於少量引數了，AlphaGo的深度網路引數不只幾十個）。
reinforcement learning

無監督學習

無監督學習即沒有任何真值y，純粹根據輸入資料x的分佈進行學習。
Hinton先抱怨了一下無監督學習一直不受重視的學術定位，然後給出了無監督學習的很多應用方向。
首先是學習資料的另一種中間表示（例項就是AutoEncoder系列），這種中間表示再作為之後監督學習或者強化學習的輸入。Hinton還舉了個例子，學習到某個平面的距離這個任務可以使用兩張圖片之間的差異性學習（即無監督的），而不需要每次都去撞大腳趾頭來學習（即強化學習）。
aim1
無監督學習還可以用於學習資料的低維表示，即俗稱的降維。這裡有一個基本假設就是大多數高維資料（如影象這種自由度幾萬的）實際上都位於某個低維流型之上或附近，從而把高維資料用低維流型對應的特徵表示，可以保留絕大多數有用資訊的同時，降低維數。而維數的降低就可以使得後續學習更加高效方便。Hinton還舉了一個PCA的例項，實際上PCA就是假設的流型為超平面的降維。
aim2

另外，無監督學習還可以學習一種輸入的高維經濟表示，這個經濟筆者理解為記憶體之類的佔用量少。舉了兩個例子：第一個是學習到二值的特徵，則只需要一個bit；第二個是學習到0附近的特徵值，也可以減少bit表示。筆者想到的一個相關例項為Hopfield Net。
aim3

最後一個目的是學習一種稀疏表示。Hinton提到了聚類（clustering）問題實際上就是求取的一種特殊的稀疏表示（新學到的特徵維數等於聚類數，然後特徵即為所屬類別為1，其他類別為0）。
aim4

這裡從文中挑一些有意思的點記錄一下，方便之後查詢：
1. 強化學習的衰減reward
2. 有一些資訊是可以通過無監督學習到的，所以可以在有監督之前加入無監督，應該會在資料集很大，但真值較少的情況下很有用。
3. 無監督的幾個應用方向：降維、特徵表示（稀疏、經濟、中間特徵）
4. PCA是降維到一個超平面流型上面
5. 聚類其實是在學習一種稀疏表示

Hinton Neural Networks課程筆記1e: 監督學習、強化學習、無監督學習，及其應用

監督學習

強化學習

無監督學習

Hinton Neural Networks課程筆記1e: 監督學習、強化學習、無監督學習，及其應用

Hinton Neural Networks課程筆記3e：如何利用梯度值訓練網路（學習策略和過擬合抑制）

Hinton Neural Networks課程筆記3a：線性神經元的學習演算法

Hinton Neural Networks課程筆記3c：學習邏輯斯蒂迴歸

Hinton Neural Networks課程筆記2d：為什麼感知機的學習演算法可以收斂

Hinton Neural Networks課程筆記4a：使用神經網路做邏輯推理

Hinton Neural Networks課程筆記1b：神經網路模擬的大腦機理

Hinton Neural Networks課程筆記2b：第一代神經網路之感知機

Hinton Neural Networks課程筆記2e：感知機的侷限性

Hinton Neural Network課程筆記1a：為什麼需要機器學習？

Hinton Nerual Networks課程筆記9d：貝葉斯方法入門

吳恩達-深度學習-課程筆記-8: 超參數調試、Batch正則化和softmax( Week 3 )

[CVPR2015] Is object localization for free? – Weakly-supervised learning with convolutional neural networks論文筆記

Flower classification using deep convolutional neural networks 閱讀筆記

[機器學習入門] 李巨集毅機器學習筆記-15 （Unsupervised Learning: Word Embedding；無監督學習：詞嵌入）

Towards End-to-end Text Spotting with Convolutional Recurrent Neural Networks閱讀筆記

Deep Learning 16：用自編碼器對資料進行降維_讀論文“Reducing the Dimensionality of Data with Neural Networks”的筆記

Channel Pruning for Accelerating Very Deep Neural Networks 演算法筆記

一種用迴歸神經網路學習說話人嵌入的無監督神經網路預測框架

機器學習（十六）無監督學習、聚類和KMeans聚類

Hinton Neural Networks課程筆記1e: 監督學習、強化學習、無監督學習，及其應用

監督學習

強化學習

無監督學習

相關推薦