深度學習與自然語言處理(3)_斯坦福cs224d Lecture 3

原文作者：Rohit Mundra, Richard Socher
原文翻譯：@熊傑([email protected]) && @王昱森([email protected]) && @範築軍老師( [email protected]) && @OWEN([email protected])
內容校正：寒小陽 && 龍心塵
時間：2016年6月
出處：
http://blog.csdn.net/han_xiaoyang/article/details/51711134
http://blog.csdn.net/longxinchen_ml/article/details/51711172

說明：本文為斯坦福大學CS224d課程的中文版內容筆記，已得到斯坦福大學課程@Richard Socher教授的授權翻譯與發表

課堂筆記：第3課

關鍵詞：神經網路，正向計算，反向傳播，神經元，最大化間隔損失，梯度檢驗，引數的哈維初始化，學習速率， ADAGRAD（自適應梯度法）

這是斯坦福CS224d深度學習與自然語言處理的第3課，這節課先會介紹單層和多層神經網路和它們在機器學習分類任務中的應用，接著介紹如何利用反向傳播演算法來訓練這些神經網路模型（在這個方法中，我們將利用偏導數的鏈式法則來層層更新神經元引數）。在給出神經網路以及這些演算法嚴謹的數學定義後，介紹了訓練神經網路的一些實用的技巧和竅門，比如，神經元（非線性激勵），梯度檢驗，引數的Xavier初始化方法，學習速率，ADAGRAD（自適應梯度法）等。最後，我們在神經網路模型的基礎上來建立語言模型

我們發現notes最後語言模型這個部分被略去了，回頭ppt裡面扒出來補充給大家

1 神經網路：基礎

我們在前面的課程中提到，由於大部分資料並非線性可分，線性分類模型在這些資料上的分類效果略顯尷尬，而非線性的分類模型通常能取得更好的效果。如下圖1所示，神經網路模型就是這樣一類具備非線性決策邊界的分類器。從圖上我們可以看到神經網路生成了非線性判定邊界，來對2類樣本做分類，那咱們一起來看看，它是怎麼做到的呢。

圖 1 ︰在圖上可以看到神經網路產生的非線性判定邊界，更好地把2類樣本點分隔開了。這就是神經網路的強大之處（不糾結原始樣本的分佈狀況）。

一點小歷史︰神經網路是受生物學啟發的分類器，因此它也常被稱為人工神經網路（ANN），以區別於生物學上的神經網路。事實上，人類的神經網路複雜性高很多，也比ANN具有更強大的能力，所以即使名字很接近，兩者之間倒沒有那麼多的相似之處。

1.1 神經元

簡單說來，神經元其實就是一個取n個輸入，併產生單一輸出的通用計算單元。每層神經元通過不同的引數(也稱權重)產生不同的輸出結果（通常情況下同一層神經元的輸入值是相同的，只是權重不同）。比較常見的神經元(激勵函式)是”Sigmoid函式”，也叫作”二項邏輯迴歸”單元。這種神經元，對於輸入的 n維向量，通過與n維的權重向量 w和一個偏差標量b做組合運算，輸出一個標量a（咱們也把它叫做標量啟用結果），具體的運算過程如下公式所示：

a=11+exp(−(wTx+b))

其中w是權重，b是偏移量，x是輸入

為了運算的一致性和精簡性，我們也可以把權重向量和偏差變數寫到一個n+1維的向量裡，得到上式的一個等價形式：

a=11+exp(−[wTb]⋅[x1])

你們看出來了，就是把偏移量放作權重的一部分

下圖2是這種神經元的一個直觀一點的解釋：

圖 2 ︰這就是所謂的”二元邏輯迴歸”神經元，輸入向量 x 的各個元素被 w 中對應的權重縮放後求和，加上偏移量b(數學上可以看做對對輸入x做線性的變換)之後放進”Sigmond函式”。

一點小總結：神經元呢，可以看做神經網路的基本組成功能單元，有多種多樣功能(就是對輸入做不同非線性變換)的神經元，它們共同去幫助整個神經網路形成非線性切分的能力。

1.2 單層神經元

剛才看完1個神經元的情況了，也知道它在做的非線性變換(輸入到輸出的運算)是什麼，現在咱們拓展一下，看看對於一組輸入x，一層神經元（其實就是多個神經元）的變換和處理情況，基本的結構，就如下圖3所示。

圖 3 ︰傳說中神經網路的一層（多個”二元邏輯迴歸”神經元），它們的輸入是一致的，都是x。

我們分別用{w(1),⋯,w(m)}，{b1⋯,bm}和{a1⋯,am} 來表示m個神經元的權重向量，偏移量以及激勵輸出，則有一下的結果：

a1=11+exp(w(1)Tx+b1))
⋮
am=11+exp(w(m)Tx+bm))

式子多了看著有點亂，咱們設定一下以下的數學標記，簡化簡化在神經網路中的公式：

σ(z)=⎡⎣⎢⎢⎢⎢⎢⎢⎢11+exp(z1)⋮11+exp(zm)⎤⎦⎥⎥⎥⎥⎥⎥⎥
b=⎡⎣⎢⎢b1⋮bm⎤⎦⎥⎥∈Rm
W=⎡⎣⎢⎢−w(1)T⋮−w(m)T−−⎤⎦⎥⎥∈Rm×n

其中，

z=Wx+b

這樣咱們的二元邏輯迴歸的激勵輸出就可以寫成：

⎡⎣⎢⎢a1⋮am

深度學習與自然語言處理(3)_斯坦福cs224d Lecture 3

1 神經網路：基礎

1.1 神經元

1.2 單層神經元

深度學習與自然語言處理(7)_斯坦福cs224d 語言模型，RNN，LSTM與GRU

深度學習與自然語言處理(8)_斯坦福cs224d RNN，MV-RNN與RNTN

深度學習與自然語言處理(3)_斯坦福cs224d Lecture 3

深度學習與自然語言處理

深度學習與自然語言處理（一）

深度學習與自然語言處理（三）——深度學習運用到自然語言處理領域的成功案例

斯坦福cs224d（深度學習在自然語言處理上的應用）Lecture 2 note2

車萬翔《基於深度學習的自然語言處理》中英文PDF+塗銘《Python自然語言處理實戰核心技術與算法》PDF及代碼

用深度學習解決自然語言處理中的7大問題，文字分類、語言建模、機器翻譯

如何用深度學習做自然語言處理？這裡有份最佳實踐清單

深度學習和自然語言處理的應用和脈絡1-基礎

深度學習在自然語言處理中的應用（一）

深度學習和自然語言處理中的attention和memory機制

深度學習在自然語言處理中的應用綜述

深度學習在自然語言處理中的應用: 集智俱樂部活動筆記

《基於深度學習的自然語言處理》中文PDF+英文PDF+學習分析

李巨集毅深度學習與人類語言處理-introduction

深度學習與人類語言處理-語音識別(part1)

深度學習與人類語言處理-語音識別(part2)

深度學習與人類語言處理-語音識別(part3)

深度學習與自然語言處理(3)_斯坦福cs224d Lecture 3

1 神經網路：基礎

1.1 神經元

1.2 單層神經元

相關推薦