Language Modeling with Gated Convolutional Networks

阿新 • • 發佈：2018-02-20

raw eight 性問題 2個預測 out vanish 上下文模型

語言模型

技術分享圖片

所謂的語言模型，即是指在得知前面的若幹個單詞的時候，下一個位置上出現的某個單詞的概率。

最樸素的方法是N-gram語言模型，即當前位置只和前面N個位置的單詞相關。如此，問題便是，N小了，語言模型的表達能力不夠。N大了，遇到稀疏性問題，無法有效的表征上下文。

LSTM模型一般會將單詞embedding到連續空間，然後輸入進LSTM，從而有效的表征上下文。但LSTM的問題在於，作為遞歸模型，當前狀態依賴於上一狀態，並行化受到限制。

門限卷積

技術分享圖片

所謂的門限卷積，其核心在於為卷積的激活值添加一個門限開關，來決定其有多大的概率傳到下一層去。下面一步步對上圖進行解析。

首先，將單詞embedding到連續空間；即上圖中的第二部分Lookup Table。這樣，單詞序列就能表現為矩陣了。

然後就是卷積單元了（上圖中的第三部分），與普通卷積不同，門限卷積在這裏分為兩部分，一部分是卷積激活值，即B，該處於普通卷積的不同在於沒有用Tanh，而是直接線性。另一部分是門限值，即A，A也是直接線性得到，但會經過一個sigmoid運算符。

之後就是門限單元，A和B進行element-wise的相乘，得到卷積後的結果。卷積單元和門限單元加起來形成一個卷積層。

技術分享圖片

經過多個這樣的卷積層之後，再將其輸入到SoftMax中，得到最後的預測。

細節

在做卷積層的時候，需要不讓第i個輸出值看到i以後的輸入值。這是由語言模型的特性決定的，需要用i之前的信息來預測i。為了達到這樣的效果，需要將輸入層進行偏移，偏移k/2個單位，其中k是卷積的寬度，偏移後開頭空缺的部分就用0進行padding。

由於residual network的強大能力，在真正的實現裏，會把卷積單元和門限單元包在一個residual block裏。

在最後的softmax層，普通的softmax會因為詞表巨大而非常低效。因而選用adaptive softmax。adaptive softmax可以為高頻詞分配更多的空間而給低頻次分配比較少的空間。

門限機制

LSTM中有input門和forget門兩種，這兩種缺一則會導致有些信息的缺失。而卷積中，經過實驗，不需要forget gate。

技術分享圖片

而LSTM中使用的input門，如上。這種在卷積上卻容易導致vanishing問題。因為tanh‘和σ’都是小於1的值。

因而，在卷積上，使用：

技術分享圖片

該方法存在一路使得X的導數可以不被downscale的傳下去。

實驗

Setup

使用Google Billion Word和WikiText-103兩種數據集。
使用perplexity來進行衡量結果。
使用Nesterov’s momentum算法來訓練，momentum設為0.99。
weight normalization.
gradient clipping to 0.1
使用Kaiming initialization
learning rate 從[1., 2.]中uniformly選取

效果測試

技術分享圖片

單GPU上效果最好。

性能測試

技術分享圖片

Throughput是指在並行化條件下最大輸出。
Responsiveness是指序列化的處理輸入。
由表可知，CNN本身的處理速度非常快。而LSTM在並行化後也能擁有很高的速度。究其原因，是在cuDNN中對LSTM有特別的優化，而對1-D convolution卻沒有。但即便如此，CNN仍然完勝。

不同門限測試

技術分享圖片

GTU: tanh(X*W+b)?σ(X*V+c)
GLU: (X*W+b)?σ(X*V+c)
ReLU: X?(X>0)
Tanh: tanh(X*W+b)

非線性模型測試

上一個實驗證明了Gated linear unit深受Linear unit的好處。這裏評測一下GLU和純線性模型的比較。

技術分享圖片

Bilinear: (X*W+b)?(X*V+c)

純Linear模型同5-gram模型效果類似。

模型深度測試

技術分享圖片

Context Size測試

技術分享圖片

訓練測試

技術分享圖片

缺點

卷積不似LSTM那樣靈活，輸入只能是定長。

Language Modeling with Gated Convolutional Networks

raw eight 性問題 2個預測 out vanish 上下文模型語言模型所謂的語言模型，即是指在得知前面的若幹個單詞的時候，下一個位置上出現的某個單詞的概率。最樸素的方法是N-gram語言模型，即當前位置只和前面N個位置的單詞相關。如此，問題便是，N小

Language Modeling with Gated Convolutional Networks

語言模型

門限卷積

細節

門限機制

實驗

Setup

效果測試

性能測試

不同門限測試

非線性模型測試

模型深度測試

Context Size測試

訓練測試

缺點

Language Modeling with Gated Convolutional Networks

acl2018---Aspect Based Sentiment Analysis with Gated Convolutional Networks論文閱讀筆記

Note_Fast Image Processing with Fully-Convolutional Networks

Multi-Oriented Text Detection with Fully Convolutional Networks

論文Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks實現之網路模型搭建及訓練

論文Multi-Perspective Sentence Similarity Modeling with Convolution Neural Networks實現之資料集製作

【論文詳解】DPED：DSLR-Quality Photos on Mobile Devices with Deep Convolutional Networks

How to do Deep Learning on Graphs with Graph Convolutional Networks

【論文閱讀】Learning Spatiotemporal Features with 3D Convolutional Networks

Learning Spatiotemporal Features with 3D Convolutional Networks學習筆記

《SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS》論文閱讀

Multi-Perspective Sentence Similarity Modeling with Convolutional Neural Networks的理解以及翻譯

閱讀筆記：ImageNet Classification with Deep Convolutional Neural Networks

中文版 ImageNet Classification with Deep Convolutional Neural Networks

論文筆記 Locality-Sensitive Deconvolution Networks with Gated Fusion for RGB-D Indoor Semantic Segmentation

顯著性論文閱讀Saliency Detection with Recurrent Fully Convolutional Networks

19.FlowNet: Learning Optical Flow with Convolutional Networks

FlowNet: Learning Optical Flow with Convolutional Networks

Recurrent Neural Networks: The Powerhouse of Language Modeling

解讀： FlowNet learning optical flow with convolutional networks

Language Modeling with Gated Convolutional Networks

語言模型

門限卷積

細節

門限機制

實驗

Setup

效果測試

性能測試

不同門限測試

非線性模型測試

模型深度測試

Context Size測試

訓練測試

缺點

相關推薦