《Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences》

阿新 • • 發佈：2018-05-26

概率分布通過 AD 最小當前最大化 gradient function thml

Kalchbrenner’s Paper

Kal的這篇文章引用次數較高，他提出了一種名為DCNN(Dynamic Convolutional Neural Network)的網絡模型，在上一篇（Kim’s Paper）中的實驗結果部分也驗證了這種模型的有效性。這個模型的精妙之處在於Pooling的方式，使用了一種稱為動態Pooling的方法。

下圖是這個模型對句子語義建模的過程，可以看到底層通過組合鄰近的詞語信息，逐步向上傳遞，上層則又組合新的Phrase信息，從而使得句子中即使相離較遠的詞語也有交互行為（或者某種語義聯系）。從直觀上來看，這個模型能夠通過詞語的組合，提取出句子中重要的語義信息（通過Pooling），某種意義上來說，層次結構的feature graph

的作用類似於一棵語法解析樹。

技術分享圖片

DCNN能夠處理可變長度的輸入，網絡中包含兩種類型的層，分別是一維的卷積層和動態k-max的池化層(Dynamic k-max pooling)。其中，動態k-max池化是最大化池化更一般的形式。之前LeCun將CNN的池化操作定義為一種非線性的抽樣方式，返回一堆數中的最大值，原話如下：

The max pooling operator is a non-linear subsampling function that returns the maximum of a set of values (LuCun et al., 1998).

而文中的k-max pooling方式的一般化體現在：

pooling的結果不是返回一個最大值，而是返回k組最大值，這些最大值是原輸入的一個子序列；
pooling中的參數k可以是一個動態函數，具體的值依賴於輸入或者網絡的其他參數；

模型結構及原理

DCNN的網絡結構如下圖：

技術分享圖片

網絡中的卷積層使用了一種稱之為寬卷積(Wide Convolution)的方式，緊接著是動態的k-max池化層。中間卷積層的輸出即Feature Map的大小會根據輸入句子的長度而變化。下面講解一下這些操作的具體細節：

1. 寬卷積

相比於傳統的卷積操作，寬卷積的輸出的Feature Map的寬度(width)會更寬，原因是卷積窗口並不需要覆蓋所有的輸入值，也可以是部分輸入值（可以認為此時其余的輸入值為0，即填充0）。如下圖所示：

技術分享圖片

圖中的右圖即表示寬卷積的計算過程，當計算第一個節點即 $s_{1}$

2. k-max池化

給出數學形式化的表述是，給定一個 $k$

k-max pooling的好處在於，既提取除了句子中的較重要信息（不止一個），同時保留了它們的次序信息（相對位置）。同時，由於應用在最後的卷積層上只需要提取出 $k$

3. 動態k-max池化

動態k-max池化操作，其中的 $k$

K_{l} = max (k_{t o p}, ⌈ \frac{L - l}{L} s ⌉)

其中 $l$

動態k-max池化的意義在於，從不同長度的句子中提取出相應數量的語義特征信息，以保證後續的卷積層的統一性。

4. 非線性特征函數

pooling層與下一個卷積層之間，是通過與一些權值參數相乘後，加上某個偏置參數而來的，這與傳統的CNN模型是一樣的。

5. 多個Feature Map

和傳統的CNN一樣，會提出多個Feature Map以保證提取特征的多樣性。

6. 折疊操作(Folding)

之前的寬卷積是在輸入矩陣 $d \times s$

模型的特點

保留了句子中詞序信息和詞語之間的相對位置；
寬卷積的結果是傳統卷積的一個擴展，某種意義上，也是n-gram的一個擴展；
模型不需要任何的先驗知識，例如句法依存樹等，並且模型考慮了句子中相隔較遠的詞語之間的語義信息；

實驗部分

1. 模型訓練及參數

輸出層是一個類別概率分布（即softmax），與倒數第二層全連接；
代價函數為交叉熵，訓練目標是最小化代價函數；
L2正則化；
優化方法：mini-batch + gradient-based (使用Adagrad update rule, Duchi et al., 2011)

2. 實驗結果

在三個數據集上進行了實驗，分別是(1)電影評論數據集上的情感識別，(2)TREC問題分類，以及(3)Twitter數據集上的情感識別。結果如下圖：

技術分享圖片

可以看出，DCNN的性能非常好，幾乎不遜色於傳統的模型；而且，DCNN的好處在於不需要任何的先驗信息輸入，也不需要構造非常復雜的人工特征。

《Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences》

概率分布通過 AD 最小當前最大化 gradient function thml Kalchbrenner’s Paper Kal的這篇文章引用次數較高，他提出了一種名為DCNN(Dynamic Convolutional Neural Network)的網絡模型，在

《Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences》

Kalchbrenner’s Paper

模型結構及原理

模型的特點

實驗部分

《Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences》

A Convolutional Neural Network for Modelling Sentences

Deep Alignment Network: A convolutional neural network for robust face alignment

MSCNN論文解讀-A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

Building a Convolutional Neural Network (CNN) in Keras

論文翻譯------Stereo Matching by Training a Convolutional Neural Network to Compare Image Patches

Automatic Segmentation of MR Brain Images With a Convolutional Neural Network

<Convolutional Neural Network for Paraphrase Identification>

MACNN-Learning Multi-Attention Convolutional Neural Network for Fine-Grained Image Recognition

論文筆記《The application of two-level attention models in deep convolutional neural network for FGVC》

[深度學習] 影象反捲積的深度積神經網路 Deep Convolutional Neural Network for Image Deconvolution

ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs（閱讀理解）

論文筆記：DRAW: A Recurrent Neural Network For Image Generation

A NEW HYPERSPECTRAL BAND SELECTION APPROACH BASED ON CONVOLUTIONAL NEURAL NETWORK文章筆記

論文學習 | 利用塊分割資訊增強壓縮視訊質量：Enhancing HEVC Compressed Videos with a Partition-Masked Convolutional Neural Network

A Sensitivity Analysis of Convolutional Neural Networks for Sentence Classification

立體匹配之（二）：[MC-CNN] 2015CVPR: Stereo Matching by Training a Convolutional Neural Netw

論文筆記-DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

Understanding Convolutional Neural Networks for NLP

《Convolutional Neural Network Architectures for Matching Natural Language Sentences》

《Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences》

Kalchbrenner’s Paper

模型結構及原理

模型的特點

實驗部分

相關推薦