1. 程式人生 > ><Convolutional Neural Network for Paraphrase Identification>

<Convolutional Neural Network for Paraphrase Identification>

進行 種類 AR 分析 興趣 其中 向量 ras 2014年

Yin的這篇論文提出了一種叫Bi-CNN-MI的架構,其中Bi-CNN表示兩個使用Siamese框架的CNN模型;MI表示多粒度的交互特征。Bi-CNN-MI包含三個部分:

  • 句子分析模型 (CNN-SM)

這部分模型主要使用了上述Kal在2014年提出的模型,針對句子本身提取出四種粒度的特征表示:詞、短ngram、長ngram和句子粒度。多種粒度的特征表示是非常必要的,一方面提高模型的性能,另一方面增強模型的魯棒性。

  • 句子交互計算模型 (CNN-IM)

這部分模型主要是基於2011年Socher提出的RAE模型,做了一些簡化,即僅對同一種粒度下的提取特征做兩兩比較。

  • LR或Softmax網絡層以適配任務

模型結構

論文提出的模型主要是基於Kal的模型及Socher的RAE模型的結合體,如下圖:

技術分享圖片

通過模型圖可以看出模型的主要思想:一方面利用Kal的模型進行多種粒度上的特征提取,另一方面采取RAE模型的思想,對提取出來的特征進行兩兩的相似度計算,計算完成的結果通過dynamic pooling的方式進一步提取少量特征,然後各個層次的pooling計算結果平攤為一組向量,通過全連接的方式與LR(或者softmax)層連接,從而適配同義句檢測任務本身。

這個模型具體的計算細節不再贅述了,感興趣的讀者可以直接去看論文。除了提出這種模型結構之外,論文還有一個亮點在於使用了一種類似於語言模型的CNN-LM

來對上述CNN部分的模型進行預訓練,從而提前確定模型的參數。CNN-LM的網絡結構如下圖:

技術分享圖片

CNN-LM模型的訓練預料使用了最終的實驗數據集,即MSRP;另外,由於MSRP的數據規模較小,所以作者又增加了100,000個英文句子語料。CNN-LM模型最終能夠得到word embedding, 模型權值等參數。需要註意的是,這些參數並不是固定的,在之後的句子匹配任務中是會不斷更新的。從後面的實驗結果中可以看出,CNN-LM的作用是顯著的。

實驗結果

論文僅使用了一種數據集,即公認的PI (Paraphrase Identification)任務數據集,MSRP。實驗結果如下:

技術分享圖片

可以看出,CNN-LM的預訓練效果顯著,預訓練後的模型性能很強(但是結果上比之前He提出的模型稍差一些)。

<Convolutional Neural Network for Paraphrase Identification>