1. 程式人生 > >Investigating Capsule Networks with Dynamic Routing for Text Classification

Investigating Capsule Networks with Dynamic Routing for Text Classification

探索使用動態路由的膠囊網路進行文字分類,提出三種策略穩定動態路由來減輕噪音膠囊的分佈,這些膠囊可能包含背景資訊,或是訓練不好。膠囊網路獲得很好的分類效果,而且訓練多標籤的效果好於單標籤

1 Introduction

文章或是句子建模是NLP的基礎問題,如果組成,層次,結構都考慮的話,很是複雜。如果一個短語“US election”可能分為政治類,但是無法預測為是否是作者喜歡的,或是作者對於這篇文章的態度是更自由的或是更保守的。

早期的文字建模使用BoW的效果比較差,意味著理解單獨一個詞語獲得n元模型是很重要的,所以word embedding獲得巨大矚目是可以理解的。為了使建模獲得更好的表示,究竟建模獲得了什麼。普遍的方法是把文本當做序列,關注中間特徵,表示模型包括CNN,LSTM,另一個方法是忽略詞的順序,把他們的組成看成一體,包括概率主題模型,和Earth Mover’s Distance based modeling。

這兩種方法的計算視角是不同的,在神經網路中,空間模式聚集在低層,這是為了獲得更高一級的表示。所以,使用迴圈的方式獲得文字建模。例如,CNN的卷積探測器抽取一個向量序列的本地特徵,並採用max-pooling獲得最好的特徵,它層次級式地在多種水平上建立了不同的管道抽取特徵,但是CNN無法有效在網格上覆制特徵。

2 Our Model

模型包括兩層:n-gram的卷積層,原始的膠囊層,卷積膠囊層,和全連線的膠囊層。另外,提出兩個膠囊網路連線這4部分。

2.1 N-gram Convolutional Layer

2.2 Primary Capsule Layer

2.2.1 Child-Parent Relationships

2.3 Dynamic Routing

2.4 Convolutional Capsule Layer

2.5 Fully Connected Capsule Layer

2.6 The Architectures of Capsule Network

Capsule-A和Capsule-B是兩種網路,不同之處是如何連線這四部分。

Capsule-A使用embedding層把每一個詞對映為300維(V=300)的詞向量,傳入3-gram的卷積層,32個filter(K

1=3 ),stride=1,ReLU啟用函式,其他層都是capsule層,由B*d個原始capsule層開始,有32個filter(C=32),再傳入3*C*d*d(K2=3 )的卷積膠囊層,有16個filter(D=16),最優是一個全連線膠囊層。

每個膠囊有16維(d=16),他們的norm可以表示現有capsule的概率,膠囊層由轉換矩陣連線,每個連線都和路由係數相乘,路由西遊動態的由同意機制計算獲得。

Capsule-B和Capsule-A相似,不同的是在卷積層使用的n-gram的視窗是3,4,5,最後的全連線膠囊層輸入到average-pooling層獲得最後的膠囊,所以,capsule-B可以更好捕獲文字的表示資訊。

3 Experimental Setup

3.1 Experimental Datasets

3.2 Implementation Details

word2vec=300

batch size:AG=50,other=25

優化器:Adam

learning rate=1e-3

3.3 Baseline methods

4 Experimental Results

4.1 Quantitative Evaluation

4.2 Ablation Study

5 Single-Label to Multi-Label Text Classification

與單標籤相比,多標籤的類別空間從n擴充套件到2n ,所以需要更多的訓練,

5.1 Connection Strength Visualization

為了清楚地顯示膠囊層之間的連線強度,我們移除卷積膠囊層並且直接使初級膠囊層和全連線膠囊層,其中初級膠囊表示膠囊形式的N-gram短語。

連線強度顯示了每個初級膠囊對於文字類別的重要性,就像一個平行關注機制(parallel attention mechanism)。這個可以讓膠囊網路識別文字中的多個類別,即使模型是在單標籤文件上進行培訓。由於空間有限,我們選擇了多個來自Reuters Multi-label的標籤文件,其類別標籤(即Interest Rates利率和Money/Foreign Exchange貨幣/外匯交易)通過我們的模型以高置信度(p> 0.8)被正確預測(完全正確),這些資料在表6中有報告出來。像”Interest Rates”和”Money/Foreign Exchange”這類的特定短語用紅色突出顯示。我們使用標籤雲來顯示利率和貨幣/外匯類別的3-gram短語。連線強度越大,字型越大。從結果中,我們觀察到膠囊網路可以正確識別並劃分關於文字類別的重要短語。表6所示(底線)的直方圖,用於顯示初級膠囊和全連線膠囊之間的連線強度強度。

6 Related Work

提出了一種新型的神經網路,利用膠囊的概念來改善CNN和RNN的表徵侷限性。(Hinton等,2011)首先介紹了“膠囊”的概念,以解決CNN和RNN的代表性侷限性。具有變換矩陣的膠囊允許網路自動學習部分 - 整體關係。因此,(Sabour等,2017)提出了膠囊網路,其用向量輸出膠囊代替了CNN的標量輸出特徵檢測器,並通過協議路由來代替最大池化。

7 Conclusion