1. 程式人生 > >論文筆記:Dual Skipping Networks 雙跳網路

論文筆記:Dual Skipping Networks 雙跳網路

Changmao Cheng1∗, Yanwei Fu2∗, Yu-Gang Jiang1†,
Wei Liu3, Wenlian Lu4, Jianfeng Feng4, Xiangyang Xue1
1 School of Computer Science, Fudan University 3 Tencent AI Lab
2 School of Data Science, Fudan University 4 ISTBI, Fudan University

1. 介紹:

神經學公認人的視覺是從粗到細的,右腦粗左腦細。

對於快速閃過的影象,我們大概只能看到低頻資訊。定睛觀察,才能看到高頻資訊。

我們很自然地會問,我們的網路是否具有用短路徑預測粗略資訊和用長路徑預測精細視覺刺激的機制

接下來就是說生物神經是如何啟發我們的。

我們提出一個附屬門控網路,它學習預測在測試階段是否跳過幾個卷積層。

與DenseNets和ResNets中使用的快捷連線不同,我們學習了跳層機制來預測在測試階段是否跳過一個特定層。跳層機制的靈感來自於一次性認知過程中,人腦中只有1%的神經元被使用[28]。

3. 模型

雙跳網路如圖所示這兩個子集與相同的視覺輸入共享,並且構建在幾種型別的模組上,即,共享卷積層、跳過密集塊、轉換層、池和分類層。本節討論了每個砌塊的動力和結構。

每個skip-dense block包含很多密集連結的DenseLayer,DenseLayer被廉價的附屬的Gating控制。

Transition是1x1卷機加pooling,目的是為了調整特徵數量。

在一般結構中,左右子網幾乎相等。

    3.1. Skip-Dense Block

Dense Layer:我們在ResBlock和DenseBlock二選一種選擇了Denseblock

Gating network:用來選擇路徑,我們的門控網路被學習來判斷是否從訓練資料中跳過卷積層。它也可以被認為是一種特殊型別的正則化:如果輸入資料很複雜,那麼選通網路應該傾向於不跳過太多層,反之亦然。這裡,我們利用N×1全連線層作為N維輸入特徵,然後將閾值函式應用於標量輸出。在實際應用中,我們對平均輸入池進行了預處理。從訓練集中學習全連線層的引數,並設計閾值函式來控制學習過程。

Threshold function of gating network:跳過機制的成功與否取決於閾值函式作為估計器的設計和訓練策略。具體地,閾值函式的輸出與卷積層輸出的每個單元相乘,這影響分類的層重要性。

 Transhold function我們選用hard sigmoid:

由於它的一階導數在(0,1)中保持恆定,與sigmoid函式相比,它鼓勵了更靈活的路徑搜尋。

K初始化為1,每歷時增加一個固定值。K斜率越大,結果越容易成為0/1,但是大斜率會造成門控制模組訓練不穩定。K和Densnet的調整是訓練中最複雜的部分。

    3.2. Guide:全域性的半球獲得的資訊,能夠自頂向下的對細節半球產生指導作用。這裡,我們選擇粗分支中最後一個跳過密集塊的輸出特徵,以指導細分支中的最後一個過渡層。具體而言,輸出特徵是雙線性上取樣,並串聯到本地子網中最後一個過渡層的輸入特徵中。粗略級別的反饋資訊的注入對於細粒度物件分類是有益的。

   4.2 跳躍比和錯誤率

從結果可以看出,兩個分支都能夠在一定的選通閾值範圍內產生可接受的精度。正如所預期的,由於識別任務的粒度級別不同,兩個分支的最佳跳過率範圍不同。對於全域性分支,0%乘35%是最優跳躍比範圍。對於區域性分支,0%比20%是最優跳躍比範圍,它比全域性分支更嚴格。好處是,在每個密集層上的學習門控模組使得兩個分支的效能在不同的使用者定義閾值下保持一致。當門限閾值提高到0.5以上時,兩個分支的跳過率迅速增加,錯誤率同步上升,這意味著網路變得無序和表達性弱。我們還注意到,即使沒有對整個網路進行訓練,兩個訓練分支不跳層或略有跳層的效能幾乎保持不變。

結論:受近年來半腦特殊化和粗到細感知研究的啟發,我們提出了一種新穎的左右不對稱層可跳躍網路用於粗到細物體分類。我們利用了一種新的設計理念,使這個網路同時對粗粒度和細粒度的類進行分類。此外,我們提出了由輔助門控網路控制的密集連線的卷積層的跳層行為。在三個資料集上進行的實驗驗證了效能,顯示了我們所提出的網路的有希望的結果。