「Deep Learning」Note on Gather and Excite Network (GENet)

阿新 • • 發佈：2018-11-17

QQ Group: 428014259
Sina Weibo：小鋒子Shawn
Tencent E-mail：[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/84179196

SENet之後，Jie Hu和Li Shen等人又提出GENet[1]。

作者：Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Andrea Vedaldi
單位：Momenta, Visual Geometry Group University of Oxford

0 摘要

指出自底向上區域性操作（bottom-up local）雖然可以匹配自然影象的統計資訊，但是可能防止模型捕獲上下文的長範圍的特徵互動。作者提出簡單方法，探索上下文資訊利用（context exploitation）。引出一對操作，聚集gather和啟用excite。聚集gather，用於在某個較大空間範圍內，有效地聚集（aggregate）特徵響應；啟用excit，用於重新分配（redistribute）上面的池化資訊到區域性特徵上。帶有gather-and-excite操作的ResNet-50，可以超越ResNet-101。

1 介紹

context上下文資訊，不僅可以在影象空間上，還可以在特徵空間上，即feature context。著名的auto-context，即appearance context。以前，我們會計算全連線層在輸入影象上的感受野，但是有效的感受野比計算的感受野會小得多[2]。這在一定程度上，說明使用上下文資訊，可以幫助深度網路取得較好的效能。提及SENet裡面使用squeeze操作實現上下文聚集器，squeez操作就是全域性平均值池化。將上下文資訊模組分解為聚集和啟用兩種操作。

2 Gather-Excite框架

受bag-of-visual-words啟發。GE操作如圖1所示。原文描述聚集操作非常正式（複雜），簡單地說，就是在特徵圖上，逐層使用不同大小的濾波器（帶引數或不帶引數）去聚集特徵響應。不同大小就是選擇操作的範圍（extent）。啟用操作就是把聚集操作後收集到的上下文資訊，重新恢復到原來特徵圖的空間大小，然後與之進行相乘。

圖 1：gather-excite操作對

3 模型和實驗

探索和評估Gather-Excite框架的可能化身，即具體實現聚集和啟用的幾種可能。

3.1 無引數的聚集啟用對

可以使用無引數的操作實現聚集-啟用對（GE pairings）。聚集操作，利用不同步長的平均值池化（average pooling）實現。啟用操作，利用resize，sigmoid和multiply實現，其中resize使用最近鄰插值方法。將這種模型記作 $G E$

− θ − GE-\theta^{-}

G E - θ^{-}

。在殘差單元中，實現這些操作對，如圖2所示。在空間範圍對效能影響上，作者進行了實驗，結果表明，範圍越大，效能越好，如圖3左邊所示。

圖 2：gather-excite模組

圖 3：空間範圍的影響

3.2 有引數的聚集啟用對

可以使用有引數的操作實現聚集-啟用對。聚集操作，使用帶步長的逐層卷積（strided depth-wise convolution）實現。
在空間範圍對效能影響上，作者進行了實驗，結果表明，範圍越大，效能越好，如圖3右邊所示，另外，有引數的模型比無引數的模型還要好。
在不同階段加入GE操作對效能影響上，作者進行了實驗，結果表明，單獨某層加入和全部層加入都對效能帶來提升，並且，加入在中、後階段對效能帶來的提升更大，如果考慮計算成本，可以考慮不在階段2加入，如表1所示。

表1：不同階段的影響

SENet可被視為GENet的特定版本，SENet的聚集操作為無引數的全域性平局值池化，啟用操作為全連線子網路。SENet的聚集操作使用有引數的逐層卷積，啟用操作將全連線替換為點卷積，改良後的SENet記作 $GE-\theta^{+}$ 。作者進行了實驗，結果表明，改良後的 $GE-\theta^{+}$ 效能更好，超越ResNet-50-SE和 $GE-\theta$ ，以三分之一的計算複雜度接近ResNet-152，如表2所示。

表2：SENet和GENet的比較

3.3 泛化

考慮更深的網路。如表3所示，ResNet-101加入GE後，超越ResNet-152和ResNet-152-SE。

表3：SENet和GENet的比較

考慮移動端卷積網路。如表4所示，雖然可以提升，但是引數量也上來了。因此，naive的GE實現不適合移動端卷積網路。

表4：ShuffleNet和ShuffleNet-GE的比較

考慮CIFAR-10和CIFAR-100資料集，在不同網路上進行了實驗，GE都帶來了提升，見原文Table 5。
考慮影象分類之外的任務，在物體檢測上進行了實驗，Faster R-CNN ResNet-50在MS COCO上的效能為27.3 mAP，GE版本的效能為28.6 mAP，提升了1.3。

4 分析和討論

這部分，作者對GE進行了深入的研究。在學習到的表示、收斂性、特徵重要性上進行了分析。

5 相關工作

圍繞context的工作。

6 結論和未來工作

未來，在語義分割任務上研究GE操作。

[1] Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks NIPS 2018 [paper] [code]
[2] Understanding the Effective Receptive Field in Deep Convolutional Neural Networks NIPS 2016 [paper]

「Deep Learning」Note on Gather and Excite Network (GENet)

0 摘要