1. 程式人生 > >「Deep Learning」Note on Gather and Excite Network (GENet)

「Deep Learning」Note on Gather and Excite Network (GENet)

QQ Group: 428014259
Sina Weibo:小鋒子Shawn
Tencent E-mail:[email protected]
http://blog.csdn.net/dgyuanshaofeng/article/details/84179196

SENet之後,Jie Hu和Li Shen等人又提出GENet[1]。

作者:Jie Hu, Li Shen, Samuel Albanie, Gang Sun, Andrea Vedaldi
單位:Momenta, Visual Geometry Group University of Oxford

0 摘要

指出自底向上區域性操作(bottom-up local)雖然可以匹配自然影象的統計資訊,但是可能防止模型捕獲上下文的長範圍的特徵互動。作者提出簡單方法,探索上下文資訊利用(context exploitation)。引出一對操作,聚集gather和啟用excite。聚集gather,用於在某個較大空間範圍內,有效地聚集(aggregate)特徵響應;啟用excit,用於重新分配(redistribute)上面的池化資訊到區域性特徵上。帶有gather-and-excite操作的ResNet-50,可以超越ResNet-101。

1 介紹

context上下文資訊,不僅可以在影象空間上,還可以在特徵空間上,即feature context。著名的auto-context,即appearance context。以前,我們會計算全連線層在輸入影象上的感受野,但是有效的感受野比計算的感受野會小得多[2]。這在一定程度上,說明使用上下文資訊,可以幫助深度網路取得較好的效能。提及SENet裡面使用squeeze操作實現上下文聚集器,squeez操作就是全域性平均值池化。將上下文資訊模組分解為聚集和啟用兩種操作。

2 Gather-Excite框架

受bag-of-visual-words啟發。GE操作如圖1所示。原文描述聚集操作非常正式(複雜),簡單地說,就是在特徵圖上,逐層使用不同大小的濾波器(帶引數或不帶引數)去聚集特徵響應。不同大小就是選擇操作的範圍(extent)。啟用操作就是把聚集操作後收集到的上下文資訊,重新恢復到原來特徵圖的空間大小,然後與之進行相乘。

圖 1:gather-excite操作對

3 模型和實驗

探索和評估Gather-Excite框架的可能化身,即具體實現聚集和啟用的幾種可能。

3.1 無引數的聚集啟用對

可以使用無引數的操作實現聚集-啟用對(GE pairings)。聚集操作,利用不同步長的平均值池化(average pooling)實現。啟用操作,利用resize,sigmoid和multiply實現,其中resize使用最近鄰插值方法。將這種模型記作 G E

θ GE-\theta^{-} 。在殘差單元中,實現這些操作對,如圖2所示。在空間範圍對效能影響上,作者進行了實驗,結果表明,範圍越大,效能越好,如圖3左邊所示。

圖 2:gather-excite模組
圖 3:空間範圍的影響

3.2 有引數的聚集啟用對

可以使用有引數的操作實現聚集-啟用對。聚集操作,使用帶步長的逐層卷積(strided depth-wise convolution)實現。
在空間範圍對效能影響上,作者進行了實驗,結果表明,範圍越大,效能越好,如圖3右邊所示,另外,有引數的模型比無引數的模型還要好
在不同階段加入GE操作對效能影響上,作者進行了實驗,結果表明,單獨某層加入和全部層加入都對效能帶來提升,並且,加入在中、後階段對效能帶來的提升更大,如果考慮計算成本,可以考慮不在階段2加入,如表1所示。

表1:不同階段的影響

SENet可被視為GENet的特定版本,SENet的聚集操作為無引數的全域性平局值池化,啟用操作為全連線子網路。SENet的聚集操作使用有引數的逐層卷積,啟用操作將全連線替換為點卷積,改良後的SENet記作 G E θ + GE-\theta^{+} 。作者進行了實驗,結果表明,改良後的 G E θ + GE-\theta^{+} 效能更好,超越ResNet-50-SE和 G E θ GE-\theta ,以三分之一的計算複雜度接近ResNet-152,如表2所示。

表2:SENet和GENet的比較

3.3 泛化

考慮更深的網路。如表3所示,ResNet-101加入GE後,超越ResNet-152和ResNet-152-SE。

表3:SENet和GENet的比較

考慮移動端卷積網路。如表4所示,雖然可以提升,但是引數量也上來了。因此,naive的GE實現不適合移動端卷積網路。

表4:ShuffleNet和ShuffleNet-GE的比較

考慮CIFAR-10和CIFAR-100資料集,在不同網路上進行了實驗,GE都帶來了提升,見原文Table 5。
考慮影象分類之外的任務,在物體檢測上進行了實驗,Faster R-CNN ResNet-50在MS COCO上的效能為27.3 mAP,GE版本的效能為28.6 mAP,提升了1.3。

4 分析和討論

這部分,作者對GE進行了深入的研究。在學習到的表示、收斂性、特徵重要性上進行了分析。

5 相關工作

圍繞context的工作。

6 結論和未來工作

未來,在語義分割任務上研究GE操作。

[1] Gather-Excite: Exploiting Feature Context in Convolutional Neural Networks NIPS 2018 [paper] [code]
[2] Understanding the Effective Receptive Field in Deep Convolutional Neural Networks NIPS 2016 [paper]