Path Aggregation Network for Instance Segmentation 論文閱讀
寫在最前面:最近兩個周心情浮躁,偶爾讀了讀,所以僅是翻譯,未提出自己的問題。
這篇文章是例項分割方向文獻,Mask R-CNN的改進。其中參考了很多大佬的現有的理解,可能參考的東西太多,有疏漏。提示:排版對手機不友好。
原文地址:Path Aggregation Network for Instance Segmentation
參考譯文:例項分割--(PANet)Path Aggregation Network for Instance Segmentation
論文的背景
由何凱明等人提出的Mask R-CNN[1]的網路架構,可以很好的解決例項分割的問題。本論文基於Mask R-CNN,進一步將低層和高層的特徵進行融合。具體來說,特徵金字塔網路提供了一個自上而下的路徑增強語義特徵的流動,PANet則是提供了一個自下而上的增強路徑。從ROIAlign上取樣候選區域得到的多個特徵網格,通過自適應特徵池化做融合操作用於後續預測。在預測時,本論文結合了全卷積網路(FCN)和全連線層(
論文內容
1、論文結構
Section 1(Introduction):
對Mask R-CNN使用的特徵提取以及掩模生成做了一個簡單的介紹,資料量日益增加的資料集對當前演算法的提升也提供了可能性,並介紹了分類方向的一些可借鑑的方法。引出本文PANet,介紹了該演算法的優越性和貢獻,通過實驗結果說明演算法的高精度。
Section 2 (Related Work):
對基於區域推薦的R-CNN系列和分割為基礎系列的論文進行了簡單的說明,闡述了不同層次的特徵對於物體識別的貢獻,對更大的情景區域的運用情況做了簡短介紹。
Section 3 (Framework):
對論文中的演算法網路框架進行了闡述,包括自下而上的路徑增強、自適應特徵池化和全連線融合。
Section 4 (Experiments):
將該演算法在不同的資料集上進行測試對比,說明了演算法的優越性。
Section 5 (Conclusion):
論文總結和展望。
2、Introduction
Mask R-CNN基於Fast R-CNN[2]和Faster R-CNN[3],運用全卷積網路(FCN)做掩模的預測、邊界框迴歸和分類任務。為了達到高效能,Mask R-CNN運用特徵金字塔網路(FPN)[4]提取網內的特徵結構,使用具有側面連線的自上而下的路徑增加強語義特徵的流動。
圖1 自上而下的網路增強的特徵金字塔網路
例項分割的進步離不開資料集的發展,論文中主要介紹了一下實驗用到的三個資料集:COCO[5]、Cityscapes[6]和MVD[7]。其中COCO資料集[1]包含了200k(目前網站顯示有330k張圖片,已經有超過200k張圖片得到了標註)張圖片,每張圖中的大部分例項都有複雜的空間結構。
圖2 COCO資料集的樣例
Cityscapes[2]和MVD資料集則提供了大量的街道的不同交通場景,包括了模糊、高度重疊和極小的例項。
圖3 Cityscapes資料集中細化的場景
A、Our Findings
研究表明,特徵資訊傳播可以在Mask R-CNN中進一步得到運用,以得到更好的結果。具體來說,低層次的特徵資訊對大型的例項分類比較有用。但是現有的網路結構中,低層次的結構到高層次特徵(topmost feature)間有較長的距離,使得低層次得位置資訊較難傳到高層去。
另外,每個候選區域都是由一個特徵層次上的特徵網路池化得到的,是一種基於經驗(heuristically)的做法。這個過程可以進行改進,因為在其他層次丟棄掉的資訊也許對最後的預測有用。最後掩模的預測是在一個view(檢視??)上,丟失了收集不同資訊(??)的機會。
B、Our Contribution
如下圖所示,文章中一個PANet網路架構:
圖4 PANet的網路結構
- (a)部分是FPN網路結構,第一次使用橫向連線(Lateral Connection);
- (b)部分是自下而上的路徑增強路徑,使得高低層的資訊得到互動,將低層次的位置資訊得到了更好的利用;
- (c)部分自適應特徵卷積層,用於恢復每個候選區域和所有特徵層次之間被破壞的資訊路徑,聚合每個特徵層次上的每個候選區域,避免任意分配的結果;
- (d)部分同Mask R-CNN一樣,對B-Box進行預測;
- (e)部分使用一個小型(全連線)層用於補充掩模的預測,這能夠捕獲每個候選區域不同檢視,與Mask R-CNN原始的FPN有互補作用。通過融合兩個檢視,資訊的多樣性會增加,可以得到預測的更好的掩模。
模型的前兩個元件是目標檢測和例項分割共享的,這大大提高了兩個任務的效能。
C、Experience Results
經過實驗,本文的方法在多個數據集上都達到了頂尖的效果。以ResNet-50為基礎網路,該演算法在目標檢測和例項分割雙任務上超過了2016年的COCO最佳方法,並且還只是測試單尺度的效能。在COCO2017比賽中,獲得了例項分割第一,目標檢測任務第二。同時本文還在CityScapes和MVD資料集上進行了測試,均達到了一流的效果。
3、Related Work
A、Instance Segmentation
目前流行著兩種例項分割的方法:
- 基於區域推薦的方法:這是一種相對更加流行的方法,與物體檢測強烈相關。R-CNN[8]採用優於滑窗法的Selective Search對影象中最有可能包含物體的區域搜尋,然後送進特徵提取的網路(CNN),Fast/Faster R-CNN和SPPNet[9]則通過池化全域性特徵對映來加速該過程。更早的研究中,將從MCG得到的候選掩模送入特徵提取網路,同時利用CFM和MNC等方法將特徵進行融合,以得到更好的效率。還有的方法是將產生的例項掩模作為一種推薦或者最後的結果,Mask R-CNN就是基於這種思路的一種有效的架構。
- 基於分割的方法:首先學習特定的設計轉換或例項邊界,然後將例項掩模從預測轉換中解碼出來。DIN從物體檢測和語義分割兩方面進行融合預測結果。有的方法使用圖模型(?)來推斷例項順序,使用RNN在每一步進行推薦例項中得到了應用。
B、Multi-level Feature
不同層的特徵常被用來做影象識別,SharpMask和LPP均採用融合特徵以獲得精細分割,而FCN和U-Net通過跳連線(skip-connection)融合來自低層的資訊,FPN和TDM均使用了側向連線進行路徑增強提高物體檢測的效果。與將最高解析度的特徵融入到池化特徵中的TDM不同,SSD、DSSD、MS-CNN和FPN均將候選區域分配到合適的特徵層次用於推斷。本論文采用了FPN為基準,並對FPN進行了大幅度的增強。
ION和Hypernet串聯了來自不同層次的特徵網格,以得到更好的預測結果。但是需要一系列複雜的歸一化、串聯和降維等操作,相比之下,本文提出的方法更加的簡單。
針對每個候選區域,[10]融合了不同源的特徵網格。但是這種方法是在不同尺度的輸入上進行了特徵提取,然後利用特徵融合(最大池化操作)改善來自輸入圖片金字塔的特徵選擇。該論文使用的是在網路內部特徵結構下的所有特徵層次的資訊,輸入的資料為單尺度,支援端到端的訓練。
C、Larger Context Region
[11] 使用foveal結構的對每個候選區域的特徵進行池化,用於找到不同解析度區域下的上下文資訊。更大區域的特徵池化可以提供更多的周圍的上下文資訊,例如,PSPNet、ParseNet在語義分割上使用全域性池化,極高地提升了效能。該論文中的掩模預測分支同樣支援獲取全域性的資訊,但是技術完全不同。
4、Framework
PANet的網路架構如圖4所示,圖中從下而上的路徑增強可以提高低層資訊在整個網路架構的流動。該論文提出了自適應特徵池化,使得每一個推薦區域可以接觸到各個層次的資訊,以得到更好的預測。論文添加了一個分支用於預測掩模,提高了預測的效能,與FPN架構相似,該方法可以獨立CNN結構
4.1 自下而上的路徑增強 (Bottom-up Path Augmentation)[3]
A、Motivation
[12]提到一個重要的觀點:層次越高的神經元對整個物體的響應越強烈,其他的神經元則更容易被區域性語義和圖案所啟用。這一觀點表明,自上而下的路徑增強對於傳播語義資訊豐富的特徵具有重要意義,在FPN中這種方法使得所有的特徵得到了合理的分類。
對於邊界或例項部分的高階響應是精確定位例項的強有力的指標,基於這一點,該論文的結構通過提出一種將低層次的圖案資訊傳到所有的特徵層次,以獲得更好的位置資訊。具體來說,本文建立了一個簡單的從低階到高階的橫向連線。圖4中綠色虛線顯示了該思想,展現了這一不超過10層的捷徑(shortcut)。相比之下,FPN中的卷積神經網路線路(CNN trunk,圖4中紅色虛線)從最低層到最高層需要經過100多層。
B、Augmented Bottom-up Structure
該論文第一個實現了自下而上的路徑增強,論文遵循FPN的定義,產生相同尺寸大小的特徵層處於網路的同一階段。每個特徵層次(feature level)對應一個階段(stage)。
圖5 自下而上的FPN(左)和自上而下的路徑增強(右)
以ResNet為基礎結構,如圖5所示,用來表示通過FPN得到的特徵層,從到,下采樣係數均為2。同時定義為對應生成的特徵圖,注意到就是,沒有增加任何的處理。
自下而上的路徑增強的具體操作為:將每一個較高解析度的(2倍關係)與一個低解析度的通過一個橫向連線進行融合,產生一個新的特徵圖。如下圖所示:
圖6 自下而上的路徑增強的結構圖
對上圖的簡單解釋就是:
- 每一個先經過步長為2,卷積大小為的卷積層,卷積得到的影象尺寸可以表示為,其中N表示的影象大小,P表示卷積操作時的填零圈數;
- 將和對進行下采樣得到的資料進行融合;
- 對繼續進行下采樣,以便下一次的融合;
- 以上迭代到產生為止。
論文中提到,以上迭代過程的都使用256通道,所有的卷積層後都接一個ReLU層,這樣每一推薦區域對應的特徵網格被池化為特徵圖,例如。
4.2 自適應特徵池化(Adaptive Feature Pooling)
A、Motivation
在FPN中,依據候選區域的大小將候選區域分配到不同特徵層次。這種做的結果是:小的候選區域分配到低層次,大的候選區域分配到高層中。這種做法雖然簡單有效,但這可能會產生非最優結果。例如兩個具有10個不同畫素的候選區域可能分配到不同特徵層次,然而,這兩個候選區域可能是非常相似的。
換句話說,特徵的重要性可能與他們所屬的特徵層次沒有太大關係。高層次的特徵具有較大的感受野,擁有豐富的上下文資訊。假如讓小型候選區域獲取這些特徵,可以更好的使用上下文資訊做預測。同樣的道理,低層次的特徵擁有較多的細節和更準確的位置資訊。假如讓大型候選區域獲取這些特徵也是非常有用的。
基於以上的想法,自適應特徵池化應運而生。
對自適應特徵池化網路結構中來自不同層次的特徵池化的因子進行分析,首先使用最大池化操作融合不同層次特徵,這允許網路逐元素選擇有用資訊。依據FPN中將資訊分配的層次,我們將候選區域聚類成四類。對於每組候選區域,我們計算來自不同層次的特徵比例。 levels1-4表示從低到高的特徵,如下圖所示:
圖7 自適應特徵池化層後各層的比例係數
藍線表示FPN將小型候選區域分配給了level1,可以看到有近70%的特徵來源於其他高層;黃線則表示FPN中將大型候選區域分配給level4,有超過50%的特徵從都是從其他低階層次來的。所以,特徵來自多個層次有助於提高精度,這也是對設計自下而上增強路徑強有力的支援。(這些係數是咋來的?)
B、Adaptive Feature Pooling Structure
自適應特徵池化實際上很容易實現,具體如下圖中(c)所示。
圖8 自適應特徵池化層
對於上圖簡單解釋如下:
- 對於每個候選區域,將其對映到不同特徵層次,如上圖(b)深灰色區域;
- 使用ROIAlign池化來自不同層次的特徵網格;
- 再使用融合操作(逐畫素相加或取最大值)融合不同層次的特徵網格;
在隨後的網路中,池化後的特徵網格分別進入一個引數層,然後再接融合操作,讓網路適應特徵。例如,在FPN中,預測B-Box的支路有兩個全連線層,可以在第一層後進行融合操作。結合Mask R-CNN,其中有四個連續的卷積層用於掩模檢測,論文中將融合操作放在了第一層卷積和第二層卷積之間。
候選區域對應融合後的特徵網格用於的進一步預測,即分類、框迴歸和掩模預測,下圖是自適應特徵池化的詳細示意圖:
圖9 自適應特徵池化示意圖
從圖中可以看到融合操作處於和之間, 融合操作的位置在實驗部分是有對比實驗的。該設計側重於融合來自內部網路特徵層次結構的資訊,而不是來自輸入影象金字塔的不同特徵圖的資訊。(??)
4.3 全連線融合(Fully-connected Fusion)
A、Motivation
全連線層和MLP廣泛應用於例項分割中,用於預測掩模和生成掩模候選區域。有論文的結果表明FPN同樣也能夠逐畫素的預測掩模。 Mask R-CNN使用了一個小型的FPN應用於池化後特徵網格,用於預測對應的掩模,從而減少了類間競爭(??)。
全連線層()和全卷積網路(FCN)具有不同的特性:
⑴ FCN基於區域性感受野和不同空間位置進行引數的共享,給出了畫素級的預測;
⑵ 全連線層對位置資訊敏感,因為對於不同空間位置的預測都是通過一組可變引數實現的,故認為全連線層具有適應不同空間位置的能力。
鑑於兩者特性 的不同,該論文將兩者混合起來使用。
B、Mask Prediction Structure
論文中負責預測掩模的是一個輕量級、易實現的分支,這個預測掩模分支的輸入是每個候選區域融合後的池化特徵網格,如下圖所示:
圖10 全連線融合的掩模預測分支
對上圖的一個簡單的介紹:
- 主幹路線是一個小的FCN,包含了4個連續的卷積層和一個反捲積層。每一個卷積層包括了256個的卷積核,同時將反捲積的上取樣因素設為2。這個分支的作用和Mask R-CNN一樣,對每一個類分別給出一個二進位制的掩模,以解耦分割和分類任務。
- 使用一個短路徑從連線到層,中間過兩個卷積層 ,,其中卷積層通道數減半以減少計算量。
- 掩模大小設定為,所以全連線層產生大小的向量,故需要重取樣成和FPN預測的掩模同樣的空間尺寸,再和FPN的輸出相加得到最終預測。
運用一個全連線層就可以預測一個未知類的前景或者背景的掩模,不僅效率高,而且引數易訓練,從而可以方便歸一化。僅使用一個全連線層進行最後的預測,可以防止隱藏層的空間特徵資訊被對映成一個短的特徵向量,從而丟失空間資訊。
5、Experiments
該論文在COCO、Cityscapes和MVD資料集上進行了實驗,均得到了最佳的效果。
5.1 實驗細節(Implementation Details)
該論文基於Caffe實現了Mask R-CNN和FPN的效果,在實驗中所使用到的預訓練模型都是公開可用的。對於實驗的每一張圖片,以正負樣例比3:1為前提選出512個ROI。Weight decay設定為0.0001,momentum設定為0.9,其他的相關引數的設定根據不同的資料集和實驗進行設定。
候選區域來自獨立的RPN,目標檢測和例項分割的網路主幹不共享。
5.2 在COCO上的實驗 (Experiments on COCO)
A、資料集簡單介紹和評價標準
COCO資料集的資料的複雜性足以為例項分割和物體檢測使用,包括了115k張訓練圖片和5k張驗證圖片。評價指標採用常用的評價指標,例如、、、、和,後面三項用於衡量不同尺度物體物件。
B、引數的說明
訓練的時候,如非特殊說明,16張圖片為一個批,影象的解析度為。在進行例項分割的時候,將前120k次的迭代學習率設定為0.02,後40k次迭代的學習率設定為0.002。在進行物體檢測的時候,除了掩模生成的支路不被執行,其他的一樣執行。物體檢測的前60k次迭代的學習率設定為0.02,後來的20k次迭代學習率設定為0.0002。以上的引數均來自Mask R-CNN和FPN,沒有經過微調。
C、例項分割的結果
表1 PANet在COCO資料集上例項分割的結果
以ResNet-50的PANet,在單尺度和多尺度的測試上均超過了2016年的冠軍作品,並且比它訓練起來更加的方便,不需要額外的技巧。
D、物體檢測的結果
表2 PANet在COCO資料集上物體檢測的結果
同樣的可以看到該演算法的優越性,從單尺度和多尺度上來看,均優於Mask R-CNN的現有的結果。
E、對比實驗
這部分主要是來說明論文提出的每一項工作的優越性,除了分析自適應特徵池化、自下而上的路徑增強和全連線融合,論文還分析了多尺度訓練、多GPU同步batch normalization和Heavier Head。具體的實驗結果見表3,
表3 對比實驗結果
⑴ Re-implemented Baseline:復現了Mask R-CNN的結果,相比之下本文的結果更好;
⑵ 多尺度訓練和多GPU同步BN:實驗表明這兩個方法使得實驗更快的收斂,泛化能力更好;
⑶ 自下而上的路徑增強:在不用自適應特徵池化的前提下,掩模的AP和框的分別達到了0.6和0.9;
⑷ 自適應特徵池化:同上,不管有沒有路徑增強,在不同的尺度下,所有的結果都得到了提升;
⑸ 全連線融合:為掩模的生成提高了0.7的AP;
⑹ Heavier Head:多工下可以很好的提升了迴歸框的框定,但是對於生成掩模和訓練物體檢測器作用比較的小。
F、針對自適應特徵池化的對比研究
目的是為了找到融合的最佳位置,用表示融合的位置在ROIAlign和之間,用表示融合的位置在和之間。同時還測試了融合技術是採用最大化還是取和操作比較好,最終的結果如表4所示:
表4 自適應特徵池化的對比圖
從上表中可以看出融合的位置應該在和之間,對於使用SUM還是MAX操作並不是很敏感,所以PANet採用了MAX操作。
G、針對全連線融合的對比研究
這個對比試驗主要是為了找增強全連線層的方法,論文從兩方面考慮:
- 層的起始點,分別測試了從、和開始;
- 和FCN融合技術,包括最大值、取和、乘積三種方法;
表5 全連線融合的對比實驗
從圖中可以看到,選擇和(取和)效果比較好。
5.3 在Cityscapes上的實驗 (Experiments on Cityscapes)
A、資料集簡單介紹和評價標準
Cityscapes資料集包括了2975張訓練圖片,500張驗證圖片和1525張被細化後的測試圖片。其他的20k張圖片,除了用於訓練的,都是粗化的。使用的評價標準是和。
B、引數設計
使用和Mask R-CNN一樣的引數,需要說的是,訓練時短邊在之間隨機取樣,測試時使用1024。具體操作中沒有使用DCN或者其他的技巧。以ResNet50作為基礎層,0.01的學習率迭代了18K, 0.001的學習率迭代了6K,每個batch設定8張圖片。
如下表所示,對比了PANet與其他網路的效果:
表6 實驗對比表
可以看到論文提出的方法很好的超過了頂尖的方法的結果。
5.3 在MVD上的實驗 (Experiments on MVD)
主要對比了UCenter效果:
表7 與UCenter的對比
5.4實驗效果
具體實現的分割效果如圖:
圖11 在COCO、Cityscapes和MVD上的測試效果
未來的方向
使用在RGBD或者視訊的資料集上。
論文的優點
⑴ 使得各個層次的資訊得到了充分的應用,路徑增強;
⑵ 論文的結構安排比較的清楚;
⑶ GPU的使用細節給了簡單的介紹;
論文前提知識:
⑶ DenseNet
產生的問題
在上面的結構寫了,Ratio of features pooled from different feature levels with adaptive feature pooling中的Ratio怎麼來的?沒介紹,沒找到。
參考文獻
- He K, Gkioxari G, Dollar P, et al. Mask R-CNN[J]. international conference on computer vision, 2017: 2980-2988.
- Girshick R B. Fast R-CNN[J]. international conference on computer vision, 2015: 1440-1448.
- Ren S, He K, Girshick R B, et al. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
- Lin T, Dollar P, Girshick R B, et al. Feature Pyramid Networks for Object Detection[J]. computer vision and pattern recognition, 2017: 936-944.
- Lin T, Maire M, Belongie S J, et al. Microsoft COCO: Common Objects in Context[J]. european conference on computer vision, 2014: 740-755.
- Cordts M, Omran M, Ramos S, et al. The Cityscapes Dataset for Semantic Urban Scene Understanding[J]. computer vision and pattern recognition, 2016: 3213-3223.
- Neuhold G, Ollmann T, Bulo S R, et al. The Mapillary Vistas Dataset for Semantic Understanding of Street Scenes[C]. international conference on computer vision, 2017: 5000-5009.
- Girshick R B, Donahue J, Darrell T, et al. Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation[J]. computer vision and pattern recognition, 2014: 580-587.
- He K, Zhang X, Ren S, et al. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition[C]. european conference on computer vision, 2014: 346-361.
- Ren S, He K, Girshick R B, et al. Object Detection Networks on Convolutional Feature Maps[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(7): 1476-1481.
- Gidaris S, Komodakis N. Object Detection via a Multi-region and Semantic Segmentation-Aware CNN Model[J]. international conference on computer vision, 2015: 1134-1142.
- Zeiler M D, Fergus R. Visualizing and Understanding Convolutional Networks[J]. european conference on computer vision, 2014: 818-833.
附錄
附錄一:
術語對照表
英語表達 |
中文翻譯 |
橫向連線 |
|
Dimension Reduction |
降維 |
Information Propagate |
資訊傳播 |
Adaptive Feature Pooling |
自適應特徵池化 |
Bottom-Up / Top-Down |
自下而上/自上而下 |
Feature Grid |
特徵網格 |
Dense Connection |
密集連線 |
MCG(Multiscale Combinatorial Grouping) |
多尺度組合分組 |
Fully-connected Fusion |
全連線融合 |
Synchronized batch normalization |
同步批歸一化 |
[1] http://cocodataset.org/
[2] https://www.cityscapes-dataset.com/
[3] https://blog.csdn.net/u011974639/article/details/79595179