論文源址:https://arxiv.org/abs/1709.04609

摘要

      該文提出了基於深度學習的例項分割框架,主要分為三步,(1)訓練一個基於ResNet-101的通用模型,用於分割影象中的前景和背景。(2)將通用模型進行微調成為一個例項分割模型,藉助於視訊第一幀的標籤檔案對不同個體進行例項分割。同時,從例項分割模型中得到每一個物體的畫素級score map。每張score map代表物體類別的概率,並且只和視訊第一幀的ground truth 計算。(3)提出空間傳播網路用於增強前面得到的score map。此結構的目的是如何基於視訊中成對的相似性對粗糙的score map在空間上進行傳播。此外,該文在強化後的score map上引入了一個核函式,基於視訊的時空關聯性得到一個最好的連通區域。

介紹

      該文主要解決對於給定第一幀中每個目標物體的ground truth,在視訊流中都可以進行追蹤與預測標記的問題,當處理非剛性物體,比如說人動物等是存在較大挑戰性的,因為其有不同的視角,姿態也不同。由於在視訊幀中,前景可能被全部覆蓋,因此,重合也是一個較大的挑戰。

      目前使用FCN對視訊中的每一幀進行前景/背景的分割。基於無監督學習,通過訓練集學習得到一個前景的生成模型。基於半監督,可以使用視訊中第一幀的分割mask最為關注的前景區域對模型進行微調。該文將此法進行擴充套件,分解為前景分割和例項分割。通過訓練集的所有物體實現前景的分割訓練,通過每一個確定的例項將前景分割的結果進行分類。

      由於基於FCN網路進行的分割得到的結果標籤不準確,雖然引入了CRF的後處理,但佔用記憶體與較大的計算消耗,導致效果並不理想。該文為此將邊界增強任務處理成一個有效畫素預測的空間傳播問題。提出了空間傳播網路(SPN),確切的說,是使用一個2D的傳播模型學習好的畫素級有效性作為指導將分割概率進行傳播的過程。為了消除不相關的分割,提出了 connected region-aware filter (CRAF)。

     本文整體流程如下:

 

      本文的主要貢獻如下:

      (1)將分割網路處理成例項分割。將任務分解為前景分割和例項識別。

      (2)提出了SPN通過學習空間的相關性進而增強分割邊界。

      (3)建立connected region-aware filter (CRAF)用於消除不相關的分割結果。

相關工作

       視訊物體分割:兩種方式,無監督和半監督,無監督旨在分割物體的前景,主要方法有超畫素,顯著性檢驗和光流。為了結合高層次的資訊像目標物,proposals用於追蹤分割的目標,並進而通過視訊生成連續的區域。但由於這種方式需要大量的計算資源,產生大量的proposals與分割區域,不適合線上的應用。

       例項分割:該文與例項分割相關,包括遮擋的處理與分割邊界的增強處理。大多數的解決方式是先生成proposal,然後對proposal進行分割預測。

一個多階段的網路迭代的產生邊界框proposals,對proposals進行分割預測,生成class score。然而,例項分割經常會遇到大量的遮擋問題。為此,可以引入dense CRF應用於patch -level用於生成例項的mask。為了細化不同例項之間的邊界,可以將概率模型當作是後處理的一種手段。比如使用全連線的CRF當作RNN,用於端到端的訓練。

分割例項的學習

       給定視訊第一幀中例項的標籤,該文的目標是整個視訊中的物體能夠實現例項分割。因此,先訓練一個前景/背景分割的模型用於定位物體。然後,對此通用模型進行微調學習得到一個例項級別的分割模型。

      I:前景分割:該文基於ResNet-101進行搭建前景/背景分割網路。對ResNet-101做了以下兩點的改進:(1)將用於分類的全連線層全部移除(2)在上取樣的過程中將不同卷積層得到的feature map進行融合用於獲得更多的細節資訊。

                         ResNet-101包含5個卷積模組,每個模組中都包含幾個卷積層。該文參考ResNet-101中的第三至第五的卷積模組,得到的feature map大小分別為輸入的1/8,1/16,1/32。最後,將這些feature map進行上取樣並進行拼接操作。流程如下:

                         損失函式為基於softmax的畫素級的交叉熵損失用於優化,由於前景/背景所佔比不同,因此,在損失函式中增加了權重。損失函式如下:

      II:例項識別:前景分割完後,需要對分割的前景進行例項識別,仍採用上述的損失函式,並對其進行微調,對於每一個例項,損失函式包含目標例項與背景兩個通道。由於視訊中可能會包含大量的目標例項,而且不同例項的模型並不相同。為了解決這種混淆問題,比如針對兩個相鄰的例項,從每個例項級的模型中計算得到一個score map,這個score map象徵著例項分割中類別的概率。為了有效的利用分割的前景圖,強制將score map中包含前景部分的值設定為非0值。一旦從不同的例項模型中得到score map,按照score map中概率最大的類別進行標記進而實現例項分割。 

      III:網路的強化與訓練:為了訓練通用(前景/背景)分割模型,採用DAVIS訓練集的標註資料進行預訓練,接著使用DAVIS測試中第一幀目標的標註進行微調增強。通用模型的訓練尋用ResNet-101的引數作為權重的初始化。基於SGD進行優化,batch size  為1,學習率為1e-8迭代10萬步。對於例項識別網路的訓練,batch size 設定為1,學習率初始化為1e-8,後每隔10000步學習率減半,共迭代30000步,由於訓練樣本的數量較少,採用相關性變換,為每一幀取樣1000個樣本。

MASK 增強

       該部分對每個幀分割的結果進行增強,通過空間傳播網路(SPN)將目標物體粗略的邊界形狀進行優化,同時,CRAF用於消除非相關聯區域。這裡值得注意的是,這兩個強化步驟對與例項來說是獨立的。訓練好的SPN可以應用到任意一個例項中。

      I:空間傳播網路:SPN包含一個深度卷積網路用於學習相關的例項及一個空間線性傳播模型用於增強粗略的mask。粗略的mask基於相關性進行優化,包括每對畫素之間的聯絡。每個模型都是不同的,同時使用SGD進行優化。空間線性傳播模型由於迴圈結構的線性複雜度,因此在inference時高效的進行計算。

         SPN的傳播模型通過在一個2D的map上進行線性傳播操作進而構建一個可學習的圖。代表在mxn大小feature map上的一個傳播隱藏層。h_i,j,x_i,j代表在(i,j)處的隱藏層的畫素,與feature map值。代表一系列(i,j)處的權重,K是(i,j)的相鄰座標,由表示。

2D的線性傳播按照從左至右的順序進行傳播:

hK代表隱藏層中的相鄰畫素。反向傳播過程中的導數為

該文使用常規的對稱的分割卷積網路輸出所有Pi-1,i。誤差流在隱藏層中反向流動,傳遞到引導網路中,最終實現端到端的訓練。

CRAF

       由於未考慮時間資訊,在例項之間存在遮擋問題,提出了CRAF根據視訊中相鄰幀的一致性來修正例項混淆問題。

 

 

 Reference

      [1] T. Brox and J. Malik. Object segmentation by long term analysis of point trajectories. In ECCV, 2010. 2
      [2] S. Caelles, K.-K. Maninis, J. Pont-Tuset, L. Leal-Taixé,D. Cremers, and L. Van Gool. One-shot video object segmentation. In CVPR, 2017. 1, 2
      [3] L.-C. Chen, G. Papandreou, I. Kokkinos, K. Murphy, and A. L. Yuille. Semantic image segmentation with deep convolutional nets and fully connected crfs. 2015. 1, 2