1. 程式人生 > >論文閱讀筆記 DeepLabv1:SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS

論文閱讀筆記 DeepLabv1:SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS

bar pro 依賴性 後處理 主題 處理 分配 位置 平滑

技術分享圖片

論文鏈接:https://arxiv.org/abs/1412.7062

摘要

該文將DCNN與概率模型結合進行語義分割,並指出DCNN的最後一層feature map不足以進行準確的語義分割,DCNN具有很強的空間不變性,因此比較擅長高層次的任務。該文通過在DCNN的最後一層添加一層CRF用來克服定位不準的問題。該文通過引入空洞算法來提高模型在GPU上的運行速度。

介紹

該文的一個主題是采用進行end-to-end訓練的DCNN,相比傳統的依賴,SIFT或者HOG等人工設計的特征會產生喜人的分割效果。部分原因可能是DCNN對圖像變換局部區域的不變性,從而可以更好的學習抽象的信息。但另一方面卻削弱了低層次類型的任務,像姿態估計,語義分割等需要精細定位的任務。

DCNN應用於圖像標記任務主要存在兩個技術障礙,下采樣和空間不變性。第一個問題是在標準的DCNN中由於連續的池化和下采樣導致單一分辨率的缺失,為此,該文引用了空洞卷積算法,可以使DCNN的計算更加密集。第二個問題是實際中我們分類器所作的是以目標物體中心決定分類的,這就決定需要空間信息的不變性,這就限制了DCNN的空間信息的準確性。該文通過後接一個全連接的條件隨機場(CRF)來獲得更加較好的細節。CRF將不同類別的分類器計算得到的class score與局部(像素,邊和超像素等)捕捉的低層次信息進行結合。盡管更加復雜的工作已經提出來模擬層次的依賴性,但CRF在考慮遠距離依賴的情形時,其計算較為高效,也可以較好的捕捉邊界細節信息。

該文的三個主要貢獻:(1)速度:借用空洞算法,可以使DCNN在8fps。(2)準確率:在PASCAL語義分割上的挑戰獲得最好成績,並超第二7.2%(3)簡單性:DCNN只由DCNNs與CRFs兩部分組成。

相關工作

使用自上而下的圖像分割級聯與基於DCNN的區域分類,使得系統可能會在分割系統的前端產生潛在誤差。有一種方法是通過一系列不同的CRF為基礎的分割proposals,然後將proposals根據DCNN針對相對級別訓練好的模型進行重新分級操作。雖然此法想要解決分割網絡前端的本質問題,但仍無法很好的解釋CRF分割算法的DCNN的Scores,這裏DCNN只用作後處理。

方法

首先是基於空洞算法的密集滑動窗來進行特征提取,首先,將VGG-16的全連接層替換為卷積層,結果是生成的檢測scores很稀疏,該文在VGG-16最後兩個最大池化層後跳過下采樣,同時,改變最後三層卷積層與全連接層的卷積核,在他們之間添加0來增加他們的長度。通過引入空洞卷積,可以使我們能夠以任意的下采樣rate準確的得到密集CNN的feature map。

其次,該文對VGG-16進行微調,將其最後一層的類別1000的分類器替換為類別21的一個,損失函數是卷積output map上每個空間位置交叉熵的求和。運用標準的SGD優化每一層網絡的權重。在進行測試時,需要將class socre map還原為原始圖像的分辨率。如下圖,由於class score maps 十分平滑,可以通過簡單的雙線性插值近似的將其提高8倍分辨率。

技術分享圖片

最後,另一個關鍵因素使網絡感受野的大小,VGG-16的感受野為224x224,如果應用卷積後,為404x404,將VGG-16變為全卷積後,第一個全連接層會有4096個大小為7x7的filters,這大大增加了計算的難度。該文減少第一個全連接層filter的空間尺寸(3x3),但也相對應的減少了網絡的感受野(128x128 or308x308),減少了2到3倍的計算時間,同時,全連接層通道數的減小也有效果。

通過上面的圖可以看出來,DCNN的score map 可以大致勾畫出物體的輪廓,但細節上仍存在較大差距,卷積網絡中,分類與定位之間有一個平衡,具有多層池化的更深層的網絡在分類任務上取得的效果更好,然而, 這裏有一點問題就是,增加的不變性和較大的感受野使從最後的層預測出位置會有很大的挑戰。通過利用卷積網絡中多層信息,來更好的估計分割邊界,另一種方法是采用超像素表示,將定位任務分給低級的分割方法。

該文首先利用DCNN的識別能力,後接全連接的CRF來提高位置的準確性,通常,CRF包含相鄰節點的能量項,有利於將相同的標簽分配到空間上相近的像素。本質上,short-range CRF的作用是清除由基於局部手工設計分類器產生的錯誤預測。相比弱分類器,DCNN得到的score maps 更加平滑,此時,再使用short-range CRF可能是有害的,因為目的不是為了平滑邊界而是回復局部細節,因為經過DCNN後已經很平滑了。為了解決short-range CRF的弊端,引入了全連接CRF。

實驗

技術分享圖片

技術分享圖片

技術分享圖片

參考

1.Adams, A., Baek, J., and Davis, M. A. Fast high-dimensional ?ltering using the permutohedral lattice. In Computer Graphics Forum, 2010.

2.Arbel′aez, P., Pont-Tuset, J., Barron, J. T., Marques, F., and Malik, J. Multiscale combinatorial grouping. In CVPR, 2014.

論文閱讀筆記 DeepLabv1:SEMANTIC IMAGE SEGMENTATION WITH DEEP CONVOLUTIONAL NETS AND FULLY CONNECTED CRFS