1. 程式人生 > >使用深度學習技術的影象語義分割最新綜述

使用深度學習技術的影象語義分割最新綜述

http://abumaster.com/2017/07/10/%E4%BD%BF%E7%94%A8%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0%E6%8A%80%E6%9C%AF%E7%9A%84%E5%9B%BE%E5%83%8F%E8%AF%AD%E4%B9%89%E5%88%86%E5%89%B2%E6%9C%80%E6%96%B0%E7%BB%BC%E8%BF%B0/

A Review on Deep Learning Techniques Applied to Semantic Segmentation [A. Garcia-Garcia, S. Orts-Escolano, S.O. Oprea, V. Villena-Martinez, and J. Garcia-Rodriguez] 2017年4月22

文章的主要貢獻:

  • 對現有用於影象語義分割的資料集的研究;
  • 深度有組織地對使用深度學習的影象語義分割重要演算法它們的起源和貢獻進行回顧;
  • 對它們的效能進行粗略的評估;
  • 對上述結果進行討論,並對未來的研究方向進行探討。

術語和背景概念

影象語義分割不是一個孤立的領域,而是一個從粗略到精細的自然的推理過程:預測輸入影象中物體的類別,如果多類物體則預測多個類別;定位不同類別物體的位置;為影象中的每一個畫素分類(影象語義分割);對同一類物體的不同物體進行區分(例項分割)。

資料預處理和增強 對於小的資料集,可以相應作出改變來增大資料集,往往會帶來更好的效果。比如1500張影象的資料集可以縮放成不同的尺度,進行不同的旋轉,進行不同的伽馬變換,生成大資料集。

方法總結


當前,大多數優秀的深度學習技術用於影象語義分割都來自一個共同的先導者:全卷積網路(Long),這種方法的優勢就是利用當前存在的CNNs作為有力的視覺模型,可以學習分層特徵。通過改變一些著名的分類網路:改變最後的全連線層為全卷積層,輸出特徵圖來取代分類得分。這些特徵圖(空域圖)通過分數階卷積(也被稱為反捲積)來產生稠密畫素級標記的輸出圖。反捲積網路的工作是一個里程碑式的工作,因為它展示瞭如何用CNNs訓練端對端來解決視覺問題,是深度學習用於影象語義分割的基石。
缺陷:缺少不同特徵的感知,阻礙了在具體問題和場景中的應用。固有的空間不變性,使它不能將全域性的上下文資訊考慮進去,預設不能感知例項,在高解析度上不能達到實時的處理速度,不能適應無結構的資料,例如3-D點雲和模型。
對於它的種種缺陷,不同的方法提供不同的改善方向和效果,主要分為以下幾個方向。

解碼變種

這是一種具有兩個元件的網路,分別包含了編碼器(卷積網路)和解碼器(反捲積網路)。與普通的全卷積網路不同之處在於對低解析度的特徵圖的處理,通過一個解碼網路的東西。
SegNet,解碼階段是由一系列的上取樣和卷積層組成的,上取樣對應了編碼過程的最大池化。上取樣過的特徵圖通過一組可以訓練的卷積核進行卷積生成了稠密特徵圖。經過解碼後的影象與原始輸入影象具有了相同的解析度,然後經過一層softmax層分類器產生最終的分割圖。

整合上下文資訊

影象語義分割的一個問題就是需要整合不同空間尺度的資訊。這意味著區域性資訊和全域性資訊的平衡,一方面,細粒度或者區域性資訊對於獲得良好的畫素級預測精度是非常重要的,另一方面,整合全域性上下文資訊,可以解決分割圖區域性模糊性。傳統的CNNs網路因為池化層的存在是不能感知全域性資訊的,有許多方法可以使CNNs感知全域性資訊,比如,使用條件隨機場作為後續的處理,膨脹卷積,多尺度聚合,甚至將上下文模型推廣到另一種深度網路中如RNNs。
條件隨機場
解決上述的問題,一種可能的方法優化輸出圖,提高捕捉細節的能力,是用條件隨機場作為後期處理。條件隨機場(CRF)可以組合低層次的畫素級別的資訊,這些是CNN無法做到的,其中DeepLab應用了全連線的條件隨機場作為分割圖的後續處理,畫素作為圖的節點,建立全連線充分考慮了短程和遠端的連線。另一個CRFasRNN,將條件隨機場作為網路的一部分進行端對端的訓練。

[1] Semantic image segmentation with deep convolutional nets and fully connected crfs
[2] Conditional random fields as recurrent neural networks

膨脹卷積
也叫阿託斯卷積,通過增大卷積核的步伐來進行卷積操作,獲得更寬的接受域。
多尺度聚合
首先[1]提出了將全卷積網路分為兩個路徑,影象分為原圖和二倍圖,分別放入淺層網路和全卷積網路,將全卷積網路的輸出上取樣結合淺層輸出經過一系列的卷積的到最終的輸出圖。對尺度感知非常敏感?
[2]用了不同的思路,四個相同的網路,感知由粗糙到精細的尺度資訊,如圖,序列進行處理得到最終的輸出。

[4]提出了n個全卷積網路的結構,分別對應處理不同的尺度,分為兩個階段學習:第一個分別獨立訓練,第二融合各網路的輸出,得到最終的輸出圖。

[1] Multi-scale convolutional architecture for semantic segmentation
[2] A multi-scale cnn for affordance segmentation in rgb images
[3] Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture
[4] Multiscale fully convolutional network with application to industrial inspection

特徵融合
提取不同層的特徵,包含了不同的區域性上下文資訊,將之融合。
遞迴神經網路

例項分割

例項分割是語義分割之後的一步,同時也是與其他低階畫素分割技術相比最具有挑戰性的問題。主要是將同類物品的不同例項區別開。