影象分割作為計算機視覺的一個方向,廣泛應用在各個領域,記錄一下學習的過程,以及各個網路的優缺點,不同的地方等。

最流行的方法是FCN,整個分割的流程大致可以看做如下:

FCN顧名思義,全卷機網路,就是把fc層都換做1x1的卷積層,channel等價於fc層的輸出個數。

FCN的架構為編碼器,和解碼器組成,編碼器階段為 卷積+池化的下采樣過程, 解碼器階段為卷積+upsampling的過程,最後接上一個1x1的filter進行pixel分類,如下圖

 

上取樣的原因: 池化層會丟失影象資訊和降低影象解析度且是不可逆的操作,對影象分割任務有一些影響。上取樣可以補足一些圖片的資訊,但是資訊補充的肯定不完全,所以還需要與左邊的解析度比較高的圖片相連線起來(直接複製過來再裁剪到與上取樣圖片一樣大小),這就相當於在高解析度和更抽象特徵當中做一個折衷,因為隨著卷積次數增多,提取的特徵也更加有效,更加抽象。—— jianyuchen23 from zhihu

 

SegNet的全稱是“用於影象分割的深度卷積編碼器-解碼器架構”

segnet的上取樣是做反向 max pooling, 在做下采樣的時候,segnet會記錄max pooling的index的位置,剩下的部分用0來填充: