Understanding Convolution for Semantic Segmentation論文閱讀
阿新 • • 發佈:2018-12-10
Abstract
本文主要介紹利用卷積神經網路來做語義分割並提升分割效果的方法,包括理論和實用的。首先是設計稠密上取樣來產生畫素級的預測,這樣做有助於捕獲並解析出更詳細的資訊相對於採用雙線性的上取樣操作。其次在編碼階段提出超空洞卷積網路架構。該結構的主要有點有:
- 有效增加感受野以整合全域性資訊;
- 解決了由通用空洞卷積網路所帶來的棋盤效應。
基於這些網路結構,在街景和KITTI等資料集上已經取得了不俗的表現。
Introduction
所有在分割領域上取得不俗成績的網路都包含了以下三個關鍵部分:
- 全卷積網路,可以通過改善網路結構和增加網路深度來提升效能;
- 條件隨機場,更多、更合適地利用條件隨機場來提升對全域性資訊的把握;
- 空洞卷積,同等計算量下可以有效提升網路的感受野。
然而本文主要聚焦在編碼和解碼過程的卷積操作來提升語義分割的效果。在解碼階段,通常會採用雙線性的上取樣來得到輸出的標籤層,但是雙線性上取樣是固定的,且有可能丟失部分重要細節。因此提出稠密的上取樣卷積網路來提升效能。在編碼階段,空洞卷積可以在保持網路的解析度和感受野的基礎上避免採用池化或者跨步操作。由於空洞卷積的操作實在卷積核中間插入零來實現的,這使得網路只會獲取特定部分的特徵(棋盤效應)。為了避免這個問題,本文提出超空洞卷積架構。 本文主要基於語義分割這個應用從卷積網路層面提出兩個改善方式,在一定程度上提升了語義分割的效果,特別是解碼階段的操作。