影象語義分割(5)-DeepLabV2: 使用深度卷積網路、空洞卷積和全連線條件隨機場進行影象語義分割
阿新 • • 發佈:2019-01-14
論文地址 :DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs
論文程式碼:工程連結
1. 簡介
DeepLabV2是在V1基礎上的優化,不同與V1,模型採用Resnet代替VGG-16,提出ASPP代替標準多尺度處理進行多尺度的特徵的捕捉和融合,取得了更好的效果。
2. 主要問題
- 下采樣導致特徵解析度的降低
- 多尺度物件資訊
- DCNN內在不變性導致定位精度低
3. 解決方案
- 空洞卷積解決感受野和解析度的問題:最後及格最大池化層去掉下采樣的層,以空洞卷積代替
- 空洞卷積空間池化金字塔解決多尺度物件的問題:在給定的出入上以不同取樣率的空洞卷積進行取樣
- Dense CRF解決邊界細化的問題:全連線條件隨機場捕捉邊界細節特徵
4. 具體步驟
- 調整ImageNet pre-train的ResNet為全卷積結構,結合空洞卷積和ASPP得到粗略結果
- 雙線性插值擴大特徵圖到原圖大小
- 全連線條件隨機場細化預測結果,輸出最終結果
5.模型和方法
5.1 空洞卷積
進行空洞卷積的兩個有效的方法:
- 通過插入空洞(零)來隱含地對濾波器進行上取樣,或等效稀疏地對輸入特徵圖進行取樣。通過向im2col函式(從多通道特徵圖中提取向量化塊)新增稀疏取樣底層特徵圖實現了這一點
- 用一個等於空洞卷積率 r 等效的因子對輸入特徵圖下采樣,對於每一個 的移位,都對其進行去交織以產生 大小的的解析度對映。然後將標準卷積應用於這些中間特徵圖,並隔行掃描生成原始影象解析度。通過將多孔卷積變換為常規卷積,可以使用現成的高度優化的卷積方法。
5.2 ASPP
不同於標準的多尺度特徵處理方法中,先對影象進行多個不同尺度的放縮然後採用相同引數進行特徵提取之後再融合得到最終的結果,空洞卷積空間池化特徵金字塔(Atrous Spatial Pyramid Pooling)對相同的輸入進行並行的不同取樣率的空洞卷積然後進行特徵融合,如下圖