《18.Context Encoding for Semantic Segmentation》

阿新 • • 發佈：2018-11-24

語義分割–(EncNet)Context Encoding for Semantic Segmentation

動機

擴張卷積存在的問題
- 先進的語義分割系統通常是基於FCN架構，採用的深度卷積神經網路受益於從不同圖片中學習到的豐富的物件類別資訊和場景語義。
- CNN通過堆疊帶非線性啟用和下采樣的卷積層能夠捕獲帶全域性接受野的資訊表示，為了克服下采樣帶來的空間解析度損失，最近的工作使用擴張卷積策略從預訓練模型上產生密集預測。
- 然而，此策略依然會將畫素從全域性場景上下文相隔開，這會導致畫素錯誤分類。如錯誤的將窗格分為門。
金字塔結構存在的問題
- 近期的工作使用基於金字塔多解析度表示擴大接受野。例如，PSPNet採用的PSP模組將特徵圖池化為不同尺寸，再做聯接上取樣；
- DeepLab採用ASPP模組並行的使用大擴張率卷積擴大接受野。這些方法都有提升，但是這對上下文表示都不夠明確，這出現了一個問題：捕獲上下文資訊是否等同於增加接受野大小？
- 如果我們能夠先捕獲到影象上下文資訊(例如這是臥室)，然後，這可以提供許多相關小型目標的資訊(例如臥室裡面有床、椅子等)。這可以動態的減少搜尋區域可能。說白了，這就是加入一個場景的先驗知識進去，這樣對圖片中畫素分類更有目的性。依照這個思路，可以設計一種方法，充分利用場景上下文和存在類別概率的之間的強相關性，這樣語義分割會就容易很多。
通過傳統影象方法引入影象全域性上下文資訊
- 經典的計算機視覺方法具有捕獲場景上下文語義的優點。例如SIFT提取密集特徵或濾波器組響應密集提取影象特徵。學習一個視覺字典，
- BoW，VLAD和Fish Vector通過類別編碼描述特徵統計資訊。
- 經典表示通過捕獲特徵統計資訊編碼全域性資訊，雖然手工提取特徵通過CNN方法得到了很大的改進，但傳統方法的總體編碼過程更為方便和強大。
最近有工作在CNN框架中推廣傳統編碼器方法獲得了極大的進步，Zhao等人引入了一個編碼層將整個字典學習和殘差編碼管道整合到CNN層中用於捕獲無序表示(orderless)。這在紋理分類任務上達到了state-of-the-art，在本文中，使用擴充套件編碼層用於捕獲全域性特徵的統計資訊用於理解上下文語義。
Featuremap Attention and Scaling：
- 逐通道式的特徵attention是受到其他工作啟發。 Spatial Transformer Network在沒有額外監督的條件下在網路內部學習了空間變換。Batch Normalization 是的小批量資料的均值和方差作為網路的一部分做標準化，成功的允許使用更大的學習率，並使得網路對初始方法不是那麼敏感。
- 最近在風格轉換方面的工作處理特徵圖均值和方差或二階統計資訊用於啟動網路內部風格變換。SE-Net探究了跨通道資訊以學習逐通道attention。
- 受這些方法啟發，論文使用以編碼語義預測特徵圖通道的放縮因子，這提供了在給定場景上下文的情況下強調個別特徵圖的機制。

創新

引入了上下文編碼模組，該單元用於捕獲全域性場景上下文資訊和選擇性的突出於類別相關的特徵圖。
- 集成了語義編碼損失(Semantic Encoding Loss,SE-loss)。舉例來講，我們不考慮車輛出現在臥室的可能性，在現有標準的訓練過程使用的是畫素分割損失，這不強調場景的全域性資訊。
- 我們引入語義編碼損失(SE-loss)可進一步規範網路訓練，讓網路預測能夠預測場景中物件類別的存在，強化網路學習上下文語義。
- 與逐畫素的損失不同，SE-Loss對於大小不同的物體有相同的貢獻，在實踐中這能夠改善識別小物體的表現，這裡提出的上下文編碼模組和語義編碼損失在概念上是直接的並且和現存的FCN方法是相容的。
設計了一個新的語義分割架構Context Encoding Network (EncNet)，EncNet通過上下文編碼模組增強了預訓練的ResNet。
論文采用了擴張卷積策略，在PASCAL VOC 2012 上達到了85.9% mIoU，PASCAL-Context上達到了51.7%；單模型的EncNet-101在ADE20K上達到了0.5567，這超過了2017年冠軍。
- 此外，論文還CIFAR-10上測試了上下文編碼模組的功能，使用上下文編碼模組能夠顯著的提升淺層網路的效能，在只有3.5M引數的條件下達到了3.96%的錯誤率。同時論文釋出了完整的系統實現，包括多GPU同步BN和記憶體高效編碼層。

方法

Context Encoding Module

結構：

這裡寫圖片描述

Context Encoding：
- 對於預訓練網路，使用編碼層捕獲特徵圖的統計資訊作為全域性上下文語義，將編碼層的輸出作為編碼語義(encoded semantics)，為了使用上下文，預測了一組放縮因子(scaling factors)用於突出和類別相關的特徵圖。編碼層學習帶有上下文語義的固有字典，輸出豐富上下文資訊的殘差編碼。這裡簡單描述一下編碼層工作。

1541748401604

Featuremap Attention：
- 為了使用編碼層捕獲的編碼語義，我們預測一組特徵圖的放縮因子作為迴圈用於突出需要強調的類別。
- 在編碼層端上使用FC層，使用sigmoid作為啟用函式，預測特徵圖的放縮因子γ=δ(We)，其中W表示層的權重，δ表示sigmoid啟用函式。模組通過Y=X⊗γ得到輸出，每個通道在特徵圖XX和放縮因子γ之間做逐畫素相乘。
- 這樣的方法受SE-Net等工作的啟發，即考慮強調天空出現飛機，不強調出現車輛的可能性。
Semantic Encoding Loss：
- 標準的語義分割訓練過程，使用的是逐畫素的交叉熵，這將畫素獨立開學習。這樣網路在沒有全域性上下文情況下可能會難以理解上下文，為了規範上下文編碼模組的訓練過程，使用Semantic Encoding Loss (SE-loss)在新增少量額外計算消耗的情況下強制網路理解全域性語義資訊。
- 在編碼層之上添加了一個帶Sigmoid啟用的FC層用於單獨預測場景中出現的目標類別，並學習二進位制交叉熵損失。不同於逐畫素損失，SE loss 對於大小不同的目標有相同的貢獻，這能夠提升小目標的檢測效能。

Context Encoding Network (EncNet):

在提出的上下文編碼模組基礎上，基於使用了擴張策略的預訓練ResNet構建了Context Encoding Network (EncNet)。細節如下圖所示

在這裡插入圖片描述

擴張卷積策略：在stage3使用了擴張率為2，stage4擴張率為4。
為了進一步的提升和規範上下文編碼模組的訓練，使用了單獨的分離分支用於最小化SE-loss，該Loss採用已編碼的語義作為輸入並預測物件類別的存在。
因為上下文模組和SE-loss是輕量級的，論文在stage3上端新增另一個上下文編碼模組用於最小化SE-loss作為額外的正則化，這類比於PSPNet的輔助分支但比那個輕量了許多。
SE-loss的ground truth是從真實的ground-truth分割mask上直接生成的。
上下文編碼模組插入到現存的CNN模型上是不需要額外的修正和監督的。

資料集

voc： 85.9% mIoU

實驗

在voc上的表現，結果對比

1541750524840

實驗效果

1541750611699

《18.Context Encoding for Semantic Segmentation》

語義分割–(EncNet)Context Encoding for Semantic Segmentation 動機擴張卷積存在的問題先進的語義分割系統通常是基於FCN架構，採用的深度卷積神經網路受益於從不同圖片中學習到的豐富的物件類別

FCN筆記（Fully Convolutional Networks for Semantic Segmentation）

width height training 註意 die str 指標 his repl FCN筆記（Fully Convolutional Networks for Semantic Segmentation）（1）FCN做的主要操作 (a)將之前分類網絡的全連接

語義分割--PANet和Understanding Convolution for Semantic Segmentation

語義分割 PAN Pyramid Attention Network for Semantic Segmentation FCN作為backbone的結構對小型目標預測不佳，論文認為這存在兩個挑戰。物體因為多尺度的原因，造成難以分類。針對這個問題，PSPNet和De

CVPR2018論文解析之《Fully Convolutional Adaptation Networks for Semantic Segmentation》(全卷積適配網路)

論文網址：Fully Convolutional Adaptation Networks for Semantic Segmentation 1.摘要：問題：收集大量畫素級標記的資料是一個費事費力的過程，一個比較好的選擇是使用合成數據，比如遊戲視訊，來自動產生標籤。

《Understanding Convolution for Semantic Segmentation》論文閱讀筆記

語義分割–Understand Convolution for Semantic Segmentation 動機 1. 編碼部分的問題對於編碼部分，空洞卷積由於其可以增大感受野、控制解析度從而消除了下采樣的需要。但是空洞卷積固有的問題就是gridd

深度估計 Fully Convolutional Networks for Semantic Segmentation

1.介紹該文講述的是語義分割，但思路和框架和深度恢復是十分相似的，畢竟當前語義和深度問題本質上是一個畫素級的分類問題。從該文3000+引用用量也可見該文章的巨大啟發效果。所謂全卷積網路，是指由僅由卷積層、池化層和非線性啟用函式層交錯組織起來的網路。作者的貢獻在於將

Understanding Convolution for Semantic Segmentation論文閱讀

Abstract 本文主要介紹利用卷積神經網路來做語義分割並提升分割效果的方法，包括理論和實用的。首先是設計稠密上取樣來產生畫素級的預測，這樣做有助於捕獲並解析出更詳細的資訊相對於採用雙線性的上取樣操作。其次在編碼階段提出超空洞卷積網路架構。該結構的主要有點有

Adversarial Examples for Semantic Segmentation and Object Detection 閱讀筆記

Adversarial Examples for Semantic Segmentation and Object Detection （語義分割和目標檢測中的對抗樣本）作者：Cihang Xie, Jianyu Wang, Zhishuai Zhang, Yuyin Zhou, Lingxi Xie,

論文筆記《Fully Convolutional Networks for Semantic Segmentation》

FCN 的全稱是Fully Convolutional Networks，即全卷積網路。通常的CNN是在若干個卷積層之連線上若干個全連線層，將卷積層產生的特徵圖對映成一個固定長度的特徵向量。例如，AlexNet就是五個卷積層後面連線三個全連線層，它在Imagenet資料集上的輸出就是一個1000

《Understanding Convolution for Semantic Segmentation》

Abstract 首先，我們設計了密集卷積上取樣(dense upssampling convolution DUC)可以獲得畫素級別的上取樣，DUC可以獲取並解碼一些細節資訊，這些細節資訊是雙線性插值上取樣不能獲取的。第二，在編碼部分我們提出了混合

Fully Convolutional Networks for Semantic Segmentation論文閱讀

FCN： Fully Convolutional Networks for Semantic Segmentation 作者：Jonathan Long， Evan Shelhamer ，Trevor Darrell UC Berkeley [pdf]—C

基於全卷積的影象語義分割—《Fully Convolutional Networks for Semantic Segmentation》

兩年前，我曾想做一個自動摳“人”的系統，目標是去除路人甲或者自動合成照片。當時“井底之蛙”般搞了一個混合高斯模型，通過畫素聚類的方式來摳“人”。這個模型，每跑一張小圖片需要幾分鐘，摳出來的前景“噪音”很嚴重，完全沒辦法使用。最後這個通過“摳人”去除路人甲的專案告吹。兩年後的今

[深度學習論文筆記][arxiv 1804]ExFuse: Enhancing Feature Fusion for Semantic Segmentation

[arxiv 1804]ExFuse: Enhancing Feature Fusion for Semantic Segmentation Zhenli Zhang, Xiangyu Zhang, Chao Peng, Dazhi Cheng, Jian S

FCN(Fully Convolutional Networks for Semantic Segmentation) 學習

FCN：全卷積神經網路，在神經網路中只有conv層（pooling act）將fc層的功能用conv層替代，更好地實現語義分割。 2016年發表在ieee上的大作。 fc層被替代有諸多好處，最直接的就是引數減少。輸入AlexNet, 得

深度學習論文筆記（六）--- FCN-2015年（Fully Convolutional Networks for Semantic Segmentation）

深度學習論文筆記（六）--- FCN 全連線網路 FullyConvolutional Networks for Semantic Segmentation Author：J Long ， E Shelhamer， T Darrell Year： 2015 1、導

語義分割--(FRRN)Full-Resolution Residual Networks for Semantic Segmentation in Street Scenes

FRRN Full-Resolution Residual Networks for Semantic Segmentation in Street Scenes 收錄：CVPR2017(IEEE Conference on Computer Vision

MRF——2018 PAMI Deep Learning Markov Random Field for Semantic Segmentation

論文學習，暫時只考慮2-D，不考慮3-D MRF能量函式如下，i表示畫素空間index，y表示潛在的變數，V表示nodes，ε表示邊。是一元項，如果i點屬於第一個類別而不是第二類別，則是二元項，是畫素對，測量懲罰labels u,v分配給(i，j)。

語義分割--Understand Convolution for Semantic Segmentation

Understanding Convolution for Semantic Segmentation Understanding Convolution for Semantic Segmentation 收錄：IEEE Winter Conference

【TuSimple】understanding convolution for semantic segmentation

引介文章提出的網路在PASCAL VOC2012和Cityscapes上都叫TuSimple，TuSimple是指圖森公司. 不過文章讀起來也確實挺容易理解的. 這篇文章是2017年2月的文章，所屬領域為Semantic Segmentation.

論文筆記 Locality-Sensitive Deconvolution Networks with Gated Fusion for RGB-D Indoor Semantic Segmentation

extract pear rain bsp ble rgb oge nbsp png 用於RGB-D室內語義分割的具有門控融合的局部敏感反卷積網絡 abstract problem: indoor semantic segmentation using RGB

《18.Context Encoding for Semantic Segmentation》

動機

創新

方法

Context Encoding Module

Context Encoding Network (EncNet):

資料集

實驗

相關推薦