Segnet: 一種用於圖像分割的深度卷積編碼－解碼架構

摘要

我們展示了一種新奇的有實踐意義的深度全卷積神經網絡結構，用於逐個像素的語義分割，並命名為SegNet.核心的可訓練的分割引擎包含一個編碼網絡，和一個對應的解碼網絡，並跟隨著一個像素級別的分類層.編碼器網絡的架構在拓撲上與VGG16網絡中的13個卷積層相同.解碼網絡的角色是映射低分辨率的編碼後的特征圖到輸入分辨率的特征圖.具體地，解碼器使用在相應編碼器的最大合並步驟中計算的池化索引來執行非線性上采樣.這消除了上采樣的學習需要.上采樣後的圖是稀疏的，然後與可訓練的濾波器卷積以產生密集的特征圖.我們把我們提出的架構和廣泛采用的FCN架構和眾所周知的DeepLab-LargeFOV、DeconvNet架構做了比較，這種比較揭示了實現良好分割性能的內存與準確性的權衡.
SegNet的主要動機是場景理解應用.因此，它在設計的時候保證在預測期間，內存和計算時間上保證效率.在可訓練參數的數量上和其他計算架構相比也顯得更小，並且可以使用隨機梯度下降進行端到端的訓練.我們還在道路場景和SUN RGB-D室內場景分割任務中執行了SegNet和其他架構的受控基準測試.這些定量的評估表明，SegNet在和其他架構的比較上，提供了有競爭力的推斷時間和最高效的推理內存.我們也提供了一個Caffe實現和一個web樣例http://mi.eng.cam.ac.uk/projects/segnet/.

1 介紹

語義分割具有廣泛的應用範圍，從場景理解，推斷對象之間的支持關系到自主駕駛.依靠低級別視覺線索的早期方法已經被流行的機器學習算法所取代.特別的，深度學習後來在手寫數字識別、語音、整圖分類以及圖片中的檢測上都取得了成功[VGG][GoogleNet].現在圖像分割領域也對這個方法很感興趣[crfasrnn][parsent]等.然而，近來的很多方法的都盡力直接采用設計來圖像分類的方法進行語義分割.結果雖然令人鼓舞，但是比較粗糙[deeplab].這主要是因為max-pooling和sub-sampling減少了特征圖的分辨率.我們設計SegNet的動機就是來自於對於為了語義分割而從低分辨率的特征圖到輸入分辨率映射的需要.這種映射也必須產生一些特征用於精確地邊界定位.
我們的架構，SegNet，設計的目的是作為一種高效的語義分割架構.它主要是由道路現場理解應用的動機，需要建模外觀（道路，建築物），形狀（汽車，行人）的能力，並了解不同類別（如道路和側面行走）之間的空間關系（上下文）.在典型的道路場景中，大多數像素屬於大型類，如道路，建築物，因此網絡必須產生平滑的分段.引擎還必須具有根據其形狀來描繪對象的能力，盡管它們的尺寸很小.因此，在提取的圖像表示中保留邊界信息是重要的.從計算的角度來看，在推理過程中，網絡需要保證在內存和計算時間兩方面都是高效的.進行端到端的訓練為了使用諸如隨機梯度下降（SGD）之類的有效的權重更新技術來聯合優化網絡中所有權重的能力是一個額外的好處，因為它更容易重復.SegNet的設計源於需要符合這些標準.
SegNet中的編碼網絡和VGG16的卷積層是拓撲上相同的.我們移除了全連接層，這樣可以使SegNet比其他許多近來的結構[FCN][DeconvNet][ParseNet][Decoupled]顯著的小並且訓練起來更容易.SegNet的關鍵部件是解碼器網絡，由一個對應於每個編碼器的解碼器層次組成.其中，解碼器使用從相應的編碼器接受的max-pooling indices來進行輸入特征圖的非線性upsampling.這個想法來自設計用於無監督功能學習的架構.在解碼網絡中重用max-pooling indics有多個實踐好處：（１）它改進了邊界劃分（２）減少了實現端到端訓練的參數數量（３）這種upsampling的形式可以僅需要少量的修改而合並到任何編碼－解碼形式的架構[FCN][crfasrnn].
這篇論文的一個主要貢獻是，我們對Segnet解碼技術和廣泛使用的FCN的分析.這是為了傳達在設計分割架構中的實際權衡.近來許多分割的深度架構使用相同的編碼網絡，例如VGG16，但是在解碼網絡的形式、訓練和推理上是不同的.另一個常見的特點是，這些網絡通常有億級別的訓練參數，從而導致端到端的訓練很困難[DeconvNet].訓練困難導致了多階段的訓練[FCN]，或者添加一個與訓練的網絡結構如FCN[crfasrnn]，或者用輔助支持，例如在推理階段使用區域proposals[DeconvNet]，或者使用分類和分割網絡的不相交訓練[Decoupled]，或者用額外的數據進行與訓練[Parsenet]或者全訓練[crfasrnn].另外，性能提升後處理技術也受到歡迎.盡管這些因素都很好的提高了在voc上的性能，但是他們的定量結果難以解決實現良好性能所必需的關鍵設計因素.因此我們分析了被用在這些方法[FCN][DeconvNet]中的解碼過程，並揭示了他們的優點和缺陷.
我們評估了SegNet在兩種場景分割任務中的性能，分別是CamVid道路場景分割和SUN RGB-D室內場景分割.VOC12在過去很多年都有分割的居基準挑戰.但是，這個任務的大部分都有一個或兩個由高度多樣的背景包圍的前景類.這隱含地有利於用於檢測的技術，如最近關於解耦分類分割網絡的工作所示[Decoupled]，其中分類網絡可以用大量弱標簽數據進行訓練，並且獨立分割網絡性能得到改善.[deeplab]的方法還使用分類網絡的特征圖和獨立的CRF後處理技術來執行分割.性能也可以通過額外的推理輔助來增強，例如區域proposals[DeconvNet][Edge Boxes].因此，因此，它與場景理解不同之處在於，其目的是利用對象的共同出現以及其他空間上下文來執行可靠的分割.為了證明SegNet的高效性，我們展示了一個實時的道路場景分割的在線demo，來分割11類的自主駕駛興趣類(如圖1所示).圖1中展示了從Google中找的一些隨機道路圖片和SUNRGB-D中產生的一些隨機室內測試場景圖片的分割結果.

論文的剩余部分組織如下.在Section 2我們回顧了近期的相關文獻.在Section 3我們描述了SegNet架構和對它的分析.在Section 4我們評估了SegNet在室外和室內數據集上的性能.接下來是Section 5關於我們的方法的一般性討論，指出未來的工作.Section 6是結論.

2 文獻回顧

語義分割是一個十分活躍的研究課題，其中很大一部分作用是因為作為挑戰的數據集[PASCALVOC][SUN RGB-D][KITTI].在深度學習到來之前，性能最好的方法大部分依賴於手工設計的特征來獨立地分類像素.通常，將一塊區域送入一個分類器例如Random Forest或者Boosting來預測中心像素的類概率.基於外觀的特征或者sfM（不知道是什麽）已經被發明用來進行CamVid道路場景理解的測試.後通過使用成對或更高階的CRF來平滑來自分類器的每像素噪聲預測（通常稱為一元項）來提高精確度.最近的方法旨在通過嘗試預測塊中所有像素的標簽，而不僅僅是中心像素來產生高質量的一元項.這改進了隨機森林一元項的結果，但是薄結構化類被分類不佳.CamVid測試中性能最好的技術通過將對象檢測輸出與CRF框架中的分類器預測相結合來解決標簽頻率之間的不平衡.所有這些技術的結果表明需要改進的分類的特征.
自從NYU數據集的發布以來，室內RGBD像素級語義分割也得到歡迎.該數據集顯示了深度通道改善分割的有用性.他們的方法使用諸如RGB-SIFT，depth-SIFT和像素位置的特征作為神經網絡分類器的輸入來預測像素一元項.然後使用CRF來光滑這個有噪音的一元項.使用更豐富的特征集進行改進，包括LBP和區域分割，以獲得更高的準確性，然後是CRF.還要一些其他的方法，所有這些方法的共同屬性是使用手工設計的特征來分類RGB或RGBD圖像.
深層卷積神經網絡對物體分類的成功最近引導研究人員利用其特征學習能力進行結構化預測問題，如分割.還嘗試將設計用於對象分類的網絡應用於分割，特別是通過在塊中復制最深層特征以匹配圖像尺寸.然而，所得到的分類是塊狀的.另一種方法是使用循環神經網絡[RNN]合並了幾個低分辨率預測來創建輸入圖像分辨率預測.這些技術已經是手工設計特征的改進，但是它們劃定邊界的能力差.
更新的深度結構[FCN][DeconvNet][CRFASRNN][Decoupled]特別設計用於分割，通過學習解碼或將低分辨率圖像表示映射到像素點預測，提升了最先進的技術水平.上邊幾個網絡的編碼網絡是用來產生低分辨率便是，都是使用的VGG16分類網絡結構(13個卷基層和3個全連接層).這些編碼網絡的權重在ImageNet上進行了特殊的預訓練.解碼器網絡在這些架構之間不同，並且是負責為每個像素生成多維特征以進行分類的部分.
全卷積網絡（FCN）架構中的每個解碼器都學習對其輸入特征圖進行上采樣，並將其與相應的編碼器特征圖組合，以產生到下一個解碼器的輸入。它是一種在編碼器網絡中具有大量可訓練參數的架構（參數個數134M），但是非常小的解碼器網絡（參數個數0.5M）.該網絡的整體大小使得難以在相關任務上端到端地進行訓練.因此，作者使用了階段性的訓練過程.這裏，解碼器網絡中的每個解碼器逐漸添加到現有的訓練好的網絡中.網絡生長直到沒有觀察到進一步的性能提高.這種增長在三個解碼器之後停止，因此忽略高分辨率特征圖肯定會導致邊緣信息的丟失[DeconvNet].除了訓練的相關問題之外，解碼器中重用編碼器特征圖的需求使其在測試時間內內存集約.我們更深入地研究這個網絡，因為它是其他最新架構的核心[CRFASRNN][ParseNet].
通過使用循環神經網絡（RNN）附加到FCN[CRFASRNN]並對其在大的數據集上[VOC][COCO]進行微調，FCN的預測性能進一步得到改善.在使用FCN的特征表征能力的同時，RNN層模仿CRF的尖銳邊界劃分能力.它們比FCN-8顯示出顯著的改進，但也表明當使用更多訓練數據訓練FCN-8時，這種差異減小.當與基於FCN-8的架構聯合訓練時，CRF-RNN的主要優點被揭示出來.聯合訓練有助於其他最近的結果.有趣的是，反卷積網絡[DeconvNet]的性能明顯優於FCN，但是以更復雜的訓練和推理為代價.這提出了一個問題，即隨著核心前饋分割引擎的改進，CRF-RNN的感知優勢是否會減少.無論如何，CRF-RNN網絡可以附加到任何深度分段架構，包括SegNet.
多尺度的深層架構也被廣泛采用.它們有兩種風格，（i）使用幾個尺度的輸入圖像和相應的深度特征提取網絡，以及（ii）組合來自單個深層結構的不同層的特征圖[ParseNet].通常的想法是使用多尺度提取的特征來提供局部和全局上下文[zoom-out]，並且早期編碼層的使用特征圖保留更高頻率的細節，從而導致更尖銳的類邊界.其中一些架構由於參數大小而難以訓練.因此，與數據增加一起使用多階段訓練過程.推論過程由於特征提取的多個卷積路徑使用也是復雜度比較高的.其他在他們的多尺度網絡上附加了一個CRF，並共同訓練他們.然而，這些在測試時間不是前饋的，需要優化才能確定MAP標簽.
最近提出的幾種最新的分割結構在推理時間上不是前饋的[DeconvNet][deeplab][Decoupled].它們需要通過CRF的MAP推理或推薦的區域proposals[DeconvNet]等輔助工具.我們認為通過使用CRF獲得的感知性能提升是由於在其核心前饋分割引擎中缺乏良好的解碼技術.另一方面，SegNet使用解碼器獲得準確的像素級別分類效果.
最近提出的反卷積網絡[DeconvNet]及其半監督變體解耦網絡[Decoupled]使用編碼器特征圖的最大位置（pooling index）在解碼器網絡中執行非線性上采樣.這些架構的作者獨立於SegNet（首次提交給CVPR 2015），提出了解碼網絡中的解碼思想.然而，它們的編碼器網絡由VGG-16網絡包括全連接，其包括其整個網絡的約90％的參數.這使得他們的網絡訓練非常困難，因此需要更多的輔助工具，例如使用區域proposals來實施培訓.此外，在推理階段這些proposals被使用，這顯著增加了推理時間.從基準的角度來看，這也使得在沒有其他輔助幫助下難以評估其架構（編碼器 -解碼器網絡）的性能.在這項工作中，我們丟棄VGG16編碼器網絡的全連接層，使我們能夠使用SGD優化使用相關的訓練集訓練網絡.另一種最近的方法[deeplab]顯示了在不犧牲性能，顯著減少參數數量的好處是能夠減少內存消耗和改進推理時間.
我們的工作是由Ranzato等人提出的無監督特征學習架構的啟發.這種架構用於無監督的預訓練進行分類.然而，這種方法沒有嘗試使用深度編碼器-解碼器網絡進行無監督的特征訓練，因為它們在每個編碼器訓練之後丟棄解碼器.在這裏，SegNet與這些架構不同，因為深度編碼器 - 解碼器網絡被聯合訓練用於監督學習任務，因此解碼器是測試時間中網絡的組成部分.

3 架構

架構如圖2所示.

編碼器部分使用的是VGG16的前13層卷積網絡，可以嘗試使用Imagenet上的預訓練.我們還可以丟棄完全連接的層，有利於在最深的編碼器輸出處保留較高分辨率的特征圖.與其他最近的架構[FCN][DeconvNet]相比，這也減少了SegNet編碼器網絡中的參數數量（從134M到14.7M）.如表6所示.

每個編碼器層具有對應的解碼器層，因此解碼器網絡具有13層.最終解碼器輸出被饋送到多級soft-max分類器以獨立地為每個像素產生類概率.
每個編碼器由卷積層、批歸一化層、RELU組成，之後，執行具有2×2窗口和步幅2（非重疊窗口）的最大池化，輸出結果相當於系數為2的下采樣.最大池化用於實現輸入圖像中小空間位移的平移不變性，子采樣導致特征圖中每個像素的大輸入圖像上下文（空間窗口）.由於最大池化和子采樣的疊加，導致邊界細節損失增大，因此必須在編碼特征圖中在sub-sampling之前捕獲和儲存邊界信息.為了高效，我們只儲存了max-pooling indices，原則上，對於每個2×2池化窗口，這可以使用2位來完成，因此與浮動精度的記憶特征圖相比，存儲效率更高.正如我們在本文稍後展示的那樣，這種較低的內存存儲會導致精確度的輕微損失，但仍然適用於實際應用(?).
SegNet的解碼技術如圖3所示.

解碼器網絡中的解碼器使用來自對應的編碼器特征圖的存儲的最大池化索引來上采樣至其輸入特征圖.此步驟產生稀疏特征圖.然後將這些特征圖與可訓練的解碼器濾波器組卷積以產生密集的特征圖.然後是BN.註意，最後一個解碼器產生一個多通道的特征圖，而不是3通道的(RGB).然後輸入給一個softmax分類器.這個soft-max獨立地分類每個像素，soft-max分類器的輸出是K通道圖像的概率，其中K是類的數量.預測的分割對應於在每個像素處具有最大概率的類.
與SegNet相比，U-Net（提出用於醫學影像社區）不重復使用池化指標，而是將整個特征圖（以更多內存為代價）傳輸到相應的解碼器，並將其連接上采樣（通過反卷積）解碼器特征圖.在網絡架構中，U-Net中沒有conv5和max-pool 5.另一方面，SegNet使用來自VGG網絡的所有預先訓練的卷積層權重作為預訓練權重.

3.1 解碼器變種

許多分段架構[FCN][deeplab][DeconvNet]共享相同的編碼器網絡，它們只是以其解碼器網絡的形式而變化.其中我們選擇比較SegNet解碼技術與廣泛使用的完全卷積網絡（FCN）解碼技術[FCN][CRFASRNN].
為了分析SegNet並將其性能與FCN（解碼器變體）進行比較，我們使用較小版本的SegNet，稱為SegNet-Basic，它具有4個編碼器和4個解碼器.此外，選擇所有編碼器和解碼器層的7×7的恒定核大小以提供用於平滑標記的寬上下文，即最深層特征圖（層4）中的像素可以追溯到上下文窗口 106×106像素的輸入圖像.這種小尺寸的SegNet-Basic使我們能夠在合理的時間內探索許多不同的變體（解碼器）並進行訓練.類似地，我們創建了FCN-Basic，一個可比較的FCN版本，用於我們的分析，它與SegNet-Basic共享相同的編碼器網絡，但與所有解碼器中使用的FCN解碼技術（見圖3）相同.較小的變體是解碼器濾波器是單通道的變體，即它們僅僅卷積它們相應的上采樣特征圖.該變體（SegNet-Basic-SingleChannelDecoder）顯著減少了可訓練參數的數量和推理時間(?).
FCN模型的重要設計元素是編碼器特征圖的降維步驟.這壓縮了編碼器特征圖，然後在相應的解碼器中使用.使用雙線性插值權重初始化上采樣內核.
我們還可以創建FCN-Basic模型的變體，該模型丟棄編碼器特征映射添加步驟，並且僅學習上采樣內核（FCN-Basic-NoAddition）.
除了上述變體之外，我們研究使用固定雙線性插值權重的上采樣，不需要上采樣學習（雙線性插值）.另一方面，我們可以在SeqNet解碼器的每一層添加64個編碼器特征映射到SegNet解碼器的相應輸出特征圖，以創建更多內存擴大型SegNet（SegNet-Basic-EncoderAddition）.這裏使用上采樣的max-pooling indices，隨後進行卷積步驟以使其稀疏輸入變得更加密集.然後將其逐個添加到相應的編碼器特征圖，以產生解碼器輸出.
另一種和更多的內存密集型FCN-Basic變體（FCN-Basic-NoDimReduction）是對編碼器特征映射沒有進行維度降低的地方.這意味著與FCN-Basic不同，最終的編碼器特征圖在將其傳送到解碼器網絡之前不會壓縮到K個通道.因此，每個解碼器結尾處的信道數量與相應的編碼器相同(即64).
我們還嘗試了其他通用變體，其中功能圖只是通過復制進行上采樣，或者通過使用固定（和稀疏）索引數組進行上采樣.與上述變體相比，這些表現相當差.在編碼器網絡（解碼器是冗余的）中沒有最大池和子采樣的變體消耗更多的存儲器，需要更長的時間來收斂和執行等不好.最後，請註意，為了鼓勵復制我們的結果，我們發布了Caffe執行所有變體.

3.2 訓練

我們使用CamVid路景數據集來對基於解碼器變體的性能進行基準測試.該數據集很小，由360×480分辨率的367次訓練和233次測試RGB圖像（白天和黃昏場景）組成.挑戰是劃分道路，建築，汽車，行人，標誌，極點，側路等11類.我們對RGB輸入進行局部對比度歸一化.
編碼器和解碼器權重都使用He等人的方法.為了訓練所有的變體，我們使用固定學習率0.1和動量0.9的隨機梯度下降（SGD），使用我們的Caffe實現SegNet-Basic.在每輪之前，訓練集被洗牌，然後按順序挑選每個小批量（12張圖像），從而確保每個圖像在一個時代只被使用一次.我們選擇在驗證數據集上執行最高的模型.
我們使用交叉熵損失作為訓練網絡的目標函數.損失在一個小批量的所有像素上求和得到.當訓練集中的每個類別（例如，道路，天空和建築像素占主導地位的CamVid數據集）中像素數量的變化很大時，則需要根據真實類別不同地加權.這被稱為class
balancing.我們使用median frequency balancing，其中分配給損失函數中的類的權重是在整個訓練集上計算的類頻率的中值除以類頻率的比率(?).這意味著訓練集中的較大類的權重小於1，最小類的權重最高.我們還嘗試了不同類型的訓練，無需類平衡，也可以等效地使用natural frequency balancing.

3.3 分析

為了定量分析不同的解碼器變體.使用如下的測量:G值是global accuracy，測量數據集中所有像素正確分類的百分比.C值class average accuracy，所有類的預測準確度的平均值.還有就是在Pascal VOC12挑戰中使用的所有類的mIoU.mIoU度量是比類平均精度更嚴格的度量，因為它懲罰了假陽性預測.然而，mIoU度量不是通過類平衡交叉熵損失直接優化的.
mIoU指標也被稱為“雅克指數”，最常用於基準測試.然而，Csurka等人註意到，這個度量並不總是符合人類對質量好的細分的定性判斷（等級）.他們以示例的形式表明，mIoU有利於區域平滑度，並且不評估邊界準確性，FCN作者最近也提到了這一點.因此，他們建議通過基於通常用於評估無監督圖像分割質量的伯克利輪廓匹配得分的邊界測量來補充mIoU度量.Csurka等人簡單地將其擴展到語義分割，並且表明與mIoU度量結合使用的語義輪廓精度的度量與分割輸出的人類排序一致.
計算語義輪廓得分的關鍵思想是評估F1測量，涉及在給定一個像素公差距離的情況下計算預測和ground truth類邊界的精確度和回調值.我們使用圖像對角線的0.75％的值作為公差距離.將存在於地面真實測試圖像中的每個類的F1測量值進行平均以產生圖像F1度量.BF作為整個測試集的F1度量.
雖然我們在訓練變體時使用類平衡，但仍然重要的是要實現高全局準確度，從而實現整體平滑分割.我們還觀察到，當等級平均值最高時報告數值性能通常可以對應於表示感知噪聲分割輸出的低全局精度.
表1展示了我們的分析結果.

在最好的情況下，當內存和推理時間都不受約束時，諸如FCN-Basic-NoDimReduction和SegNet-EncoderAddition之類的較大型號比其他變體更準確.特別地，在FCN-Basic模型中丟棄維數降低導致具有高BF分數的FCN Basic變體中的最佳性能.這再次強調了分割架構中存儲器與精度之間的權衡.
我們現在可以總結上述分析，具有以下一般要點:
1）編碼器特征圖全部存儲時，性能最好。這最明顯地反映在語義輪廓描繪度量（BF）中.
2）當限制推理中的存儲器時，可以使用適當的解碼器（例如SegNet類型）來存儲和使用編碼器特征圖（維數降低，最大聚集索引）的壓縮形式來提高性能.
3）更大的解碼器提高了給定編碼器網絡的性能.

4 基準測試

我們拿SegNet和FCN、DeepLab-LargeFOV和DeconvNet進行了比較.定性結果如圖4所示.

定性結果顯示了所提出的架構在道路場景中分割較小類的能力，同時產生了整體場景的平滑分割.事實上，在受控的基準設置下，與一些較大的型號相比，SegNet顯示出優異的性能.DeepLab-LargeFOV是最有效的模式，CRF後處理可以產生有競爭力的結果，盡管較小的類丟失.具有學習去卷積的FCN明顯優於固定雙線性上采樣.DeconvNet是最大的模式，最無效的訓練.它的預測不能保留小的類別. DeconvNet具有更高的邊界劃分精度，但與DeconvNet相比，SegNet效率更高.這可以從表中的計算統計數據中看出具有完全連接的層（變成卷積層）的FCN，DeconvNet以較慢的速度進行訓練，並參考SegNet具有相當或更高的前後傳遞時間.在這裏，我們還註意到，過擬合並不是訓練這些更大型號的一個問題，因為在與SegNet進行的可比較的叠代中，他們的指標呈現增長趨勢.

對於FCN模型，學習反卷積層，而不是用雙線性插值法固定它們，提高了性能，特別是BF分數.它也在更短的時間內實現了更高的度量.
令人驚訝的是，DeepLab-LargeFOV是以45×60分辨率來預測標簽的，卻產生了很有競爭力的結果，因為它是參數化方面最小的模型，而且具有最快的訓練時間，如表6所示.然而邊界精度是較差的，這和其他架構一樣.DeconvNet的BF得分高於其他網絡，訓練了很長時間.
CRF導致G值和mIoU提高，但是C值降低，BF值也有很大提高.

5 討論和未來工作

由於大量數據集的可用性和擴展的模型深度和參數化，深度學習模型往往取得了更大的成功.然而，在實踐中，訓練和測試期間的記憶和計算時間等因素是從大型模型庫中選擇模型時考慮的重要因素.訓練時間成為一個重要的考慮因素，特別是當我們的實驗顯示，性能增益與增加的訓練時間不相稱時.測試時間記憶和計算負荷對於在專用嵌入式設備上部署模型（例如AR應用程序）很重要.從總體效率的角度來看，我們對於更小更多的內存，對於實時應用的時間效率模型（如道路現場理解和AR）的關註較少.這是SegNet提案的主要動機，它比其他競爭的架構明顯更小，更快，但是我們已經表現出對於道路現場理解等任務的效率.
諸如Pascal和MS-COCO之類的分割挑戰是對象分割挑戰，其中幾個類別存在於任何測試圖像中.場景分割更具挑戰性，因為室內場景的高度變化，同時需要分割更多的類.戶外和室內場景分割的任務在現代應用中也更為實用，如自主駕駛，機器人和AR.
我們選擇了對各種深層分割架構（如邊界F1測量（BF））進行基準測量的指標，以補充更偏向於區域精度的現有指標.從我們的實驗和其他獨立的基準可以看出，從移動的汽車捕獲的室外場景圖像更容易分割，深層結構能夠很好地運行.我們希望我們的實驗將鼓勵研究人員註意更具挑戰性的室內場景分割任務.
在對不同參數化的不同深層架構進行基準測試時，我們必須做出的一個重要選擇是訓練他們的方式.許多這些架構已經使用了許多支持技術和多階段訓練配方來達到數據集的高準確度，但是這使得很難在時間和內存限制下收集關於其真實性能的證據.相反，我們選擇執行受控的基準測試，我們使用批處理標準化，使用相同的求解器（SGD）實現端對端訓練.然而，我們註意到，這種方法不能完全解開模型與求解器（優化）在實現特定結果時的影響.這主要是由於訓練這些網絡涉及梯度反向傳播，這是不完美的，優化是非常大的非凸的問題.承認這些缺點，我們希望這種受控分析補充了其他基準，並揭示了涉及不同知名架構的實際權衡.
對於未來，我們希望利用我們對從分析中收集到的分段架構的理解，為實時應用設計更有效的架構.我們也有興趣從深度分段架構中估計預測的模型不確定性.

6 結論

我們提出了SegNet，一種用於語義分割的深度卷積網絡架構.SegNet背後的主要動機是需要設計一種有效的道路和室內場景理解架構，這在存儲和計算時間方面都是有效的.我們分析了SegNet，並將其與其他重要變體進行了比較，以揭示涉及設計分段架構的實際權衡，特別是訓練時間，內存與精度.存儲編碼器網絡特征的那些架構完整性能最好，但在推理時間消耗更多的內存.另一方面，SegNet更有效率，因為它僅存儲特征映射的最大池索引，並將其用於解碼器網絡以實現良好的性能.在大型和眾所周知的數據集中，SegNet具有競爭力，實現道路現場理解的高分.深層分割架構的端到端學習是一個更難的挑戰，我們希望更多地關註這一重要問題.

Tags: 論文翻譯分辨率解碼器濾波器編碼器

文章來源：

【論文翻譯】SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation