1. 程式人生 > >A Review on Deep Learning Techniques Applied to Semantic Segmentation 論文閱讀

A Review on Deep Learning Techniques Applied to Semantic Segmentation 論文閱讀

為了以後的學習方便,把幾篇計算機視覺的論文放上來,僅為自己的學習方便。期間有參考了很多部落格和文獻,但是我寫的仍然很粗糙,存在很多的疑問。這篇文章是第一篇有關語義分割的總結,可能大學畢設會用到,暫時先簡單總結一下自己的所得。


大學快要畢業了,開始準備畢設,分割方向逃不了了。提示:排版對手機端不友好。


原文地址:A Review on Deep Learning Techniques Applied to Semantic Segmentation

參考譯文:綜述論文翻譯:A Review on Deep Learning Techniques Applied to Semantic Segmentation


論文的背景

語義分割越來越受到計算機視覺和機器學習研究者的重視,可以說,分割任務是目前計算機視覺的一個重要的任務。現實生活中有很多的場景需要有效的、準確的分割技術,例如:自動駕駛[1][2]、室內導航、虛擬現實以及增強現實等。

傳統的機器學習和計算機視覺技術,在一定程度上解決了分割的問題。但是深度學習的使用,大大的提高了分割任務的準確率。這些深度結構主要是基於卷積神經網路(CNNs)[3][4][5],使得計算機視覺的研究發生了翻天覆地的變化。本文針對現有的(2017年)的頂尖論文(state-of-the-art,共114篇參考文獻)中提出的技術(共27種)進行了總結,並列舉當前現有的資料集(共28個),同時指出了現有論文的不足之處和對未來工作進行了展望。


論文內容

1、論文結構

Section 1(Introduction):

對深度學習在計算機視覺中起到的作用進行了一個簡單的介紹,並說明本文是第一篇對基於深度框架的語義分割的技術總結的文章。對本文的貢獻做出瞭如下總結:

⑴ 對現有的資料集進行了廣泛的調研,這些資料集對研究利用深度學習進行分割有著至關重要的的作用;

⑵ 對現有的頂尖的使用深度學習的方法進行了徹底地分析,包括這些方法的起源以及他們的貢獻;

⑶ 通過對比準確率(主要對比)、執行效率和所示儲存空間等評判標準,對現有的方法進行了全面的比較;

⑷ 對該領域的未來發展方向進行了展望。

Section 2 (Terminology and Background Concepts):

對語義分割的常見問題、常用符號和慣用慣例進行了總結。

Section 3 (Dataset and Challenges):

介紹了現有的資料集、挑戰和基準。

Section 4 (Methods):

對現有的方法根據其從低到高進行了排序,只是定性的介紹文章的閃光點和理論知識,並未展開定量細講。

Section 5 (Discussion):

對現有的方法在各個資料集上表現進行簡短的了總結和對比,並對不同語義分割領域的未來的工作進行了簡短的展望。

Section 6 (Conclusion):

對本文的一個總結以及對相關工作及該領域目前最優方法進行了總結。


2、相關術語和概念

分割任務的出現是和前人的工作密切相關的,從對物體的分類、確定圖片中物體的位置、語義分割再到例項分割,是一步步遞進的,都是從粗到細的一個過程,詳細的對比圖見圖1。

                                              

                                                            圖1 分類、定位、語義分割和例項分割的進化圖

對於畫素級別的分類,可以進行形式化為找到一個合適的對映函式,將畫素集中的畫素${{x}_{i}}\in X\text{=}\left\{ {{x}_{1}},{{x}_{2}},\cdots ,{{x}_{N}} \right\}$對映到合適的標籤空間$L=\left\{ {{l}_{1}},{{l}_{2}},\cdots ,{{l}_{k}} \right\}$。標籤空間中一般包含$k+1$類,對應$k$類物體和一個背景(${{l}_{0}}$ ),其中$X$通常是2維圖片中$W\times H=N$個畫素的資料集,不過可以通過擴充套件對資料應用到更高維度上去。

2.1 一些常用的深度網路架構

AlexNet [6](參AlexNet層級分析

該網路架構是使用深度卷積神經網路的先驅,獲得了ILSVRC-2012的冠軍,達到的TOP-5準確率為84.6%。架構的前五層為卷積層,後三層為全連線層,最大池化層存在於RPN層和第五個卷積層後。該架構的學習引數有6千萬個,神經元有650000個。該網路的創新點在於使用ReLU(Rectified Linear Units),改善了Sigmoid存在的梯度消失和爆炸(梯度彌散)。AlexNet的網路結構如圖2所示:

                                          

                                                                                    圖2 AlexNet的網路架構

每層的卷積核的大小數量見表1。

                                                                    表1 每個卷積層的卷積核的大小和數量

 

Conv1

Conv2

Conv3

Conv4

Conv5

個數

96

256

384

384

256

長度

11

5

3

3

3

寬度

11

5

3

3

3

深度

3

48

256

192

192

VGG[7]

這個架構由16個權重層構成,所以又稱VGG-16,取得了ILSVRC-2014的第二名,其測試的Top-5準確率為92.7%。該網路的創新點在於第一層網路使用了一些小的感受野的卷積層,使得模型的引數得到減少,並增加了模型的非線性,也因此使得決策函式更具區分度。網路中引進了1*1卷積核,增加了非線性的效果。

同AlexNet網路相同,VGG採用了5個卷積層和3個全連線層。但是AlexNet每層只有一個卷積層,而VGG採用了多個小的卷積層。使用小的卷積核,是在保證網路精度的前提下,進行減少引數的一個重要的方向。其網路結構如圖3所示:

                                               

                                                                                  圖3 VGG網路結構

GoogLeNet[8]

該網路在ILSVRC-2014上力壓VGG,以 TOP-5準確率93.3%奪得冠軍。GoogLeNet做到了22層深度網路,但是隨著層數的增加,很容易有過擬合和增加計算量的煩惱,作者將全連線的方式改為稀疏連線來解決這兩個問題。利用inception結構,這個結構很好地利用了網路中的計算資源,並且在不增加計算負載的情況下,增加網路的寬度和深度。

所有操作均平行計算出來,而後進行1×1卷積操作來進行降維。由於這些模組的作用,引數及操作的數量大大減少,網路在儲存空間佔用及耗時等方面均取得了進步。GooleNet網路結構見圖4:

                                           

                                                                   圖4 帶有Inception模組的GoogleNet網路結構

ResNet[9]

該網路在ILSVRC-2016中取得的96.4%的準確率而廣受關注,同時也因其152層的深度以及對殘差模組的引入而聞名。

本方法的關鍵想法:保證下一層可以從原始輸入中學到不同新的資訊(因為下一層同時得到了前一層的輸出以及原始的輸入)。另外,這種連線也協助解決了梯度消失的問題。其殘差模組如圖5所示:

                                                        

                                                                               圖5 ResNet的殘差模組

圖中的折線稱為shortcut connection,顧名思義,shortcut就是抄近道。具體的內容參考ResNet解析

ReNet[10]

該網路使用常見的序列RNN模型,RNN模型的數量在每一層關於$d$(輸入影象的維數為$2d$)線性增長。在ReNet中,每個卷積層(卷積+池化)被4個同時在水平方向與豎直方向切分影象的RNN模型所替代,如圖6所示:

                                                         

                                                                                  圖6 ReNet架構中的一層

2.2 遷移學習

用來讓機器偷懶的方法,不用從頭造車,拿輪子來造車的思想。從頭訓練一個深度神經網路通常是不可行的,有這樣兩個原因:一是訓練需要足量的資料集,而這一般是很難得到的;二是網路達到收斂需要很長的時間。

遷移學習合理選擇進行微調的層是很重要的,一般選網路中較高的層因為底層一般傾向於保留更加通用的特徵;同時,合理地確定學習率也是重要的,一般選取較小的值,因為一般認為提前訓練的權重相對比較好,無需過度修改。(趣說遷移學習

2.3 資料預處理和增強

資料增強一般包括在資料空間或特徵空間(或二者結合)上應用一系列的遷移技術。在資料空間上應用增強技術最常見,這種增強技術應用遷移方法從已有資料中可以得到新的樣本。可用的遷移方法有:平移、旋轉、扭曲、縮放、顏色空間轉換、裁剪等。這些方法的目標均是通過生成更多的樣本來構建更大的資料集,防止過擬合以及便於對模型進行正則化,還可以對該資料集的各個類的大小進行平衡,甚至手工地產生對當前任務或應用場景更加具有代表性的新樣本。

資料增強對小資料集尤其有用,而且其效用已經在長期使用過程中被證明。例如,在[11]中,有1500張肖像圖片的資料集通過設計4個新的尺寸$\left( 0.6,0.8,1.2,1.5 \right)$ ,4個新的旋角\left ( -45,-22,22,45 \right ) ,以及4個新的$\gamma $變化$\left( \text{0}\text{.5}\text{0}\text{.8}\text{1}\text{.2}\text{1}\text{.5} \right)$ 被增強為包含19000張訓練影象的資料集。通過這一處理,當使用增強資料集進行微調時,其肖像畫分割系統的交併比(IoU)從73.09%提升到了94.20%。


3、資料集和挑戰

常見的資料集主要有幾種形式:2D或者平面圖、2.5D或RGB-D圖和3D或立體圖。

                                                                               表2常見的大規模分割資料集

                               

表2給出了一些常見的資料集的概覽,收錄了所有本文涉及的資料集並提供了一些有用資訊如他們的被構建的目的、類數、資料格式以及訓練集、驗證集、測試集劃分情況。

3.1 2維資料

常用的14種2維資料集以及訪問網址如表3所示:

                                                                                          表3 常見的2維資料集

資料集名

訪問地址

PASCAL Visual Object Classes視覺物體分類資料集(VOC)

http://host.robots.ox.ac.uk/pascal/VOC/voc2012/

PASCAL 上下文資料集(PASCAL Context)

http://www.cs.stanford.edu/∼roozbeh/pascal-context/

PASCAL 部分資料集(PASCAL Part)

http://www.stat.ucla.edu/∼xianjie.chen/pascal part dataset/pascal part.html

Semantic Boundaries Dataset (SBD、語義邊界資料集)

http://home.bharathh.info/home/sbd

Microsoft Common Objects in Context (COCO) 微軟常見物體環境資料集

http://mscoco.org/

SYNTHetic Collection of Imagery and Annotations (SYNTHIA) 影象與註釋合成數據集

http://synthia-dataset.net/

Cityscapes 城市風光資料集

https://www.cityscapes-dataset.com/

CamVid

http://mi.eng.cam.ac.uk/research/projects/VideoRec/CamVid/

KITTI

[12]

Youtube-Objects (YouTube物體資料集)

[13]

Adobe’s Portrait Segmentation Adobe肖像分割資料集

http://xiaoyongshen.me/webpage portrait/index.html

Materials in Context (MINC) 上下文語料資料集

[14]

Densely-Annotated VIdeo Segmentation (DAVIS) 密集標註的視訊分割資料集

http://davischallenge.org/index.html

Stanford background 斯坦福背景資料集

http://dags.stanford.edu/data/iccv09Data.tar.gz

SiftFlow

[15]

3.2 2.5維資料

常用的5種2.5維資料集以及訪問網址如表4所示:

                                                                                    表4 常見的2.5維資料集

資料集名

訪問地址

NYUDv2資料集

http://cs.nyu.edu/∼silberman/projects/indoor scene seg sup.html

SUN3D資料集

http://sun3d.cs.princeton.edu/

SUNRGBD資料集

http://rgbd.cs.princeton.edu/

The Object Segmentation Database (OSD) 物體分割資料集

http://www.acin.tuwien.ac.at/?id=289

RGB-D Object Dataset RGB-D物體資料集

http://rgbd-dataset.cs.washington.edu/

3.3 3維資料

常用的5種3維資料集以及訪問網址如表5所示:

                                                                               表5 常見的3維資料集

資料集名

訪問地址

ShapeNet部分資料集

http://cs.stanford.edu/ericyi/project page/part annotation/

斯坦福2D-3D-S資料集

http://buildingparser.stanford.edu

三維網格分割基準資料集

http://segeval.cs.princeton.edu/

悉尼城市物體資料集

http://www.acfr.usyd.edu.au/papers/SydneyUrbanObjectsDataset.shtml

大規模點雲分類基準資料集

http://www.semantic3d.net/


4、基於深度學習的語義分割方法

基於深度學習的語義分割的方法彙總見表6:

                                                                       表6 深度學習的語義分割的方法彙總

  

4.1 FCN

目前,最成功用於語義分割的深度學習技術均來自全卷積網路FCN [16]。其結構如圖7所示:

                                                               

                                                                                      圖7 FCN網路結構

該方法利用了現存的卷積神經網路作為其模組之一來產生層次化的特徵。[16]將現存的知名的分類模型包括AlexNet、VGG-16、GoogLeNet和ResNet等轉化為全卷積模型:將其全連線層均替換為卷積層,輸出空間對映代替分類分數。這些對映由小步幅卷積上取樣(又稱反捲積)得到,來產生密集的畫素級別的標籤。本方法在標準資料集如PASCAL VOC分割準確率上相對於傳統方法取得了極大的進步,且同樣高效。由於上述及更多顯著的貢獻,FCN成為了深度學習技術應用於語義分割問題的基石。

對FCN的貢獻的一個總結為:

⑴ 推廣端到端卷積網路在語義分割領域中的應用;

⑵ 修改ImageNet預訓練模型並應用於影象語義分割;

⑶ 採用解卷積層(deconvolutional layer)實現上取樣;

⑷ 引入跳躍連線(skip connections)改善上取樣的粒度(coarseness)。

4.2 SegNet[17]

其與FCN的對比圖見圖8:

                                                

                                                                        圖8 FCN(右)和SegNet(左)的對比圖

該網路的主要貢獻:

⑴ 將最大池化索引(Maxpooling indices)轉換到解碼器,從而提升分割解析度。

4.3 Conditional Random Fields (條件隨機場,CRFs)

CRF促成了底層影象資訊與產生畫素級別的類別標籤的多類別推理輸出的結合,這種結合對於捕捉長期依賴性質尤其重要,這也是關注於區域性細節的CNN所未能考慮到的。文中提到的DeepLab(v1 & v2)的主要貢獻有:

⑴ 採用了帶孔/空洞卷積;

⑵ 提出了金字塔型的空洞池化;

⑶ 採用全連線的CRF;

圖9展示了這種基於CRF的後處理過程對DeepLab模型產生的得分和信念對映(the belief maps,不知道翻譯的對不對)產生的影響。

                                           

                           圖9 DeepLab中展示的CRF調優每次迭代帶來的影響:第一行是得分對映,第二行是信念對映。

4.4 Dilated Convolutions (擴張的卷積)

該網路的主要貢獻:

⑴ 採用空洞卷積(dilated convolution)作為能夠實現畫素級預測的卷積層;

⑵ 提出“背景模組”(context module),用於空洞卷積的多尺度聚合。

如圖9所示,擴張率為1的擴張卷積使得感受野呈現指數級的增長,而濾波器的引數保持線性增長。這意味著擴張卷積可以在任意解析度圖片上高效地提取密集特徵。另外,值得注意的是一般的卷積只是擴張率為1時的特殊情況。

                                         

                                                                圖9 [18]所展示的不同擴張率的擴張卷積濾波器

4.5 多尺度預測(還需再看看)

整合上下文知識的另一種可能的做法便是使用多尺度預測,多尺度的網路一般都是選用多個處理不同尺度的網路,最後將他們的預測結果結合,產生一個單一的輸出。

4.6 特徵融合

特種融合技術將一個全域性特徵(由某網路中較前面的層提取得到)與一個相對區域性的特徵對映(後邊的層提取得)相結合,分為先融合和後融合。常見的架構如原始FCN網路利用跳躍連線的方式進行後特徵融合,也是通過將不用層產生的特徵對映相結合。                                                      

                                                                      圖10 類似跳躍連線的架構,對特徵對映進行後融合

另一種方法便是先融合,這一方法來自ParseNet[19]中的上下文模組。全域性特徵被反池化為與區域性特徵相同的尺寸,然後,將這兩種特徵進行串聯後得到一個合併的特徵,輸入到下一層或者直接用於分類器的學習。如圖11所示:

                                                    

                                                                           圖11 ParseNet中的上下文模組示意圖

4.6 迴圈神經網路RNN(待繼續深究)

卷積神經網路在影象處理等非一維資料上取得了成功,卷積神經網路依賴於提前設計好的引數,將網路限制於區域性上下文中。得益於自身的拓撲結構,迴圈神經網路成功地應用到了對長期或短期序列的建模上。但是,一個重要的問題是:圖片中缺乏自然的序列結構,而RNN架構僅關注一維的輸入。

基於面向分類的ReNet模型,Visin等人提出了ReSeg模型[20]用於語義分割,如圖12所示。

                                                                             圖12 ReSeg網路示意圖

在本方法中,輸入影象在第一層VGG-16層中被處理,特徵對映結果送入一個或更多的ReNet層中來進行微調。最終,特徵對映的尺寸被調整,使用的是基於反捲積的上取樣層。在本方法中,門迴圈單元(GRU)被用來平衡佔用空間與計算複雜度。一般的RNN在建模長期依賴關係時表現不好,主要是因為梯度消失問題的存在。由此產生的長短期記憶網路(LSTM)[97] 和GRU [98]是該領域目前最好的兩種方法,可以避免以上問題。

受ReNet架構的啟發,有人為場景標註問題提出了一種新型的長短期記憶上下文融合模型(LSTM-CF)[21]。

4.7 例項分割(這些方法再仔細瞭解一下吧)

例項分割被認為是語義分割的下一步,與此同時其相對於其他底層畫素級別分割技術來說是最具挑戰性的。該問題的主要目標是將同一類的不同物體分割為各個例項,這個處理過程的自動化操作並不直觀,因此,例項的數量並不是預先知道的,對得到的預測的評估方法也不像語義分割一樣達到畫素級別。所以,這個問題至今仍有部分未被解決,但是考慮到其潛在的應用,目前領域研究者對此保有興趣。例項標註為我們分析遮擋情況提供了額外的資訊,還可以數出屬於同一類的物體的數量,從而可以為執行抓取任務的機器人檢測出特定的物體。

基於此目的,Hariharan等人提出了一種同時檢測和分割(SDS)的方法來提高現有方法的表現。

一種自下而上的層次化影象分割方法,稱之為多尺度可結合組,以此得到建議的分割區域。對於每個區域,使用適合的區域CNN(R-CNN)版本來提取特徵,其是由MCG方法中給出的邊界框微調而來,而不是由選擇性的搜尋以及前景區域得出。然後,對每個建議的區域使用線性支援向量機(SVM)在CNN頂層特徵上進行分類。最後,為了進行調優,非最大抑制(NMS)方法被應用到了先前的區域建議上。

接下來,Pinheiro等人[83]提出了深度掩模(DeepMask)模型,這是一種對物體給出提議的方法,基於單個的卷積網路。這個模型對於一個輸入的分塊預測出一個分割的覆蓋區域,並給出這個塊中包含物體的概率。這兩個任務同時被一個單個的網路所學習和計算,他們共享多數的層,除了最後一層實現特定任務的層。

另一種方法由Zagoruyko等人[85]提出,使用快速R-CNN作為起點,使用深度掩模的物體提議而不是選擇性搜尋。這種結合多種方法的系統成為多路分類器,提高了COCO資料集上的表現,對於快速R-CNN做出了三處修改:使用整合的損失項改善了定位能力,使用中心區域提供上下文資訊,以及最終跳過連線來為網路給出多尺度的特徵。該系統相對於快速R-CNN取得了66%的提升。

可以看出,多數提到的方法依賴於現有的物體檢測方法,這限制了模型的表現。即使這樣,例項分割過程依然有很多問題未被解決,上述方法僅僅是這個有挑戰性的方向的一小部分。

4.8 RGB-D 資料

深度資料需要被編碼為每個畫素點上的三個通道,就好像是RGB影象一樣。有許多不同的技術,比如水平-高度-角度方法,這個方法被用於將深度資訊編碼為以下三個通道:水平方向的差距,距離“地面”的高度,以及區域性表面法向與推知的重力方向的夾角。

Zeng等人[22]提出了一種使用多視角RGB-D資料和深度學習技術的物體分割方法。多視角捕獲的RGB-D資料被送入FCN網路中,得到每個影象每個畫素點分別作為40類的概率。分割標籤由閾值截斷,該閾值為各個視角下平均概率的三倍。另外,本工作訓練多個網路(AlexNet和VGG-16)來提取特徵,然後來評估使用深度資訊的優勢。

Ma等人提出了一個全新的物體類別分割方法,使用的也是多視角深度學習技術。多個視角是由運動的RGB-D攝像機拍攝的,在訓練階段,使用RGB-D SLAM技術獲取攝像機軌跡,然後將RGB-D影象扭曲成與真實標註資料相同尺度以保證訓練中的多視角的連續性。該方法基於FuseNet[23],其在語義分割過程中結合了RGB與深度影象,通過加入多尺度的損失最小化技術改善了原有工作的表現。

4.9 3維資料(再看看)

為了在卷積網路中促成引數共享以及其他優化形式,多數工作藉助於三維立體網格或者對映來將非結構化或者不規則點雲或網格轉化為普通表示形式,然後再將其輸入網路中。例如,Huang等人[24](如圖13所示)選取了一個點雲,通過一個密集的立體網格對其進行分析,生成了一系列的佔位體元,將其作為三維CNN的輸入併為每個體元產生一個標籤,最後,演算法將標籤映射回點雲。

                                               

                                                                               圖13 基於3DCNN的點雲語義標註系統

PointNet[25]是一個先驅性的工作,提出了一種深度神經網路來將原始的點雲作為輸入,給出了一個同時進行分類和分割的聯合的架構。圖14展示了這種可以處理無序三維點集的雙模組的網路。

   

                                                              圖14  PointNet聯合結構,用於分類和分割

4.10 視訊序列

這方面最具標誌性的工作便是Shelhamer等人提出的時鐘FCN網路。該網路改編自FCN,使用視訊中的短期線索來減少推理時間,同時保證正確率。這種時鐘的方法依賴於以下想法:特徵速度,即網路中短期的特徵變化率,其在各層中經過某幀時是變化的,因此來自淺層的特徵變化的比來自深層的特徵要快。圖15展示了時鐘FCN的結構:

                                        

                                                                                   圖15 時鐘FCN的結構

作者提出了兩種更新速率的策略:固定的和自適應的。固定的策略直接為每個階段設定一個常數時間來重新計算特徵。自適應策略則使用資料驅動的方法來設定時鐘,例如,時鐘依賴於運動或語義改變的數量。圖16展示了這種自適應策略的例子:

                                       

                                                                                    圖16 自適應的時鐘方法


5、討論

5.1 評價指標

主要有執行時間、佔用儲存空間和準確率,其中準確率是目前比較常用的評價指標,幾種常用的準確率有畫素準確率、畫素準確率平均值、平均交併比(最常用)和頻率加權交併比。

5.2 方法效果

論文中收集了這些方法對應論文中報告的所有的量化的結果。這些結果按照其輸入資料集的不同分為三個部分:二維RGB資料、2.5維RGB-D資料以及三維體資料或視訊序列資料。

⑴ RGB影象

對於二維影象這一類,論文選取了7個數據集:PASCAL VOC 2012、PASCAL上下文、PASCAL人物、CamVid、CityScapes、斯坦福背景以及SiftFlow資料集。這些資料集涵蓋了多種情況和優化目標。每個資料集最好的方法和準確率見表7:

                                                                               表7 現有2維資料集的最優方法及其IoU

資料集名

最優方法

準確率(IoU)

PASCAL VOC 2012

DeepLab

79.70

PASCAL上下文

DeepLab

45.70

PASCAL人物

DeepLab

64.94

CamVid

DAG-RNN

91.60

CityScapes

DeepLab

70.40

斯坦福背景

rCNN

80.20

SiftFlow資料集

DAG-RNN

85.30

⑵ 2.5維資料

本文選擇了三個資料集進行分析,分別是SUN-RGB-D、NYUDv2、SUN3D。表8分別給出了這三個資料集上最優的結果。

                                                                        表8 現有2.5維資料集的最優方法及其IoU

資料集名

最優方法

準確率(IoU)

SUN-RGB-D

LSTM-CF

48.10

NYUDv2

LSTM-CF

49.40

SUN3D

LSTM-CF

58.50

⑶ 3維資料

本文選擇了三個資料集進行分析,分別是ShapeNet Part和Stanford-2D-3D-S。表9分別給出了這兩個資料集上最優的結果。

                                                                         表9 現有3維資料集的最優方法及其IoU

資料集名

最優方法

準確率(IoU)

ShapeNet Part

PointNet

83.70

Stanford-2D-3D-S

PointNet

47.71

⑷ 序列資料

本文選擇了三個資料集進行分析,分別是CityScapes和YouTube-Objects。表10分別給出了這兩個資料集上最優的結果。

                                                                      表10 現有3維資料集的最優方法及其IoU

資料集名

最優方法

準確率(IoU)

CityScapes

PointNet

64.40

YouTube-Objects

PointNet

68.50

5. 未來研究方向

基於以上回顧過的代表了目前最高水平的方法,我們給出了一系列的未來研究的可能的方向。

1)三維資料集:目前急需一個大規模三維語義分割資料集,但這相對於其低維部分來說是較難建立的。雖然已經有了一些不錯的工作,仍然需要更多、更好、更富變化的資料集的出現。

2)序列資料集:目前僅有少數幾個資料集是基於序列的,這些資料集對於利用時間序列資訊的方法的發展很有利。從本質上將二維及三維高質量資料聯絡起來必將引領新的研究方向。

3)使用圖卷積網路(GCN)對點雲進行分割:如之前所述,處理三維資料如點雲等目前尚未解決,由於點雲內在的無序性及非結構性,傳統的架構如CNN等不能直接予以應用,除非使用某種離散化手段使其結構化。一個靠譜的研究方向便致力於將點雲處理為圖,然後在其上應用卷積。這種做法的好處便是在不量化資料的基礎上保留了每個維度上的空間資訊。

4)上下文知識:雖然FCN是語義分割領域中的一種堅實的方法,但是FCN網路缺乏對於上下文等特徵的建模,而這些資訊有可能會提高準確率。將CRF重寫為RNN來創造一種端對端的解決方法看起來是一個靠譜的方法,可以提高真實生活場景下的效能。多尺度及特徵融合方法也取得了較大的進展。總之,這些方法已經取得了不小的進步,但是仍然有許多問題亟待解決。

5)實時分割:在很多應用場景下,準確率是重要的,但是,能夠處理達到常見的攝像機幀率(至少25幀每秒)的輸入速度也是很關鍵的。目前多數的方法遠遠達不到這個幀率,比如,FCN-8處理一張低解析度的PASCAL VOC資料集中的影象需要100ms,同時,CRFasRNN需要500ms。因此,接下來幾年,期待會有一系列的工作關注於實時處理的限定,這些工作將必須在準確率與執行時間之間尋求一個平衡。

6)儲存空間:某些平臺受限於其儲存空間。分割網路一般需要較大的儲存空間,從而可以同時進行推理與訓練。為了適應各種裝置,網路必須要簡單。雖然這可以通過降低複雜性(一般會犧牲準確率)來簡單地實現,但是還是可以採取另外的辦法。剪枝是一種靠譜的研究方向,可以用來簡化網路,使得網路在保留多數資訊的同時變得輕量化,也因此同時保留了原網路的準確率。

7)序列資料的時間一致性:一些方法解決了視訊或序列分割的問題,但是他們有些未利用時間序列資訊來提高準確率或效率。然而,沒有一種方法解決了一致性的問題。對於一個應用在視訊流上的分割系統來說,一致性資訊是重要的,不僅可以逐幀地處理資料,還可以對整個片段的處理保持一致,而不需要通過平滑為序列預測出的畫素級別的標籤而產生人工的資訊。

8)多視角整合:在最近提出的分割網路上應用多視角資訊目前僅僅限於RGB-D攝像機相關的場景,尤其是致力於單一物體分割的情況。


論文的優點

⑴ 第一篇對現有的文獻進行總結的文中,儘可能的對每個方法進行了對比;

⑵ 指出現有的方法的不足,提出了未來工作的展望;

論文的缺點(個人感覺)

⑴ 太過在意創新點,列舉了一些不常見的方法,還有一些其他優秀的方法未列舉。(簡單說就是論文中有的地方還沒來得及細看,或者我沒看懂)


產生的問題

A、為什麼兩個3*3的卷積層相當於一個5*5的卷積層?

正確的說法是:對一個5*5的感受野先進行一次3*3的對位卷積,然後再經過一次3*3,便得到等同與5*5的卷積結果。具體效果如圖17所示:

                              &