1. 程式人生 > >基於深度學習的圖像語義分割技術概述之背景與深度網絡架構

基於深度學習的圖像語義分割技術概述之背景與深度網絡架構

模糊 blank dog 像素 單獨 取出 rate 分類 底層

圖像語義分割正在逐漸成為計算機視覺及機器學習研究人員的研究熱點。大量應用需要精確、高效的分割機制,如:自動駕駛、室內導航、及虛擬/增強現實系統。這種需求與機器視覺方面的深度學習領域的目標一致,包括語義分割或場景理解。本文對多種應用領域語義分割的深度學習方法進行概述。首先,我們給出本領域的術語及主要背景知識。其次,介紹主要的數據集及難點,以幫助研究人員找到合適的數據集和研究目標。之後,概述現有方法,及其貢獻。最後,給出提及方法的量化標準及其基於的數據集,接著是對於結果的討論。最終,對於基於深度學習的語義分割,指出未來重點並得出結論。

細粒度分類:同一類中不同子類物體間的分類。
難點:受視角、背景、遮擋等因素影響較大,類內差異較大、類間差異較小。

基於深度學習的物體分類可以大致分為4類:分類,對齊,不同特征相似性的判斷,分區

使用通用DCNN(Deep Convolutional Neural Network,深度卷積神經網絡)進行細粒度分類;

先使用DCNN進行部件定位,之後進行部位對齊;

使用多個DCNN對細粒度識別中的相似特征進行判別;

使用註意力模型定位區分性強的區域

詞包模型:在介紹詞包模型前,我們先簡單回憶下自然語言處理中的詞包模型。詞包在自然語言處理中是一項非常流行的代表文檔的技術,它忽略了文檔中詞的順序。例如,在這個模型下,"a good book"和"book good a"是一樣的。詞包模型應用基於詞典的建模方法,每個文檔像一個包(因此忽略了次序),包含了一些來著詞典的詞。計算機視覺的研究人員用了一個相似的思想來表示圖像(這的圖像可能特指一個特殊的對象,例如一張汽車的圖像)。例如,把一張圖像當做一個文檔,從圖像中提取出來的特征就相當於詞(通常還需要一些額外的操作,下面會提到)。詞包表示法可以作為進一步圖像處理的基本步驟,如對象分類。

1.底層特征提取

a.基於興趣點檢測:像素點、邊緣、角點、一般會有一定的幾何不變性,用的比較多的有Harris角點、FAST(feature from accelerated segment test)、LOG(laplacian of guassian)、DOG(difference of gaussian)。

b.密集點提取:從圖像中按照固定步長、尺度提取出大量的局部特征描述如SIFT、HOG、LBP(local binary pattern)

2.特征編碼

底層特征包含冗余和噪聲,需要一種特征變換算法對底層進行編碼,從而獲得更加具有區分性、更加魯棒的特征表達,重要的特征編碼算法包括:向量量化編碼,核詞典編碼、稀疏編碼、局部線性約束編碼、顯著性編碼、Fisher向量編碼、超向量編碼。

向量量化編碼:是通過一種量化的思想,使用一個較小的特征集合(視覺詞典)來對底層特征進行描述,達到特征壓縮的目的.向量量化編碼只在最近的視覺單詞上響應為1,因而又稱為硬量化編碼、硬投票編碼,這意味著向量量化編碼只能對局部特征進行很粗糙的重構. 但向量量化編碼思想簡單、直觀,也比較容易高效實現。

局限性:在實際圖像中,圖像局部特征常常存在一定的模糊性,即一個局部特征可能和多個視覺單詞差別很小,這個時候若使用向量量化編碼將只利用距離最近的視覺單詞,而忽略了其他相似性很高的視覺單詞。

軟量化編碼(又稱核視覺詞典編碼)算法,局部特征不再使用一個視覺單詞描述,而是由距離最近的犓個視覺單詞加權後進行描述,有效解決了視覺單詞的模糊性問題,提高了物體識別的精度.

稀疏編碼通過最小二乘重構加入稀疏約束來實現在一個過完備基上響應的稀疏性.得到一個高維的高度稀疏的特征表達,大大提高了特征表達的線性可分性,僅僅使用線性分類器就得到了當時最好的物體分類結果,將物體分類的研究推向了一個新的高度上。

局限性:稀疏編碼存在一個問題,即相似的局部特征可能經過稀疏編碼後在不同的視覺單詞上產生響應,這種變換的不連續性必然會產生編碼後特征的不匹配,影響特征的區分性能.

局部線性約束編碼它通過加入局部線性約束,在一個局部流形上對底層特征進行編碼重構,這樣既可以保證得到的特征編碼不會有稀疏編碼存在的不連續問題,也保持了稀疏編碼的特征稀疏性。

顯著性編碼引入了視覺顯著性的概念,如果一個局部特征到最近和次近的視覺單詞的距離差別很小,則認為這個局部特征是不“顯著的”,從而編碼後的響應也很小。編碼速度也比稀疏編碼快很多
FISHER向量編碼同時融合了產生式模型和判別式模型的能力,與傳統的基於重構的特征編碼方法不同,它記錄了局部特征與視覺單詞之間的一階差分和二階差分

超向量編碼則直接使用局部特征與最近的視覺單詞的差來替換之前簡單的硬投票. 這種特征編碼方式得到的特征向量表達通常是傳統基於重構編碼方法的M倍(M是局部特征的維度).

3.特征匯聚

空間特征匯聚是特征編碼後進行的特征集整合操作,通過對編碼後的特征,每一維都取其最大值或者平均值,得到一個緊致的特征向量作為圖像的特征表達. 這一步得到的圖像表達可以獲得一定的特征不變性,同時也避免了使用 特征集進行圖像表達的高額代價. 最大值匯聚在絕大部分情況下的性能要優於平均值匯聚,也在物體分類中使用最為廣泛。由於圖像通常具有極強的空間結構約束,空間金字塔匹配(spatial pyramid matching,SPM)提出將圖像均勻分塊,然後每個區塊裏面單獨做特征匯聚操作並將所有特征向量拼接起來作為圖像最終的特征表達.

術語及背景概念

語義分割不是一個孤立的問題,而是圖像推理從粗粒度到細粒度的過程中一個自然的步驟。

  • 分類(classification),對整個輸入進行預測,即預測圖像中是什麽物體、或者給出物體的鏈表如果圖中有多個物體。
  • 定位或檢測(localization and detection)是細粒度推測的進一步發展,不只提供物體的類別,同時提供這些類的位置,例如:圖心或邊界框。
  • 語義分割(semantic segmentation)進行稠密預測(dense prediction)推斷每個像素點的類標簽,通過這種方式,區域或物體內的像素點被標記為相應的類別。
  • 物體分割(instance segmentation):分別標記同一類的不同物體,甚至是基於部分的分割(part based segmentation),將已經分割出的類進一步分割為底層的組成部分。

像素分類問題可以被簡化為以下問題:對於隨機變量集合X={x1,x2,...,xn}X={x1,x2,...,xn}中的任一元素,尋找一種方法來分配類標簽L={l1,l2,...,lk}L={l1,l2,...,lk}。每個類標簽ll代表不同的類或物體,例如,飛機、汽車、交通標誌或者背景。標簽空間有kk中可能的狀態,其通常會被拓展到k+1k+1並且將l0l0作為背景或者空類。通常XX為W×H=NW×H=N的2D2D圖片中的像素值。

基於深度學習的圖像語義分割技術概述之背景與深度網絡架構