1. 程式人生 > >顯著性論文閱讀Saliency Detection with Recurrent Fully Convolutional Networks

顯著性論文閱讀Saliency Detection with Recurrent Fully Convolutional Networks

摘要

深度網路已經被證明可以編碼高階語義特徵,並在顯著性檢測中提供卓越的效能。 在本文中,我們通過使用迴圈完全卷積網路(RFCN)開發新的顯著性模型更進一步。此外,迴圈體系結構使我們的方法能夠通過糾正其先前的錯誤自動學習優化顯著性對映。 為了訓練具有多個引數的這樣的網路,我們提出了使用語義分段資料的預訓練策略,其同時利用對分段任務的強有力的監督以進行更好的訓練,並使網路能夠捕獲物件的通用表示以用於顯著性檢測。 通過廣泛的實驗評估,我們證明了所提出的方法優於最先進的方法,並且所提出的迴圈深度模型以及預訓練方法可以顯著提高效能。

1.簡介

顯著性檢測一般可分為兩個子類別:顯著物件分割[12,38,16]和眼睛固定檢測[26,7]。 本文主要關注顯著物件分割,旨在突出影象中最引人注目和吸引眼球的物件區域。 它已被用作預處理步驟,以促進廣泛的視覺應用,並越來越受到社群的關注。 儘管取得了很大進展,但開發能夠處理現實世界不利情景的有效演算法仍然是一項非常具有挑戰性的任務。
大多數現有方法通過手工製作的模型和啟發式顯著性先驗來解決顯著性檢測問題。例如,對比度先驗制定顯著性檢測作為中心周圍的對比度分析,並捕獲以全球稀有為特徵或從鄰居本地突出的顯著區域。
另外,邊界先前將邊界區域視為背景,並通過將背景資訊傳播到其餘影象區域來檢測前景物件。雖然這些顯著性先驗已被證明在某些情況下是有效的(圖1第一行),但它們不足以發現複雜場景中的顯著物體(圖1第二行)。此外,基於顯著性優先的方法主要依賴於低階手工製作的特徵,這些特徵無法捕獲物件的語義概念。如圖1的第三行所示,在某些情況下,高階語義資訊在區分前景物件與具有相似外觀的背景中起著重要作用。
最近,深度卷積神經網路(CNN)在許多視覺任務中實現了創紀錄的效能,例如,影象分類[15,28],目標檢測[5,27],目標跟蹤[32,33],語義分割[22,21]等。現有方法表明深層CNN也可以有利於鹽水檢測,並且非常有效。通過準確識別語義上突出的物件來處理複雜場景(圖1第三行)。雖然已經實現了更好的效能,但是現有的基於CNN的顯著性檢測方法仍然存在三個主要問題。首先,大多數基於CNN的方法完全拋棄了顯著在以前的工作中有效的顯著性先驗。其次,CNN僅考慮區域性影象塊的有限尺寸來預測畫素的顯著性標籤。它們大多不能強制執行空間一致性,並且可能不可避免地做出不正確的預測。但是,對於前饋架構,CNN很難完善輸出預測。最後,顯著性檢測主要被公式化為二元分類問題,即前景或背景。與具有數千個類別的影象分類任務相比,二進位制標籤的監督相對較弱,無法有效地訓練具有大量引數的深度CNN。
為了緩解上述問題,我們研究了用於顯著性檢測的迴圈完全卷積網路(RFCN)。在每個時間步長中,我們通過RFCN向前饋送輸入RGB影象和顯著性先驗圖,以獲得預測顯著圖,該預測顯著圖又用作下一時間步中的顯著性先前圖。通過結合指示潛在顯著區域的顯著性先驗來初始化第一時間步驟中的先前對映。我們的RFCN架構與現有的基於CNN的方法相比具有兩個優勢:a)利用顯著性先驗使訓練深度模型更容易並且產生更準確的預測; b)與前饋網路相反,我們的RFCN網路的輸出作為反饋訊號提供,使得RFCN能夠通過糾正其先前的錯誤來改進顯著性預測,直到在最後時間步驟中產生最終預測。為了訓練RFCN進行顯著性檢測,開發了一種新的預訓練策略,該策略利用語義分割資料的豐富屬性資訊進行監督。圖2演示了所提出的RFCN模型的架構概述。
總之,這項工作的貢獻是三倍。 首先,我們提出了一種使用迴圈完全卷積網路的顯著性檢測方法,該方法能夠改進先前的預測。 其次,將顯著性先驗納入網路以促進培訓和推理。 第三,我們使用語義分割資料設計用於顯著性檢測的RFCN預訓練方法,以利用來自多個物件類別的強監督並捕獲通用物件的內在表示。 所提出的顯著性檢測方法產生更準確的顯著性圖,並且在四個基準資料集上具有相當大的優勢,優於最先進的方法。

2.相關工作

現有的顯著性檢測方法可以主要分為兩類,即手工製作的模型或基於學習的方法。大多數手工製作的方法可以追溯到特徵整合理論[30],其中選擇重要的視覺特徵並將其組合以模擬視覺注意力。後來,Itti等人。 [8]建議通過顏色,強度和方向特徵的中心 - 環繞對比度來測量顯著性。謝等人。 [34]在貝葉斯框架中制定顯著性檢測,並通過似然概率估計視覺顯著性。在[3]中,通過考慮用於顯著性測量的影象畫素的外觀相似性和空間分佈來開發軟影象抽象。同時,背景優先也被許多手工製作的模型[36,10,38,6]常用,其中基本假設是影象邊界區域更可能是背景。然後可以通過使用邊界區域作為背景種子的標籤傳播來識別突出區域。
手工製作的顯著性方法既高效又有效,但在處理複雜場景時卻不夠穩健。最近,基於學習的方法受到了社群的更多關注。這些方法可以通過在具有註釋的影象資料上訓練檢測器(例如,隨機森林[12,19],深度網路[31,37,17]等)來自動學習檢測顯著性。其中,基於深度網路的顯著性模型表現出非常有競爭力的表現。例如,Wang等人。 [31]建議分別通過訓練DNN-L和DNN-G網路進行區域性估計和全域性搜尋來檢測顯著區域。在[16]中,通過採用周圍區域的多尺度CNN特徵,訓練完全連線的網路以迴歸每個超畫素的顯著度。這兩種方法進行逐片掃描以獲得輸入的顯著圖。影象,這是非常計算昂貴的。此外,他們直接訓練顯著性檢測資料集的深層模型,忽略二元標籤監管不力的問題。為了解決上述問題,Li等人。 [17]建議使用在多工學習框架下訓練的完全卷積網路(FCN)來檢測顯著性。雖然具有相似的精神,但我們的方法在三個方面與[17]有顯著的不同。首先,顯著性先驗被用於網路訓練和推理,在[17]中被忽略。其次,我們設計了一種能夠改進生成的預測的迴圈體系結構,而不是[17]中的前饋體系結構。第三,我們的深度網路預訓練方法允許使用分割資料學習特定於類的特徵和通用物件表示。相比之下,[17]僅針對區分不同類別的物件的任務訓練網路分割資料,這與顯著物件檢測的任務本質上不同。
遞迴神經網路(RNN)已應用於許多視覺任務[20,25]。我們方法中的迴圈體系結構主要用作糾正先前錯誤的細化機制。與強烈依賴上一步隱藏單元的現有RNN相比,RFCN僅將最後一步的最終輸出作為先驗。因此,它需要更少的步驟來收斂並且更容易訓練。

3.迴圈網路的顯著性預測

用於影象分類的傳統CNN包括卷積層,接著是完全連線的層,其採用固定空間大小的影象作為輸入,併產生指示輸入影象的類別的標籤向量。 對於需要空間標籤的任務,例如分割,深度預測等,一些方法以逐個補丁的掃描方式應用CNN進行密集預測。 然而,補丁之間的重疊導致冗餘計算,因此顯著增加了計算開銷。 與現有方法不同,我們考慮完全卷積網路(FCN)架構[22]用於我們的迴圈模型,該模型生成具有相同輸入影象大小的預測。 在3.1節中,我們正式引入了FCN網路進行顯著性檢測。第3.2節介紹了基於RFCN網路的顯著性方法。 最後,我們將在3.3節中展示如何訓練RFCN網路進行顯著性檢測。

3.1用於顯著性目標檢測的全卷積網路

作為CNN的構建塊的卷積層是在平移不變的基礎上定義的,並且具有跨不同空間位置的共享權重。 卷積層的輸入和輸出都是稱為特徵對映的3D張量,其中輸出特徵對映是通過將輸入特徵對映上的卷積核卷積為

其中X是輸入要素圖; W和b分別表示核心和偏差; * s表示帶有步幅的卷積運算。 結果,輸出特徵對映fs(X; W; b)的解析度被下采樣s。 通常,卷積層與最大池化層和非線性單元(例如,ReLU)交織,以進一步改善平移不變性和表示能力。 然後可以將最後一個卷積層的輸出特徵對映饋送到完全連線的層的堆疊中,這些層丟棄輸入的空間座標併為輸入影象生成全域性標籤(參見圖3(a))。