1. 程式人生 > >【顯著性目標檢測】CVPR2018 顯著性檢測領域論文整理解讀(Salient Object Detection)

【顯著性目標檢測】CVPR2018 顯著性檢測領域論文整理解讀(Salient Object Detection)

前言:CVPR2018會議論文集已經公示(CVPR2018全部論文集連結),本文對顯著性目標檢測領域的6篇進行了整理,將這幾篇論文的主體思想彙總起來,供大家一起學習。

一、論文列表:

1.《Flow Guided Recurrent Neural Encoder for Video Salient Object Detection》;
2.《A Bi-Directional Message Passing Model for Salient Object Detection》;
3.《Progressive Attention Guided Recurrent Network for Salient Object Detection》;
4.《Progressively Complementarity-Aware Fusion Network for RGB-D Salient Object Detection》;
5.《Revisiting Salient Object Detection! Simultaneous Detection, Ranking, and Subitizing of Multiple Sal》;
6.《Salient Object Detection Driven by Fixation Prediction》。

二、論文解讀

1.《Flow Guided Recurrent Neural Encoder for Video Salient Object Detection》

G. Li, Y. Xie, T. Wei, K. Wang and L. Lin
中山大學,浙江大學,商湯科技
點此處論文連結

問題:之前接觸到的顯著性檢測論文基本上都是針對影象的,而該論文做的是視訊顯著性目標檢測。相比於影象,視訊顯著性檢測的難點如下:目標或相機的移動,以及視訊中對比度的劇烈變化,會影響顯著性目標檢測的結果;雖然靜態影象的顯著性檢測模型很多,但其都很難擴充套件到視訊顯著性檢測任務中去。

本文方法:

針對上述問題,該論文提出了一個光流引導的遞迴神經網路解碼器(Flow guided recurrent neural encoder, FGRNE):利用光流來獲取運動資訊,用LSTM來進行時序特徵的演化編碼,從而提高不同幀的特徵間時間相干性。作者認為該模型可以看作是任何基於FCN的靜態顯著性檢測演算法擴充套件到視訊顯著性檢測的通用框架。

2.《A Bi-Directional Message Passing Model for Salient Object Detection》

L. Zhang, J. Dai, H. Lu, Y. He, and G. Wang
大連理工,海軍航空大學,阿里 AILabs

點此處論文連結

問題:在傳統方法中,基於各種saliency cues的模型是顯著性檢測的主流演算法之一。而近年來顯著性目標檢測模型大部分都是基於深度神經網路的(CNN、FCN等)。不同卷基層特徵中的Saliency Cues包含了對顯著性目標檢測任務的補充資訊,如何整合這些特徵是顯著性檢測領域的一個問題。

本文方法:在該論文中,作者提出了一個雙向資訊傳遞模型(Bi-Directional Message Passing Model)來結合不同層的特徵。首先,對 multi-level feature maps採用一個多尺度情感感知特徵提取模組(Multi-scale Context-aware Feature Extraction Module, MCFEM)來獲取豐富的環境資訊。其次,用一個雙向結構來通過不同層的特徵,並用一個門限函式來控制資訊流通率。資訊傳遞(Message Passing)後的特徵同時編碼進了語義資訊與空間細節資訊,所以可以用其來預測Saliency Maps。最後,前面的預測結果結合起來生成最終的Saliency Map。

3.《Progressive Attention Guided Recurrent Network for Salient Object Detection》

X. Zhang, T. Wang, J. Qi, H. Lu, and G. Wang
大連理工,阿里 AILabs
點此處論文連結

問題: FCN網路提出來後,被廣泛地運用到顯著性檢測領域中,但是基於FCN的方法都是無差別地應用不同層的卷積特徵。其實不同層的特徵表述的資訊均不同,資訊的主要程度也都不同,所以無差別地處理不同特徵,這會導致生成次優的結果。

注意力模型(Attention Model)借鑑了人腦的注意力機制,旨在從眾多資訊中選擇出對當前任務更關鍵的資訊,給予其較大的權重。這正好可以解決上述FCN對不同特徵進行無差別處理的問題。

本文方法:本問提出了一個注意力引導的網路,其可以以漸進的方式有選擇地融合不同層的內容資訊。網路產生的attention features可以減輕背景資訊的分散性。

4.《Progressively Complementarity-Aware Fusion Network for RGB-D Salient Object Detection》

H. Chen, and Y. Li
香港城市大學
點此處論文連結

問題:如何充分的結合跨模態互補性是RGB-D影象顯著性檢測中的基本問題。以前的方法僅通過簡單地連結跨模態特徵或者組合單峰預測來解決該問題。

補充資訊:
- 跨模態互補性,比如圖可以提供文字表達不了的資訊,文字可以表述影象表示不了的資訊。
- RGB-D影象即深度影象,RGB-D影象=普通RGB圖+Depth Map。

本文方法: 本文從兩個方面來解決該問題:(1) 作者認為,如果可以更明確地對互補部分進行建模,則可以更好地捕獲跨模態補充。在採用CNN時,設計了一個新型的補充性感知模組(Complementary-aware fusion module)。通過在每個CA-Fuse模組中引入跨模態殘差函式和補充性感知監督,學習配對模態互補性資訊的問題明確地被假定為漸進近似的殘差函式;
(2) 在所有級別(levels)上探索補充性:通過級聯CA-Fuse模組,並從深到淺新增逐級監督資訊,我們可以逐漸選擇和組合跨模態的資訊。
本文提出的RGB-D融合網路消除了跨模態與跨層融合過程中的歧義,並能得到更充分的融合結果。

5.《Revisiting Salient Object Detection! Simultaneous Detection, Ranking, and Subitizing of Multiple Sal》

M. Islam, M. Kalash, and N. Bruce
曼尼託巴大學(加拿大),瑞爾森大學(加拿大)
點此處論文連結

問題: 作者認為,顯著性目標檢測領域迄今為止的工作解決的是一個相當病態的問題。即不同的人對於什麼是顯著性目標沒有一個普遍的一致意見。這意味著一些目標會比另一些目標更加顯著,並且不同的顯著性目標中存在著一個相對排名。

本文方法: 本文方法解決了考慮了相對排名這個更普遍的問題,並且提出了適合於衡量該問題的資料與度量方法,本文解決方案是基於相對顯著性和分段式細化的分層表示的深度網路。該網路也可以解決顯著性目標計數問題。

6.《Salient Object Detection Driven by Fixation Prediction》

W. Wang, J. Shen, X. Dong, and A. Borji
北京理工大學,Inception Institute of Artificial Intelligence(阿布扎比,阿拉伯聯合大公國),中佛羅里達大學(美國)
點此處論文連結

問題: 眼動預測(Fixtion Prediction)和顯著性目標檢測(Salient Object Detection)是視覺顯著性研究中的兩大主要領域,但是這兩者之間的關係卻很少被探索過。

本文方法: 本文提出了一個新型的注意力顯著性網路(ASNet),其利用眼動預測的結果圖來確定並分割場景中的顯著性目標。具體來說,從較高網路層中得到的fixation map捕捉了場景中的高層語義資訊。然後將顯著性目標檢測視為深入的目標級顯著性分割,並且以自上而下的方式在fixation map的引導下逐漸優化。
ASNet基於卷積LSTM的層次結構,為分割圖的連續細化提供了有效的迴圈機制。