1. 程式人生 > >CVPR2018-Segmentation相關論文整理

CVPR2018-Segmentation相關論文整理

語義分割
題目 解決問題 使用方法 code 框架
Dynamic Video Segmentation Network 執行速度+視訊中運動表示主要的思想是使用兩個network(一個full-segmentation, 一個flow-warp network), 前者準確,後者用來加速。 對一張圖片劃分四個region , 分別判斷這四個region 過哪一個network, 判斷方式引入 expected confidence score。 動態視訊分段網路(DVSNet)框架的出現是為了在語義視訊分割的質量和效率之間取得平衡。DVSNet框架由兩個卷積神經網路組成:分割網路(例如DeepLabv2)和流動網路(例如FlowNet2)。前者產生高度準確的語義分割,但更深入和更慢。後者比前者快得多,但其輸出需要進一步處理以產生較不準確的語義分段。DVSNet利用決策網路(DN)來確定哪些幀區域應根據稱為預期置信度得分的度量轉發到哪些路徑。DN的使用提出了自適應關鍵幀排程策略,以在執行時自適應調整關鍵幀的更新週期。 tensorflow
Context Encoding for Semantic Segmentation 提出上下文語義編碼模組與類別預測模組,在某種程度上解決或減輕了分割問題中類間樣本不均衡的問題,而這類問題在以畫素為度量的損失函式中是非常常見的。 通過引入上下文編碼模組來探索全域性上下文資訊在語義分割中的影響,上下文編碼模組捕獲場景的語義上下文並選擇性地突出顯示與類相關的特徵圖。
在標準的訓練過程中,只應用具體的每個畫素的分割損失,並不很強調使用場景的全域性上下文資訊。
這裡引入一種語義編碼損失函式SE-loss,使得訓練更加系統化。
這種損失函式會預測場景中出現的物體類別,來加強網路學習上下文語義資訊的能力。
不像針對每個畫素的損失函式,SE-loss對每個物體,不管大小,都是同等對待的。因此,我們發現在使用這個損失函式後,好多小物體的分割效果變好了。
這其實是一種解決或減輕類間樣本不均衡問題的方法,這類問題在分割任務中是非常常見的。
pytorch
On the Robustness of Semantic Segmentation Models to Adversarial Attacks . . . .
Learned Shape-Tailored Descriptors for Segmentation 通過分組密集的畫素明智的描述符來解決紋理分割的問題 引入和構造了學習的Shape-Tailored Descriptors,它們僅在感興趣的區域內聚合影象統計資訊,以避免混合不同紋理的統計資訊,並且對複雜干擾(例如照明,透視和變形)不變。這是通過訓練一個神經網路來區分各種尺度下基於形狀的定向描述符來實現的 . .
Multi-Evidence Filtering and Fusion for Multi-Label Classification, Object Detection and Semantic Segmentation Based on Weakly Supervised Learning 監督物件檢測和語義分割需要物件或甚至畫素級別的註釋。當僅存在影象級標籤時,弱監督演算法實現精確預測是具有挑戰性的。 整個過程由四個階段組成,包括訓練影象中的物件定位,過濾和融合物件例項,訓練影象的畫素標記以及特定於任務的網路培訓。為了在訓練影象中獲得乾淨的物件例項,我們提出了一種用於過濾,融合和分類從多個解決方案機制收集的物件例項的新演算法。在這個演算法中,我們結合了度量學習和基於密度的聚類來過濾檢測到的物件例項。 . .
Weakly-Supervised Semantic Segmentation by Iteratively Mining Common Object Features 影象標籤監控下的弱監督語義分割是一項具有挑戰性的任務,因為它直接將高階語義與低階外觀聯絡起來。 本文提出了一種迭代自下而上和自上而下的框架,它可以擴充套件目標區域,優化分割網路。我們從分類網路的初始本地化開始。儘管分類網路只對小的和粗略的區分物件區域有反應,但我們認為,這些區域包含關於物件的重要共同特徵 . .
Bootstrapping the Performance of Webly Supervised Semantic Segmentation 我們專注於弱監督,開發一種訓練高質量畫素級分類器進行語義分割的方法,僅使用影象級別類標籤作為提供的基本事實 我們的方法被制定為兩階段方法,其中我們首先致力於通過自舉過程為訓練影象建立精確的畫素級掩模,然後將這些現在精確分割的影象用作更標準的代理地面實況監督設定。我們工作的關鍵驅動因素是,在目標資料集中,我們通常具有可靠的地面真實影象級標籤,而從網路爬取的資料可能具有不可靠的標籤,但可以過濾以僅包含易於分割的影象,因此具有可靠的邊界。這兩種形式的資訊是互補的,我們使用這種觀察來建立一種新型的雙向轉移學習。該框架在兩個領域之間傳遞知識,目標領域和網路領域,引導弱監督語義分割的表現。 . .
On the Importance of Label Quality for Semantic Segmentation 我們發現ConvNets的表現主要取決於建立培訓標籤的時間。也就是說,一個較大的粗略註釋的資料集可以產生與較小的精細註釋資料集相同的效能。 . . .
Normalized Cut Loss for Weakly-Supervised CNN Segmentation 由於標準損失函式(例如交叉熵)不能區分種子和潛在錯誤標記的其他畫素,所以這些掩模中的錯誤會導致較差的訓練。 受到半監督學習的一般思路的啟發,我們通過一種新的原則性損失函式來解決這些問題,該函式用“淺”分割中的標準標準評估網路輸出 . .
Learning a Discriminative Feature Network for Semantic Segmentation 類內不一致和類內不明顯。為了解決這兩個問題,我們提出了一個判別特徵網路(DFN), 它包含兩個子網路:平滑網路和邊界網路。具體來說,為處理類內不一致問題,我們特別設計了一個包含頻道注意塊的平滑網路和全域性平均池以選擇更具辨別性的特徵。此外,我們提出了邊界網路,使邊界的雙邊特徵與深層語義邊界監督相區分。 . .
Context Contrasted Feature and Gated Multi-Scale Aggregation for Scene Segmentation 利用區分性背景和聚合多尺度特徵來實現更好的分割至關重要。 在本文中,我們首先提出了一種新穎的上下文對比區域性特​​徵,它不僅利用了資訊上下文,而且還聚焦了與上下文相反的區域性資訊。提出的上下文對比了區域性特徵,大大提高了解析效能,特別是對於不明顯的物件和背景的東西。 . .
DenseASPP for Semantic Segmentation in Street Scenes 自動駕駛場景中的物件表現出非常大的尺度變化,這對於高階特徵表示來說是極大的挑戰,因為多尺度資訊必須被正確編碼。 儘管ASPP能夠生成多尺度特徵,我們認為在自動駕駛場景下,縮放軸上的特徵解析度不夠密集。為此,我們提出密集連線的Atrous空間金字塔池(DenseASPP),它以密集的方式連線一組有趣的卷積層,從而生成不僅覆蓋更大尺度範圍的多尺度特徵,還涵蓋規模範圍密集,沒有顯著增加模型的大小。 pytorch
MaskLab: Instance Segmentation by Refining Object Detection with Semantic and Direction Features 我們解決了例項分割的問題,同時解決了物件檢測和語義分割的任務。為了實現這個目標,我們提出了一個名為MaskLab的模型,它產生三個輸出:盒子檢測,語義分割和指導預測 建立在Faster-RCNN物件檢測器之上,預測框提供了物件例項的精確定位。在每個感興趣的區域內,MaskLab通過結合語義和指導預測來執行前景/背景分割 . .
Dense Decoder Shortcut Connections for Single-Pass Semantic Segmentation 一種用於單通道語義分割的新型端到端可訓練,深度編碼器 - 解碼器架構 我們的方法基於具有功能級遠端跳過連線的級聯架構。該編碼器結合了ResNeXt殘餘構建塊的結構,並採用重複構建塊的策略,該構件塊聚集了具有相同拓撲的一組變換。該解碼器具有一種新穎的架構,由塊組成,這些架構包括(i)捕獲上下文資訊,(ii)生成語義特徵,以及(iii)實現不同輸出解析度之間的融合。 . .
Fully Convolutional Adaptation Networks for Semantic Segmentation 一個吸引人的選擇是呈現合成數據(例如電腦遊戲)並自動生成地面真相。然而,簡單地應用在合成影象上學習的模型可能導致由於域偏移導致的真實影象上的高泛化誤差 我們從視覺外觀水平和表示水平域適應的角度來解決這個問題。前者將源域影象調整為目標域中的“樣式”,後者試圖學習域不變表示,具體而言,我們提出了完全卷積適應網路(FCAN),這是一種結合了外觀適應網路(AAN)和表示適應網路(RAN)的新型深度語義分割體系結構。AAN在畫素空間中學習從一個域到另一個域的轉換,並且RAN在對抗學習方式下被優化以最大程度地愚弄具有所學習的源和目標表示的域鑑別器 . .
Multi-Oriented Scene Text Detection via Corner Localization and Region Segmentation 遵循一般物件檢測正規化,通過迴歸文字框位置來定位場景文字,但受場景文字的任意取向和大縱橫比困擾。第二個直接分割文字區域,但大多需要複雜的後期處理。 提出了一種方法,它結合了兩種方法的思想,同時避免了它們的缺點。我們建議通過定位文字邊界框的角點並在相對位置分割文字區域來檢測場景文字。在推理階段,通過取樣和分組角點生成候選框,通過分割圖進一步評分,並由NMS進行抑制 . .
運動分割
The Best of Both Worlds: Combining CNNs and Geometric Constraints for Hierarchical Motion Segmentation 我們設計了一個分層運動分割系統,其中第一階段識別簡單的剛性運動分量,第二階段將這些剛性運動分量組裝成完整的物件,由每幀的語義分割指導。這個新的分級系統允許第一個低階階段專注於透視投影的幾何形狀,將框架分割成其剛性運動。然後,在第二階段,像行人和動物一樣,可變形和明確表達的物體被模擬為多個剛性運動分量的組合,如語義分割結果所示。雖然運動分析和語義分割都沒有錯誤,但它們的組合導致多標籤運動分割問題的效能顯著提高。 •一個新的運動分割分層模型,具有兩個步驟:1.將幀分割為剛體運動; 2.使用SharpMask的物體知識將這些剛性部分組合成物件模型,以描述人物或動物等關節和可變形物體的運動。 •一種新的光流統計模型,作為基礎運動場的噪聲測量。我們使用Sintel資料庫的統計資料來設定噪聲分佈引數。 •貝葉斯方法,用於計算與光流向量相關聯的3D運動方向的可能性,其中我們整合了不可觀測的運動場大小。這使我們能夠以與透視投影和統計模型一致的方式將畫素分配給剛性運動模型。 . .
Motion Segmentation by Exploiting Complementary Geometric Models 許多現實世界的序列不能方便地歸類為一般或退化; 在這種情況下,在將基本矩陣或單應性模型用於運動分割時施加錯誤的二分法將導致困難。即使我們面臨一般的場景運動,作為運動分割模型的基本矩陣方法仍然存在一些缺陷, 基本矩陣方法的全部潛力只有在我們明智地利用來自較簡單的單應性模型的資訊時才能實現。基於這些考慮,我們提出了一個多檢視譜聚類框架,將多個模型協同組合在一起。 . .
Learning Pixel-Level Semantic Affinity With Image-Level Supervision for Weakly Supervised Semantic Segmentation 分割標籤的不足是野外語義分割的主要障礙之一。 為了緩解這個問題,我們提出了一個新的框架,根據影象級別標籤生成影象的分割標籤。
互動式影象分割
Interactive Image Segmentation With Latent Diversity 互動式影象分割的特點是多模式。當用戶點選一扇門時,他們打算選擇門還是整個房子?我們提出了一種端對端的互動式影象分割方法來解決這種模糊問題。 我們的架構結合了兩個卷積網路。第一種是訓練合成一組符合使用者輸入的合理分段。其次是訓練選擇這些。通過選擇單一解決方案,我們的方法保持與現有互動式分割介面的相容性。通過在選擇一個解決方案之前綜合多種多樣的解決方案,該架構被賦予探索多模式解決方案空間的代表性力量。 . .
Deep Extreme Cut: From Extreme Points to Object Segmentation 物件(最左側,最右側,頂部,底部畫素)中使用極值點作為輸入以獲取影象和視訊的精確物件分割。 我們通過在卷積神經網路(CNN)的輸入中為影象新增額外的通道來實現這一點,該卷積神經網路包含以每個極值點為中心的高斯。CNN學習將這些資訊轉換為與那些極端點匹配的物件的分割。 .
Efficient Interactive Annotation of Segmentation Datasets With Polygon-RNN++ 用物件掩碼手動標記資料集非常耗時 遵循Polygon-RNN的思想,使用人在迴路中互動式地生成物件的多邊形註釋。我們對該模型進行了一些重要的改進:1)我們設計了一個新的CNN編碼器體系結構,2)展示瞭如何使用強化學習有效地訓練模型,3)使用圖形神經網路顯著提高輸出解析度,準確地註釋影象中的高解析度物件 . .
SeedNet: Automatic Seed Generation With Deep Reinforcement Learning for Robust Interactive Segmentation 提出了一種具有深度強化學習的自動種子生成技術來解決互動式分割問題 . . .
Referring Image Segmentation via Recurrent Refinement Networks 從自然語言描述中解決影象分割的問題。 現有的基於深度學習的方法基於最後一個卷積層的輸出對影象表示進行編碼 . .
視訊目標分割
MoNet: Deep Motion Exploitation for Video Object Segmentation 從幀表示學習和分割細化兩個方面深入挖掘運動線索來提高視訊物件分割效能 MoNet利用計算的運動提示(即光流)通過對齊和整合來自其鄰居的表示來加強目標框架的表示。新的表示為分割提供了寶貴的時間背景,並提高了對各種常見汙染因素的魯棒性,例如運動模糊,視訊物件的外觀變化和變形。
為了檢查不一致的運動模式,我們提出了一個距離變換(DT)層來分離目標物件,並且顯著移動背景運動
.
Blazingly Fast Video Object Segmentation With Pixel-Wise Metric Learning 互動式視訊目標分割,使用者點選分割物體
在這項工作中,我們學習了一個嵌入,其中同一個例項的畫素旨在彼此靠近,並且我們將視訊物件分割制定為畫素級檢索問題。 該公式也受到影象檢索工作的啟發
.
Motion-Guided Cascaded Refinement Network for Video Object Segmentation 將視訊幀視為單獨的和靜態的將丟失隱藏在運動中的資訊 我們提出了一個用於VOS的運動引導級聯精化網路。通過假定物件運動通常與背景運動不同,對於視訊幀,我們首先將活動輪廓模型應用於光流,以粗略地分割感興趣的物件。然後,提出的級聯細化網路(CRN)將粗分割作為指導以生成全解析度的準確分割。通過這種方式,運動資訊和深度CNN可以相互補充,從視訊幀中準確地分割出物件。此外,在CRN中,我們引入單通道殘留注意模組,將粗分割圖作為注意事項,使我們的網路在培訓和測試中都能高效高效。 pytorch
CNN in MRF: Video Object Segmentation via Inference in a CNN-Based Higher-Order Spatio-Temporal MRF 我們提出了一個新的時空馬爾可夫隨機場(MRF)模型定義在畫素來處理這個問題。與傳統的MRF模型不同,我們模型中畫素之間的空間相關性由卷積神經網路(CNN)編碼 由於非常高階的依賴關係,在MRF模型中執行推理非常困難。為此,我們提出了一種新穎的CNN嵌入演算法來執行MRF中的近似推理。該演算法通過在時間融合步驟和前饋CNN步驟之間交替進行 . .
Low-Latency Video Semantic Segmentation 加速 我們開發了一個視訊語義分割框架,它包含兩個新穎的元件:(1)一個特徵傳播模組,通過空間變化卷積自適應地融合特徵,從而降低每幀計算的成本; 和(2)基於精度預測動態分配計算的自適應排程器。兩個元件一起工作以確保低延遲,同時保持高分割質量。 . .
Instance Embedding Transfer to Unsupervised Video Object Segmentation 一種無監督視訊物件分割的方法 通過傳輸封裝在基於影象的例項嵌入網路中的知識。例項嵌入網路為每個畫素生成一個嵌入向量,可以識別屬於同一物件的所有畫素。 . .
Semantic Video Segmentation by Gated Recurrent Flow Propagation . 它能夠利用除了稀疏標記幀之外的未標記資料中的資訊,以提高語義估計。我們的模型結合了卷積結構和時空變換器遞迴層,能夠通過光流臨時傳播標籤資訊,基於其區域性估計的不確定性自適應門控。流程,識別和門控時間傳播模組可以共同進行端對端培訓。 . .
Fast Video Object Segmentation by Reference-Guided Mask Propagation 加速 .
Fast and Accurate Online Video Object Segmentation via Tracking Parts 加速 部分追蹤再分割 caffe
Unsupervised Learning and Segmentation of Complex Activities From Video 本文提出了一種無監督地將視訊複雜活動分成多個步驟或子活動的新方法, . .
Deep Spatio-Temporal Random Fields for Efficient Video Segmentation 介紹了一種時間和記憶體有效的結構化預測方法,可以在兩個時間空間耦合神經元決策。 通過利用深度高斯條件隨機場(GCRF)的最新進展,在密集連線的時空圖上執行精確和高效的推理。我們的方法稱為VideoGCRF(a)是有效的,(b)具有獨特的全域性最小值,並且(c)可以與當代深度網路一起被端對端地訓練以用於視訊理解。 . caffe2
Reinforcement Cutting-Agent Learning for Video Object Segmentation 我們將這個問題作為一個馬爾科夫決策過程來制定,在這個過程中,智慧體被學會在深度強化學習框架下對目標區域進行分割。 . . .