論文:End-to-End Video Instance Segmentation with Transformers
獲取:在CV技術指南後臺回覆關鍵字“0005”獲取該論文。
程式碼:https://git.io/VisTR
點個關注,專注於計算機視覺技術文章。
前言:
視訊例項分割(VIS)是一項需要同時對視訊中感興趣的物件進行分類、分割和跟蹤的任務。本文提出了一種新的基於 Transformers 的視訊例項分割框架 VisTR,它將 VIS 任務視為直接的端到端並行序列解碼/預測問題。
給定一個由多個影象幀組成的視訊片段作為輸入,VisTR 直接輸出視訊中每個例項的掩碼序列。它的核心是一種新的、有效的例項序列匹配和切分策略,在序列層面對例項進行整體監控和切分。VisTR從相似性學習的角度對例項進行劃分和跟蹤,大大簡化了整個過程,與現有方法有很大不同。
VisTR 在現有的 VIS 模型中速度最快,效果最好的是在 YouTubeVIS 資料集上使用單一模型的方法。這是研究人員首次展示了一種基於 Transformer 的更簡單、更快的視訊例項分割框架,實現了具有競爭力的準確性。
出發點
SOTA方法通常會開發複雜的pipeline來解決此任務。 Top-down的方法遵循tracking-by-detection正規化,嚴重依賴影象級例項分割模型和複雜的人工設計規則來關聯例項。 Bottom-up的方法通過對學習的畫素嵌入進行聚類來分離物件例項。由於嚴重依賴密集預測質量,這些方法通常需要多個步驟來迭代地生成掩碼,這使得它們很慢。因此,非常需要一個簡單的、端到端可訓練的 VIS 框架。
在這裡,我們更深入地瞭解視訊例項分割任務。 視訊幀包含比單個影象更豐富的資訊,例如運動模式和例項的時間一致性,為例項分割和分類提供有用的線索。 同時,更好地學習例項特徵可以幫助跟蹤例項。 本質上,例項分割和例項跟蹤都與相似性學習有關:例項分割是學習畫素級的相似性,例項跟蹤是學習例項之間的相似性。 因此,在單個框架中解決這兩個子任務並相互受益是很自然的。 在這裡,我們的目標是開發這樣一個端到端的 VIS 框架。該框架需要簡單,在沒有花裡胡哨的情況下實現強大的效能。
主要貢獻
我們提出了一種基於 Transformers 的新視訊例項分割框架,稱為 VisTR,它將 VIS 任務視為直接的端到端並行序列解碼/預測問題。該框架與現有方法有很大不同,大大簡化了整個流程。
VisTR從相似度學習的新角度解決了VIS。例項分割是學習畫素級的相似性,例項跟蹤是學習例項之間的相似性。因此,在相同的例項分割框架中無縫自然地實現了例項跟蹤。
VisTR 成功的關鍵是例項序列匹配和分割的新策略,它是為我們的框架量身定製的。這種精心設計的策略使我們能夠在序列級別作為一個整體來監督和分割例項。
VisTR 在 YouTube-VIS 資料集上取得了強勁的成績,在 57.7 FPS 的速度下實現了 38.6% 的 mask mAP,這是使用單一模型的方法中最好和最快的。
Methods
整個 VisTR 架構如圖 2 所示。它包含四個主要元件:一個用於提取多個幀的緊湊特徵表示的 CNN 主幹,一個用於對畫素級和例項級特徵的相似性進行建模的編碼器-解碼器 Transformer,一個例項 用於監督模型的序列匹配模組,以及一個例項序列分割模組。
Transformer Encoder
Transformer 編碼器用於對片段中所有畫素級特徵之間的相似性進行建模。 首先,對上述特徵圖應用 1×1 卷積,將維度從 C 減少到 d (d < C),從而產生新的特徵圖f1。
為了形成可以輸入到 Transformer 編碼器中的剪輯級特徵序列,我們將 f1 的空間和時間維度展平為一維,從而得到大小為 d × (T·H·W) 的 2D 特徵圖。請注意,時間順序始終與初始輸入的順序一致。每個編碼器層都有一個標準架構,由一個多頭自注意力模組和一個全連線前饋網路 (FFN) 組成。
Transformer Decoder
Transformer 解碼器旨在解碼可以表示每幀例項的頂部畫素特徵,稱為例項級特徵。受 DETR的啟發,我們還引入了固定數量的輸入嵌入來從畫素特徵中查詢例項特徵,稱為例項查詢。
假設模型每幀解碼 n 個例項,那麼對於 T 幀,例項查詢數為 N = n · T。例項查詢是模型學習的,與畫素特徵具有相同的維度。以編碼器 E 的輸出和 N 個例項查詢 Q 作為輸入,Transformer 解碼器輸出 N 個例項特徵,在圖 2 中用 O 表示。
整體預測遵循輸入幀順序,不同影象的例項預測順序為相同的。因此,可以通過將相應索引的項直接連結來實現對不同幀中例項的跟蹤。
Instance Sequence Matching
解碼器輸出的固定數量的預測序列是亂序的,每幀包含n個例項序列。本文與DETR相同,使用匈牙利演算法進行匹配。
雖然是例項分割,但是在目標檢測中需要用到bounding box,方便組合優化計算。通過FFN計算歸一化的bounding box中心、寬度和高度,即全連線。
通過softmax計算bounding box的label。最終得到n×T個邊界框。使用上面得到標籤概率分佈和邊界框來匹配例項序列和gournd truth。
最後計算Hungarian演算法的loss,考慮標籤的概率分佈和bounding box的位置。損失基本遵循DETR的設計,使用L1損失和IOU損失。以下公式是訓練的損失。它由標籤損失、邊界框和例項序列組成。
Conclusion
下圖展示了 VisTR 在 YouTube VIS 驗證資料集上的視覺化。每行包含從同一視訊中取樣的影象。VisTR 可以很好地跟蹤和分割具有挑戰性的例項,例如:(a) 重疊例項,(b) 例項之間的相對位置變化, 由相同型別的相似例項引起的混淆,以及 (d) 不同姿勢的例項。
本文來源於公眾號 CV技術指南 的論文分享系列。
歡迎關注公眾號 CV技術指南 ,專注於計算機視覺的技術總結、最新技術跟蹤、經典論文解讀。
在公眾號中回覆關鍵字 “技術總結” 可獲取公眾號原創技術總結的彙總pdf
其它文章
經典論文系列 | 目標檢測--CornerNet & 又名 anchor boxes的缺陷
在做演算法工程師的道路上,你掌握了什麼概念或技術使你感覺自我提升突飛猛進?