CVPR2021 | Transformer用於End-to-End視訊例項分割

論文：End-to-End Video Instance Segmentation with Transformers

獲取：在CV技術指南後臺回覆關鍵字“0005”獲取該論文。

程式碼：https://git.io/VisTR

點個關注，專注於計算機視覺技術文章。

前言：

視訊例項分割（VIS）是一項需要同時對視訊中感興趣的物件進行分類、分割和跟蹤的任務。本文提出了一種新的基於 Transformers 的視訊例項分割框架 VisTR，它將 VIS 任務視為直接的端到端並行序列解碼/預測問題。

給定一個由多個影象幀組成的視訊片段作為輸入，VisTR 直接輸出視訊中每個例項的掩碼序列。它的核心是一種新的、有效的例項序列匹配和切分策略，在序列層面對例項進行整體監控和切分。VisTR從相似性學習的角度對例項進行劃分和跟蹤，大大簡化了整個過程，與現有方法有很大不同。

VisTR 在現有的 VIS 模型中速度最快，效果最好的是在 YouTubeVIS 資料集上使用單一模型的方法。這是研究人員首次展示了一種基於 Transformer 的更簡單、更快的視訊例項分割框架，實現了具有競爭力的準確性。

出發點

SOTA方法通常會開發複雜的pipeline來解決此任務。 Top-down的方法遵循tracking-by-detection正規化，嚴重依賴影象級例項分割模型和複雜的人工設計規則來關聯例項。 Bottom-up的方法通過對學習的畫素嵌入進行聚類來分離物件例項。由於嚴重依賴密集預測質量，這些方法通常需要多個步驟來迭代地生成掩碼，這使得它們很慢。因此，非常需要一個簡單的、端到端可訓練的 VIS 框架。

在這裡，我們更深入地瞭解視訊例項分割任務。視訊幀包含比單個影象更豐富的資訊，例如運動模式和例項的時間一致性，為例項分割和分類提供有用的線索。同時，更好地學習例項特徵可以幫助跟蹤例項。本質上，例項分割和例項跟蹤都與相似性學習有關：例項分割是學習畫素級的相似性，例項跟蹤是學習例項之間的相似性。因此，在單個框架中解決這兩個子任務並相互受益是很自然的。在這裡，我們的目標是開發這樣一個端到端的 VIS 框架。該框架需要簡單，在沒有花裡胡哨的情況下實現強大的效能。

主要貢獻

我們提出了一種基於 Transformers 的新視訊例項分割框架，稱為 VisTR，它將 VIS 任務視為直接的端到端並行序列解碼/預測問題。該框架與現有方法有很大不同，大大簡化了整個流程。
VisTR從相似度學習的新角度解決了VIS。例項分割是學習畫素級的相似性，例項跟蹤是學習例項之間的相似性。因此，在相同的例項分割框架中無縫自然地實現了例項跟蹤。
VisTR 成功的關鍵是例項序列匹配和分割的新策略，它是為我們的框架量身定製的。這種精心設計的策略使我們能夠在序列級別作為一個整體來監督和分割例項。
VisTR 在 YouTube-VIS 資料集上取得了強勁的成績，在 57.7 FPS 的速度下實現了 38.6% 的 mask mAP，這是使用單一模型的方法中最好和最快的。

Methods

整個 VisTR 架構如圖 2 所示。它包含四個主要元件：一個用於提取多個幀的緊湊特徵表示的 CNN 主幹，一個用於對畫素級和例項級特徵的相似性進行建模的編碼器-解碼器 Transformer，一個例項用於監督模型的序列匹配模組，以及一個例項序列分割模組。

Transformer Encoder

Transformer 編碼器用於對片段中所有畫素級特徵之間的相似性進行建模。首先，對上述特徵圖應用 1×1 卷積，將維度從 C 減少到 d (d < C)，從而產生新的特徵圖f1。

為了形成可以輸入到 Transformer 編碼器中的剪輯級特徵序列，我們將 f1 的空間和時間維度展平為一維，從而得到大小為 d × (T·H·W) 的 2D 特徵圖。請注意，時間順序始終與初始輸入的順序一致。每個編碼器層都有一個標準架構，由一個多頭自注意力模組和一個全連線前饋網路 (FFN) 組成。