1. 程式人生 > >MOTS:多目標跟蹤和分割論文翻譯

MOTS:多目標跟蹤和分割論文翻譯

MOTS:多目標跟蹤和分割論文翻譯

摘要:

    本文將目前流行的多目標跟蹤技術擴充套件到多目標跟蹤與分割技術(MOTS)。為了實現這個目標,我們使用半自動化的標註為兩個現有的跟蹤資料集建立了密集的畫素級標註。我們的新標註包含了10870個視訊幀中977個不同物件(汽車和行人)的65,213個畫素掩膜。為了進行評估,我們將現有的多目標跟蹤指標擴充套件到這個任務。同時,我們還提出了一種新的基線方法,該方法通過單個神經網路解決檢測,跟蹤和分割問題。我們通過在MOTS標註(MOTS annotations)上面訓練時實現效能的改進來展示我們資料集的價值。我們相信,我們的資料集,指標和基線將成為開發超出2D邊界框的多目標跟蹤方法的寶貴資源。我們在下面的網站上提供了註釋,程式碼和模型:[MOTS](https: //www.vision.rwth-aachen.de/page/mots)

一、介紹:

​ 近年來,計算機視覺領域在日益艱難的任務中取得了顯著進步。深度學習技術現在在物件檢測以及影象和例項分割中具有很好(impressive)的表現。但是,跟蹤仍然具有挑戰性,尤其是涉及多個物件時。 特別是最近的跟蹤評估結果表明邊界級跟蹤效能已經達到飽和,只有在移動到畫素級別時才能進一步改進。因此,我們建議將所有的三個任務---視為需要一起考慮的相互關聯的問題。

​ 用於訓練和評估目標分割模型的資料集通常不提供關於視訊資料的標註,甚至不提供關於不同影象中物件身份的資訊。另一方面,多目標跟蹤的常用資料集僅提供物件的邊界框註釋。這些可能太過於粗糙。例如:當目標被部分遮擋時,其邊界框包含來自其他目標而不是自身的資訊(參見圖1)。在這種情況下,畫素級的目標分割可以得到更加自然的場景描述,併為後續的處理提供額外的資訊。對於分割掩膜,有一個定義好的ground truth,而許多不同(non-tight)的框可能大致適合一個物件。類似地,與通常需要在評估時通過啟發式匹配過程解決的ground truth相比,帶有重疊邊界框的跟蹤會產生歧義。另一方面,根據定義,基於分割的跟蹤結果是不重疊的,因此可以直接與ground truth進行比較。


圖一:分割vs邊界框。當物件相互經過時,該物件的邊界框的很大一部分可能屬於另一個物件,而逐畫素分割掩膜則精確定位目標。上圖顯示來自KITTI MOTS資料集。

​ 因此,本文提出將多目標跟蹤任務擴充套件到例項分割跟蹤。我們稱這個新任務為“多目標跟蹤和分割(MOTS)”。就我們所知,到目前為止還沒有這個任務的資料集。雖然文獻中有許多方法來用於邊界框跟蹤,但MOTS需要結合時間和掩碼提示才能成功。因此,我們提出TrackR-CNN作為解決MOTS任務的所有方面的基線方法。TrackR-CNN利用3D卷積擴充套件Mask R-CNN 以結合時間資訊,並通過關聯頭隨時間連結物件身份。

​ 綜上所述,本文做出如下貢獻:(1) 基於流行的KITTI和MOTChallenge資料集,我們為解決MOTS任務的訓練和評估方法提供了兩個具有時間一致性物件例項分割的新資料集。(2) 我們提出了一種新的軟多目標跟蹤和分割準確度(sMOTSA)測量方法,可以同時對新任務的各個方面進行評估。(3) 我們提出了TrackR-CNN作為一種解決檢測、跟蹤和分割問題的基線方法,並將其與現有的工作進行了比較。(4) 我們證明了新資料集在畫素級多物件跟蹤器的端到端訓練中的有用性。特別是,我們的資料集表明了分割和跟蹤程式的聯合訓練變得可能,並且在例如分割或邊界框跟蹤方面產生改進,這在以前是可能的。


二、相關工作

​ 多目標跟蹤資料集: 在多目標跟蹤(MOT)任務中,必須將來自已知類集的最初未知數量的目標作為視訊中的邊界框來跟蹤。特別是目標可以隨時進入和離開場景,並且必須經過長時間的遮擋和外觀變化才能恢復。許多MOT資料集專注於街景,例如KITTI跟蹤資料集,其中包含來自車載攝像頭的視訊;MOTChallenge資料集顯示了來自各種不同視角的行人。UA-DETRAC也有街景,但僅包含車輛標註。另一個MOT資料集是PathTrack,它提供了不同場景中人體軌跡的標註。PoseTrack包含視訊中多人的關節位置標註。這些資料集都沒有為帶註釋的物件提供分割掩碼,因此無法充分詳細地描述圖1中所示的複雜互動。

​ 視訊目標分割資料集:在視訊目標分割(VOS)任務中,在視訊的第一幀中提供一個或多個通用目標的例項分割,並且必須在所有後續幀中以畫素精度進行分割。現有的VOS資料集僅包含很少的物件,這些物件也存在於大多數幀中。此外,此任務的常見評估指標(區域Jaccard索引和邊界F-measure)不會將跟蹤多個物件時可能出現的ID變換等錯誤情況考慮在內。相比之下,MOTS專注於一組預先定義的類別,並考慮具有許多互動物件的擁擠場景。MOTS還增加了發現和跟蹤在場景中出現和消失的不同數量的新物件的難度。

​ VOS任務的資料集包括DAVIS 2016資料集,它專注於單物件VOS,以及DAVIS 2017 資料集,它擴充套件了多物件VOS的任務。 並且YouTube-VOS資料集同樣可用,並且比DAVIS大幾個數量級。 此外,Segtrackv2 資料集,FBMS 和YouTube物件資料集的帶註釋子集都可用於評估此任務。

​ 視訊例項分割資料集。Cityscapes,BDD和ApolloScape為汽車場景提供視訊資料。 然而,例項標註僅針對非相鄰幀的一小部分提供,或者在ApolloScape的情況下,針對每個幀提供,但不隨時間推移提供物件身份。 因此,它們不能用於畫素級跟蹤方法的端到端訓練。

​ 方法。雖然對MOT或VOS任務提出的方法的全面回顧超出了本文的範圍,但我們將回顧已經解決MOTS任務(子集)或與在其他方面與TrackR-CNN相關的一些工作。

​ Seguin等人使用超畫素級別的聚類從給定的邊界框軌跡匯出例項分割,但它們不解決檢測或跟蹤問題。米蘭等人考慮利用超畫素資訊和給定物件檢測在CRF中聯合跟蹤和分割。與這兩種方法相反,我們提出的基線在畫素而非超畫素級別上執行。 CAMOT 使用立體資訊對KITTI資料集上的通用物件進行基於掩模的跟蹤,這限制了其對遠距離物件的準確性。CDTS 執行無監督的VOS,即不使用第一幀資訊。它僅考慮具有少量物件外觀和消失的短視訊剪輯。然而,在MOTS中,許多物體經常進入或離開擁擠的場景。雖然上述方法能夠使用分割掩模生成跟蹤輸出,但由於不存在具有MOTS標註的資料集,因此無法全面評估其效能。

​ Lu等人通過聚合每幀的位置和外觀特徵並使用LSTM跨時間組合來實現跟蹤。 Sadeghian等人還使用LSTM的組合將通過裁剪檢測獲得的外觀特徵與速度和互動資訊組合。 在這兩種情況下,組合的特徵都輸入到傳統的匈牙利匹配程式中。 對於我們的基線模型,我們直接使用時間資訊直接豐富檢測,並與檢測器一起學習關聯特徵,而不僅僅是給定檢測進行“後處理”。

​ 半自動註釋。存在許多用於半自動例項分割的方法,例如, 從塗鴉或點選生成分割掩模。 這些方法需要使用者輸入每個要分割的物件,而我們的註釋過程可以完全自動地分割許多物件,讓註釋器專注於改善不同情況的結果。 雖然這有點類似於主動學習設定,但我們將使用人工註釋器來決定註釋哪些物件,以保證所有註釋都達到長期基準資料集所需的質量。

​ 其他半自動註釋技術包括Polygon-RNN,它自動預測多邊形形式的分割,頂點可以由註釋器校正。Fluid Annotation允許註釋器操作Mask RCNN預測的片段,以便註釋完整的影象。雖然加快了在隔離幀中物件的分割掩碼的建立,但這些方法並不在跟蹤級別上操作,也不使用現有的邊界框註釋,也不利用在其他視訊幀中為相同物件註釋的分割掩碼。


三、資料集

​ 為視訊中每個物件的每個幀註釋畫素掩模是一項非常耗時的任務。 因此,這種資料的可用性非常有限。 我們不知道MOTS任務的任何現有資料集。 但是,有一些帶有MOT標註的資料集,即在邊界框級別標註的軌跡。 對於MOTS任務,這些資料集缺少分割掩模。 因此,我們的註釋過程為兩個MOT資料集中的邊界框添加了分割掩模。 總共,我們註釋了65,213個分割掩模。 這種規模使我們的資料集在訓練和評估基於學習的技術方面是可行的。

​ 半自動標註程式。為了使標註工作易於管理,我們提出了一種半自動方法,通過分割掩模擴充套件邊界框級別標註。 我們使用卷積網路從邊界框自動生成分割掩膜,然後使用手動多邊形標註進行校正步驟。 每條軌跡,我們使用手動標註作為附加訓練資料來調整初始網路,類似於[6]。 我們迭代生成和校正掩模的過程,直到達到所有註釋掩模的畫素級精度。

​ 為了將邊界框轉換為分割掩模,我們使用基於DeepLabv3+的完全卷積改進網路,該網路將邊界框指定的輸入影象作為輸入,並添加了一個小的上下文區域,以及附加輸入通道,將邊界框編碼為掩模。 在此基礎上,細分網路預測給定框的分割掩碼。 改進的網路在COCO 和Mapillary 上進行了預訓練,然後針對目標資料集進行了手動建立的分割掩模的訓練。

​ 在開始時,我們為所考慮的資料集中的每個物件註釋(作為多邊形)兩個分割掩膜。網路首先在所有手動建立的掩碼上進行訓練,然後針對每個物件分別進行微調。然後使用這些網路的微調變數來為資料集中各個物件的所有邊界框生成分割掩膜。這樣,網路就適應了每個物件的外觀。對於每個物件使用兩個手工標註的分割掩碼進行微調,改進的網路已經為其他幀中物件的外觀生成了相對良好的掩膜,但通常仍然存在小錯誤。因此,我們最終會糾正一些有缺陷的生成掩膜,並在迭代過程中重新執行訓練過程。我們的標註器還糾正了原始MOT資料集中的不精確或錯誤的邊框標註。

​ KITTI MOTS。我們在KITTI跟蹤資料集的邊界框級別註釋上執行了上述標註過程。 標註的樣本如圖2所示。為了便於訓練和評估,我們將KITTI跟蹤資料集2的21個訓練序列分別劃分為訓練和驗證集3。 我們的分配平衡了每個類別的出現次數—汽車和行人—在訓練和驗證集中大致相等。 統計數字見表1。


圖 2:我們標註的樣例圖片。KITTIMOTS(上)和MOTSChallenge(下)

表 1:引入的KITTI MOTS和MOTSChallenge資料集的統計資料。我們考慮行人的資料集和汽車的KITTI MOTS。

​ 需要相對較多的手動標註表明現有的單影象例項分割技術在此任務上仍然表現不佳。 這是我們提出的MOTS資料集的主要動機,其允許將時間推理結合到例項分割模型中。

​ MOTSChallenge。我們進一步標註了MOTChallenge 2017 訓練資料集4的7個序列中的4個,並獲得了MOTSChallenge資料集。 MOTSChallenge專注於擁擠場景中的行人,並且由於許多遮擋情況而非常具有挑戰性,因為畫素方面的描述尤其有益。 標註的樣本如圖2所示,統計資料在表1中給出。


四、評價準則

​ 作為評估措施,我們將完善的CLEAR MOT指標用於多目標跟蹤以適應我們的任務。 對於MOTS任務,需要在評估度量中容納每個物件的分割掩模。 受Panoptic Segmentation任務的啟發,我們要求物件的ground truth掩模和MOTS方法產生的掩模都不重疊,即每個畫素最多可分配給一個物件。 我們現在介紹我們對MOTS的評估措施。

​ 形式上,具有\(T\)個時間幀,高度\(h\)和寬度\(w\)的視訊的ground truth由一組\(N\)個非空的ground truth畫素掩模 組成,其中 ,每個屬於相應的時間幀 並被賦予ground truth 跟蹤id 。MOTS方法的輸出是一組\(K\)非空假設掩模 ,其中 ,每個都被賦予一個假設的軌跡id 和一個時間幀

​ 建立對應關係。CLEAR MOT指標的一個重要步驟是建立ground truth物件和跟蹤器假設之間的對應關係。 在基於邊界框的設定中,建立對應關係是非平凡的並且通過二分匹配來執行,因為ground truth框可以重疊並且多個假設框可以很好地適應給定的ground truth框。 在MOTS的情況下,由於我們要求每個畫素在ground truth和假設中都是唯一的,所以建立對應大大簡化了。 因此,對於給定的ground truth掩模,至多一個預測掩模可以具有大於0.5的交叉聯合(IoU)。 因此,從假設掩模到ground truth掩模的對映 可以簡單地使用基於掩模的IoU定義為

​ True positives的集合 由對映到ground truth掩模的假設掩模組成。 類似地,false positives是未對映到ground truth掩模的假設掩模,即 。 最後,false negatives的集合 包含未被任何假設掩模覆蓋的ground truth掩模。

​ 在下文中,讓 表示最近跟蹤的ground truth掩模的前一個(predecessor),或者如果沒有跟蹤的前一個存在則∅。 所以 是具有相同 \(id(id_q-id_p)\) 的掩模q和使得 的最大 \(t_q < t_p\) 。然後將id轉換的集合IDS定義為 一系列ground truth掩模,其前一個被跟蹤不同的身份。形式上,

​ 基於掩模的評估措施。另外,我們 通過

定義了true positives數量的soft

鑑於之前的定義,我們定義了原始CLEAR MOT指標的基於掩模的變體。 我們提出多物件跟蹤和分割準確度(MOTSA)作為基於框的MOTA度量的基於掩模IoU的版本,即

並且基於掩模的多目標跟蹤和分割精度(MOTSP)為

最後,我們介紹了soft多目標跟蹤和分割精度(sMOTSA)

它累積了 true positives 的soft number ,而不是計算有多少掩模達到超過0.5的IoU。因此,sMOTSA可以衡量分割以及檢測和跟蹤質量。


五、方法

​ 為了解決檢測,跟蹤和分割,即MOTS任務,與神經網路聯合,我們建立在流行的Mask R-CNN 架構上,該架構通過掩模head擴充套件了Faster R-CNN檢測器。 我們提出TrackR-CNN(參見圖3),其又通過一個關聯頭(association head)和兩個3D卷積層來擴充套件Mask R-CNN,以便能夠隨時間關聯檢測並處理時間動態。 TrackR-CNN提供基於掩模的檢測以及關聯特性。 兩者都輸入到跟蹤演算法,該演算法決定選擇哪些檢測以及如何隨時間連結它們。


圖 三: TrackR-CNN概述。我們通過3D卷積擴充套件Mask R-CNN以結合時間上下文和通過為每次檢測產生關聯向量的關聯頭。關聯向量之間的歐幾里德距離用於將檢測隨時間關聯到軌跡中。與Mask R-CNN的差異以黃色突出顯示。

​ 整合時間上下文。 為了利用輸入視訊的臨時上下文,我們將3D卷積(其中第三個維度是時間)整合到以ResNet-101為骨幹網的Mask R-CNN中。 3D卷積應用於主幹特徵,以便增強主幹特徵得時序性。 然後,區域提議網路(RPN)將使用這些增強的特徵。 作為替代方案,我們還考慮卷積LSTM 層。 卷積LSTM通過使用卷積而不是矩陣乘積計算其啟用來保留輸入的空間結構。

​ Association Head(關聯頭)。為了將檢測隨時間關聯的資料,我們通過關聯頭擴充套件Mask R-CNN,該關聯頭是一個全連線層,其將區域提議作為輸入並且預測每個提議的關聯向量。 關聯頭的靈感來自用於人體重新識別的嵌入向量。 每個關聯向量表示汽車或人的身份。它們的訓練方式是屬於同一例項的向量彼此接近,屬於不同例項的向量彼此相距遙遠。 我們將兩個關聯向量v和w之間的距離 \(d(v, w)\) 定義為它們的歐幾里德距離,即

​ 我們使用Hermans等人提出的batch hard triplet loss 來訓練關聯頭適用於視訊序列。 這種損失對每次檢測都會產生硬陽性(hard positives )和硬陰性(hard negatives)。 正式地,讓\(D\)表示視訊的檢測集。 每個檢測 \(d ∈D\) 由掩模 \(mask_d\) 和關聯向量 \(a_d\) 組成,其來自時間幀 \(t_d\) ,並且被分配由其與ground truth物件的重疊確定的ground truth軌跡id \(id_d\) 。 對於\(T\)時間步長的視訊序列,具有邊際\(α\)的batch-hard formulation中的關聯損失由下式給出

​ Mask傳播。 基於掩模的\(IoU\)與光流扭曲(warping)一起是一種強有力的提示,用於隨時間關聯畫素掩模。 因此,我們還嘗試使用掩模扭曲作為關聯向量相似性的替代提示。 對於在時間\(t-1\)處的檢測\(d∈D\)具有掩模\(mask_d\)並且在時間\(t\)處具有掩模 \(mask_e\) 的檢測\(e∈D\),我們定義掩模傳播得分為

其中\(W(m)\)表示通過幀\(t-1\)和\(t\)之間的光流向前的扭曲掩模\(m\)。

​ 跟蹤。 為了產生最終結果,我們仍然需要決定報告哪些檢測以及如何將它們隨時間連結到軌跡中。 為此,我們將現有的基於關聯向量相似度的軌跡檢測擴充套件到該軌跡的最新檢測。

​ 更確切地說,對於每個類和每個幀\(t\),我們將檢測置信度大於閾值\(γ\)的當前幀的檢測與之前幀中使用關聯向量距離公式7選擇的檢測聯絡在一起。我們只選擇最近的檢測,直到過去的\(β\)幀閾值。 使用匈牙利演算法進行匹配,同時僅允許距離小於閾值\(δ\)的成對檢測。 最後,所有未分配的高置信度檢測都會啟動新的軌跡。

​ 生成的軌道可以包含重疊的掩碼,我們不允許執行MOTS任務(參見第4節)。 在這種情況下,屬於具有較高置信度的檢測的畫素(由我們的網路的分類頭部給出)優先於具有較低置信度的檢測。


六、實驗

​ 實驗設定。對於Mask R-CNN,我們使用一個ResNet-101主幹,並在COCO和Mapillary上進行預訓練。然後,我們通過新增關聯頭,將兩個深度的3D卷積層與3×3×3濾波核(二維空間的,三維時間)、ReLU啟用層以及1024個背骨與區域建議網路之間的特徵對映進行整合,構建TrackR-CNN。將3D卷積初始化為一個標識函式,然後應用ReLU函式,在使用卷積LSTM時,在訓練的初始步驟中,隨機初始化權值,並在後續層的預訓練權值的預服務啟用中加入一個跳躍連線。然後,TrackR-CNN對目標資料集進行訓練,即KITTI MOTS 或MOTSChallenge,使用Adam優化器,以\(5*10^{-7}\)的學習速度進行了40個迴圈的測試。在訓練期間,使用由單個視訊的8個相鄰幀組成的小批量,其中8是使用Titan X (Pascal)graph-ics卡能夠裝入記憶體的最大幀數。在批處理邊界處,3D卷積層的輸入在時間上是零填充的。使用卷積LSTM時,梯度在訓練過程中通過全部8幀反向傳播,在測試時在整個序列上傳播遞迴狀態。關聯頭產生的向量有128個維度,公式8中定義的關聯損失是在一批檢測中計算出來的。我們選擇的優勢\(α= 0.2\), 這被證明是有用的。對於掩模傳播實驗,我們使用PWC-Net來計算所有相鄰幀對之間的光流。我們的整個跟蹤器在測試時達到了大約每秒2幀的速度。當使用卷積LSTM時,它是線上執行的,當使用3D卷積時,由於兩幀的關係,它是在3D卷積之前執行的。

​ 我們每個實驗的跟蹤系統調優的閾值\((α, β, γ)\)每一個類分別在目標訓練集與隨機搜尋進行1000次迭代。


表 2: KITTI MOTS上的結果。+ MG表示使用KITTI MOTS 微調 Mask R-CNN生成掩模。 BeyondPixels是一種先進的汽車MOT方法,使用與其他方法不同的檢測器。

​ 主要結果。 表2顯示了我們在KITTIMOTS驗證集上的結果。我們取得了有競爭力的結果,擊敗了幾個基準方法。Mask R-CNN + maskprop表示一個簡單的基線,我們在KITTI MOTS訓練集的框架上對COCO和Mapillary預訓練Mask R-CNN進行了微調。然後我們在驗證集上對其進行評估,並使用掩模傳播評分(參見第5節)將基於掩模的檢測隨時間聯絡起來。與此基線相比,TrackR-CNN獲得了更高的sMOTSA 和 MOTSA評分,這意味著3D卷積分層和關聯頭有助於識別視訊中的物件。MOTSP得分也是一樣的。

​ TrackR-CNN(box orig)表示我們的模型在KITTI的原始邊界框註釋上經過無掩模頭部訓練的一個版本。然後我們根據KITTI在我們的訓練片段上的原始跟蹤註釋來調整MOTA的分數。在我們的MOTS設定中,我們通過新增分割掩膜(用+MG表示)和KITTI微調掩膜R-CNN的掩膜頭部作為後處理步驟來評估這一基線。這種設定的sMOTSA和MOTSA得分比我們的方法和之前的基線更差,特別是考慮到行人時,此外,我們還觀察到,非緊密邊界框並不是跟蹤的理想線索,而僅僅在邊界框謂詞上使用例項劃分方法不足以解決MOTS任務。我們在圖4中顯示了這條基線的定性結果。基於邊界框的模型經常混淆相似的閉塞物件,導致掩膜和身份開關丟失。相反,我們的模型假設了一致的掩模(marks)。


圖 4:KITTI MOTS上的定性結果。 (a) +(c): 我們的TrackR-CNN模型評估了KITTI MOTS的驗證序列。(b)+(d): TrackR-CNN(box orig)+ MG在相同序列上的評估。在我們的資料上使用掩模進行訓練可以避免類似的近距離物體之間的混淆。

​ 為了證明像上面那樣新增分割掩膜不會帶來(不)公平的優勢,我們還使用了MASK R-CNN掩膜頭來替換我們的方法生成的掩膜(TrackR-CNN (our) + MG)。結果大致相似,所以沒有出現主要的(劣)優勢。結合我們的基線實驗,我們發現對於視訊的時間一致性的例項分割資料的訓練比沒有時間資訊的例項分割資料的訓練和僅僅對邊界框跟蹤資料的訓練都有優勢。這兩方面的聯合訓練在以前是不可能的,這強調了我們提出的MOTS資料集的有用性。

​ CAMOT是一個基於掩碼的跟蹤器,它可以跟蹤來自預定義類的物件和使用來自KITTI中立體設定的3D資訊的通用物件。在原始版本中,CAMOT將來自SharpMask的通用物件建議作為輸入。為了具有更好的可比性,我們使用來自TrackR-CNN的檢測(通過執行它作為一個正常的探測器,沒有關聯)作為輸入。請注意,CAMOT只能跟蹤立體的深度可用的區域,這限制了它的回撥。結果表明,當使用相同的輸入檢測集時,我們提出的跟蹤方法比傳統的跟蹤方法CAMOT有更好的效能。

​ 由於基於掩碼的跟蹤器的原始碼不多,我們也考慮了基於邊界框的跟蹤方法CIWT和BeyondPixels,並再次使用KITTI微調掩碼R-CNN掩碼頭將其結果轉換為分割掩碼。注意,這些方法經過了調優,在最初的基於邊界框的任務上表現良好。

​ CIWT將基於影象的資訊與來自stereo的三維資訊相結合,在影象和世界空間中進行聯合跟蹤。再次,從我們的TrackR-CNN的檢測用於可比性。我們所提出的追蹤系統在產生自適應的掩膜時,可同時處理追蹤與掩膜的產生,其效能優於連續小波變換。

​ BeyondPixels是KITTI原始跟蹤資料集中最強大的汽車跟蹤方法之一。它結合了外觀資訊和3D線索。我們無法執行他們的方法與我們的檢測,因為他們的程式碼提取外觀特徵是不可用的。相反,我們使用了從RRC獲得的原始檢測,RRC是一種非常強大的探測器。RRC特別在KITTI上實現了精確的定位,而更為傳統的MASK R-CNN檢測器設計用於一般的目標檢測。最終得到的sMOTSA和MOTSA的分數比我們的方法要高,但仍然表明在MOTS上使用Mask R-CNN分割邊界框時,最先進的邊界框跟蹤方法是有限制的。

​ MOTS用Ground Truth邊界框。為了便於比較,我們基於邊界框ground truth得到了分割結果,並在新的標註中對其進行了評估。在這裡,我們考慮了ground truth的兩個變體:來自KITTI (orig)的原始邊界框,它們是模態,即如果只有一個人的上半身是可見的,邊界框將仍然延伸到地面,另一種是緊密的邊界框(tight)從我們的分割掩膜。同樣,我們使用KITTI MOTS微調的MASK R-CNN生成掩膜。我們的研究結果表明,即使使用完美的軌跡假設,生成精確的掩模仍然具有挑戰性,尤其是對行人而言。在使用模態框時更是如此,它通常包含不顯示物件的較大區域。這進一步證實了我們的觀點,MOT任務可以從畫素級評估中獲益。進一步的基準,我們用矩形或橢圓填充ground truth框可以在補充材料中找到。

​ 時間成分。在表3中,我們比較了TrackR-CNN時間分量的不同變數。\(1×Conv3D\)和\(2×Conv3D\)表示在基幹和區域建議網路之間使用一個或疊加兩個深度可分的3D卷積層,每層有1024個維度。類似地,\(1×Conv\)和\(2×ConvLSTM\)表示在同一階段有一個或兩個堆疊的卷積LSTM層,每個層有128個特徵通道。在卷積LSTM中,由於門的存在,每個特徵通道的引數數更高。在最初的實驗中,使用更多的特徵通道似乎沒有什麼幫助。最後,不新增任何額外的層作為臨時元件\((None)\)。與基線相比,增加兩個3D卷積層可以顯著改善行人的sMOTSA和MOTSA分數,而對汽車的評分則可以進行類比。令人驚訝的是,使用卷積LSTM並沒有比基線產生任何顯著的效果。


表 3:TrackR-CNN的不同時間成分在KITTI MOTS上的結果比較。(a)+(c)我們的TrackR-CNN模型對KITTI MOTS的驗證序列進行了評估。(b)+(d) TrackR-CNN (box orig) + MG對同一序列進行評價。在我們的資料上使用蒙板進行訓練,可以避免附近相似物體之間的混淆。

​ 關聯機制。在表4中,我們比較了不同的檢測關聯機制。每一行都遵循第5節中介紹的建議的跟蹤系統,但是匈牙利匹配步驟使用了不同的分數。當使用關聯頭,關聯頭向量可能對過去檢測到\(β\)幀進行匹配。對於其餘的關聯機制,只有相鄰幀之間的匹配才是合理的。


表 4:TrackR-CNN的不同關聯機制在KITTI MOTS上的結果比較。

​ 對於MASK IoU,我們只使用來自等式9的掩模傳播分數,這會降低sMOTSA和MOTSA的分數。這強調了我們的關聯頭的有用性,它可以使用單個神經網路提供的嵌入來超越基於光流的提示。在這裡,我們也嘗試了沒有關聯頭損失的訓練\((MASK IoU(train w/oassoc.))\),這更降低了MOTSA的分數。因此,關聯損耗對檢測器本身也有積極的影響。令人驚訝的是,使用邊界框IoU(其中邊界框被框內的光流值的中間值扭曲,\(Bbox\ IoU\))執行的效果幾乎與mask IoU相同。最後,僅使用邊界框中心(Bbox Center)的距離進行關聯,即做最近鄰搜尋,會顯著降低效能。

​ MOTS挑戰。表5顯示了我們在MOTSChallenge資料集上的結果。因為MOTSChallenge只有4個視訊序列,所以我們將我們的方法(TrackR-CNN(ours))訓練成一種忽略不計的方式(用一個訓練過並調整了其他3個序列的模型來評估每個序列)。為了進行比較,我們使用四種在MOT17基準測試中表現良好的方法的預先計算結果,並使用在MOTSChallenge上經過調優的Mask R-CNN生成掩膜(以一種遺漏的方式)來評估我們的資料。我們注意到,所有四組結果都使用了SDP生成的最強公共檢測集,而TrackR-CNN生成了自己的檢測。同樣不清楚的是,這些方法有多少被訓練得在MOTChallenge訓練集上表現良好。儘管存在這些可能性,但TrackR-CNN的表現優於其他所有方法。最後一行表明,即使隨著時間的推移,包括跟蹤資訊在內的嚴格的ground truth邊界框,準確分割所有行人仍然是困難的


表 5:MOTSChallenge上的結果。+ MG表示使用域fine-tuned的Mask R-CNN生成掩模。

七、結論

​ 到目前為止,還沒有用於評估多物件跟蹤和分割的任務的基準或資料集,並且使用這種時間上一致的基於掩模的跟蹤資訊直接訓練方法。 為了緩解這個問題,我們引入了兩個基於現有MOT資料集的新資料集,我們使用半自動標註過程進行標註。 我們基於常用的MOTA指標進一步介紹了MOTSA和sMOTSA指標,但適用於評估基於掩模跟蹤的所有方面。 我們最終開發了一個旨在利用這些資料的基線模型。 我們通過對資料的訓練表明,該方法能夠勝過僅用邊界框軌跡和單個影象例項分割掩模訓練的方法。 我們的新資料集使這種聯合訓練成為可能,這為未來的研究提供了許多機會