1. 程式人生 > >計算機視覺-論文閱讀筆記-基於高效能檢測器與表觀特徵的多目標跟蹤

計算機視覺-論文閱讀筆記-基於高效能檢測器與表觀特徵的多目標跟蹤

這篇筆記主要是對今年ECCV2016上的論文:POI:Multiple Object Tracking with High Performance Detection and Appearance Feature 進行整理. 這篇文章的基本思路是在每幀上用檢測器檢測行人位置,在每幀之前利用行人檢測框的表觀特徵(Appearance Feature)進行前後幀行人框的匹配,從而實現對行人的跟蹤.所以這篇文章的演算法算是Tracking by Detection.這篇文章在行人檢測器和表觀特徵提取兩處均使用了基於深度學習的方法.並達到了較好的效果.作者給這個跟蹤演算法起了個叫POI:Person of Interest.

行人檢測

一個準確的行人檢測器對於跟蹤有很大的幫助.POI中使用檢測器資訊如下:
* 模型:Faster RCNN
* 資料庫:使用了多個數據庫.包括ImageNet, ETHZ pedestrain dataset, Caltech pedestrain dataset 以及作者自己準備的資料集(接近40w個樣本,但並沒有公開).
* 策略:作者額外使用了skip pooling [參考文獻1]和multi-region[參考文獻2]這兩個策略提高檢測器的效果.

作者在MOT16 train set上對比了Faster RCNN 和 DPM的效果對比.其中添加了skip pooling和multi-region兩個策略的Faster RCNN獲得了最好的綜合效果,如下圖所示.

POI1.png

表觀特徵(Appearance Feature)

表觀特徵是用來計算行人影象框之間的相似度的.在用理想的表觀特徵計算時,來自相同個體的影象框的相似度應該很大,而來自不同個體的影象框的相似度應該很小.從而能夠通過相似度確定影象框集合之間的對應關係.
* 模型:GoolgeNet的修改版本,輸入尺寸為96 * 96,pool5的kernel size從7 * 7換成了3 * 3
* 訓練資料:多個person re-id datasets:包括PRW,Market-1501,VIPeR,CUHK03. 包括來自19835個個體的119000對左右patches.
* 訓練方法:同時使用softmax和triplet loss. softmax loss用來提高表觀特徵的區分度, triplet loss 用來保證同個個體的表觀特徵距離較小
* 相似度計算: 通過特徵的餘弦距離計算相似度, 餘弦距離即計算兩個向量夾角的餘弦值.完全相關時為1,完全無關時為0

線上跟蹤器(Online Tracker)

Online Tracker Algorithm

以上即為POI中線上跟蹤器的演算法,其中輸入和輸出為:
* 輸入資訊:t時刻的影象幀,t時刻影象幀上的檢測框集合Dt,以及t-1時刻的跟蹤框集合Tt1
* 輸出資訊:t時刻的跟蹤框集合Tt
在Online Tracker中, POI使用Kalman Filter [參考文獻3]做動作預測, Kuhn-Munkres 演算法[參考文獻4]做資料對應(即兩個行人框集合之間的對應)

相似矩陣構建(Affinity Matrix Construction)

Kuhn-Munkres演算法需要構建相似矩陣來進行兩個集合之間的對應,相似矩陣中的元素即兩個集合對應資料的相似度. POI中集合了運動,形狀,表觀特徵來計算跟蹤集和檢測集之間的相似度.其中表觀特徵即上面討論的用深度學習模型提取的特徵.

affapp(trki,detj)=cosine(feattrki,featdetj)
affmot(trki,detj)=ew1((XtrkiXdetjWdetj)2+(YtrkiYdetjHdetj)2)
affshp(trki,detj)=ew2(|HtrkiHdetj|Htrki+Hdetj+|WtrkiWdetj|Wtrki+Wdetj)
affinity(trki,detj)=affapp(trki,detj)affmot(trki,detj)