深度學習大講堂：深度學習在目標跟蹤中的應用

阿新 • • 發佈：2019-01-27

本文作者徐霞清，中國科學院計算技術研究所VIPL組碩士生，導師常虹副研究員。研究方向為深度學習與計算機視覺（目標跟蹤等）。

深度學習在目標跟蹤中的應用

開始本文之前，我們首先看上方給出的3張圖片，它們分別是同一個視訊的第1，40，80幀。在第1幀給出一個跑步者的邊框(bounding-box)之後，後續的第40幀，80幀，bounding-box依然準確圈出了同一個跑步者。以上展示的其實就是目標跟蹤(visual object tracking)的過程。目標跟蹤(特指單目標跟蹤)是指：給出目標在跟蹤視訊第一幀中的初始狀態（如位置，尺寸），自動估計目標物體在後續幀中的狀態。

人眼可以比較輕鬆的在一段時間內跟住某個特定目標。但是對機器而言，這一任務並不簡單，尤其是跟蹤過程中會出現目標發生劇烈形變、被其他目標遮擋或出現相似物體干擾等等各種複雜的情況。過去幾十年以來，目標跟蹤的研究取得了長足的發展，尤其是各種機器學習演算法被引入以來，目標跟蹤演算法呈現百花齊放的態勢。2013年以來，深度學習方法開始在目標跟蹤領域展露頭腳，並逐漸在效能上超越傳統方法，取得巨大的突破。本文首先簡要介紹主流的傳統目標跟蹤方法，之後對基於深度學習的目標跟蹤演算法進行介紹，最後對深度學習在目標跟蹤領域的應用進行總結和展望。

|經典目標跟蹤方法

目前跟蹤演算法可以被分為產生式(generative model)和判別式(discriminative model)兩大類別。

產生式方法運用生成模型描述目標的表觀特徵，之後通過搜尋候選目標來最小化重構誤差。比較有代表性的演算法有稀疏編碼(sparse coding)，線上密度估計(online density estimation)和主成分分析(PCA)等。產生式方法著眼於對目標本身的刻畫，忽略背景資訊，在目標自身變化劇烈或者被遮擋時容易產生漂移。

與之相對的，判別式方法通過訓練分類器來區分目標和背景。這種方法也常被稱為tracking-by-detection。近年來，各種機器學習演算法被應用在判別式方法上，其中比較有代表性的有多示例學習方法(multiple instance learning), boosting和結構SVM(structured SVM)等。

判別式方法因為顯著區分背景和前景的資訊，表現更為魯棒，逐漸在目標跟蹤領域佔據主流地位。值得一提的是，目前大部分深度學習目標跟蹤方法也歸屬於判別式框架。

近年來，基於相關濾波(correlation filter)的跟蹤方法因為速度快,效果好吸引了眾多研究者的目光。相關濾波器通過將輸入特徵迴歸為目標高斯分佈來訓練 filters。並在後續跟蹤中尋找預測分佈中的響應峰值來定位目標的位置。

相關濾波器在運算中巧妙應用快速傅立葉變換獲得了大幅度速度提升。目前基於相關濾波的拓展方法也有很多，包括核化相關濾波器(kernelized correlation filter, KCF), 加尺度估計的相關濾波器(DSST)等。

|

基於深度學習的目標跟蹤方法

不同於檢測、識別等視覺領域深度學習一統天下的趨勢，深度學習在目標跟蹤領域的應用並非一帆風順。其主要問題在於訓練資料的缺失：深度模型的魔力之一來自於對大量標註訓練資料的有效學習，而目標跟蹤僅僅提供第一幀的bounding-box作為訓練資料。

這種情況下，在跟蹤開始針對當前目標從頭訓練一個深度模型困難重重。目前基於深度學習的目標跟蹤演算法採用了幾種思路來解決這個問題，下面將依據思路的不同展開介紹，並在最後介紹目前跟蹤領域出現的運用遞迴神經網路(recurrent neural network)解決目標跟蹤問題的新思路。

一、利用輔助圖片資料預訓練深度模型，線上跟蹤時微調

在目標跟蹤的訓練資料非常有限的情況下，使用輔助的非跟蹤訓練資料進行預訓練，獲取對物體特徵的通用表示(general representation )，在實際跟蹤時，通過利用當前跟蹤目標的有限樣本資訊對預訓練模型微調(fine-tune), 使模型對當前跟蹤目標有更強的分類效能，這種遷移學習的思路極大的減少了對跟蹤目標訓練樣本的需求，也提高了跟蹤演算法的效能。

這個方面代表性的作品有DLT和SO-DLT，都出自香港科技大學王乃巖博士。

DLT(NIPS2013)

Learning a Deep Compact Image Representation for Visual Tracking

深度學習在目標跟蹤中的應用

DLT是第一個把深度模型運用在單目標跟蹤任務上的跟蹤演算法。它的主體思路如上圖所示：

(1)   先使用棧式降噪自編碼器(stacked denoising autoencoder，SDAE)在Tiny Images dataset這樣的大規模自然影象資料集上進行無監督的離線預訓練來獲得通用的物體表徵能力。預訓練的網路結構如上圖(b)所示，一共堆疊了4個降噪自編碼器, 降噪自編碼器對輸入加入噪聲，通過重構出無噪聲的原圖來獲得更魯棒的特徵表達能力。SDAE1024-2560-1024-512-256這樣的瓶頸式結構設計也使獲得的特徵更加compact。

(2)   之後的線上跟蹤部分結構如上圖(c)所示，取離線SDAE的encoding部分疊加sigmoid分類層組成了分類網路。此時的網路並沒有獲取對當前被跟蹤物體的特定表達能力。此時利用第一幀獲取正負樣本，對分類網路進行fine-tune獲得對當前跟蹤目標和背景更有針對性的分類網路。在跟蹤過程中，對當前幀採用粒子濾波(particle filter)的方式提取一批候選的patch(相當於detection中的proposal)，這些patch輸入分類網路中，置信度最高的成為最終的預測目標。

(3)   在目標跟蹤非常重要的模型更新策略上，該論文采取限定閾值的方式，即當所有粒子中最高的confidence低於閾值時，認為目標已經發生了比較大的表觀變化，當前的分類網路已經無法適應，需要進行更新。

小結：DLT作為第一個將深度網路運用於單目標跟蹤的跟蹤演算法，首先提出了“離線預訓練＋線上微調”的思路，很大程度的解決了跟蹤中訓練樣本不足的問題，在CVPR2013提出的OTB50資料集上的29個跟蹤器中排名第5。

但是DLT本身也存在一些不足：

(1)   離線預訓練採用的資料集Tiny Images dataset只包含32*32大小的圖片，解析度明顯低於主要的跟蹤序列，因此SDAE很難學到足夠強的特徵表示。

(2)   離線階段的訓練目標為圖片重構，這與線上跟蹤需要區分目標和背景的目標相差甚大。

(3)   SDAE全連線的網路結構使其對目標的特徵刻畫能力不夠優秀，雖然使用了4層的深度模型，但效果仍低於一些使用人工特徵的傳統跟蹤方法如Struck等。

SO-DLT(arXiv2015)

Transferring Rich Feature Hierarchies for Robust Visual Tracking

SO-DLT延續了DLT利用非跟蹤資料預訓練加線上微調的策略，來解決跟蹤過程中訓練資料不足的問題，同時也對DLT存在的問題做了很大的改進。

深度學習在目標跟蹤中的應用

(1) 使用CNN作為獲取特徵和分類的網路模型。如上圖所示，SO-DLT使用了的類似AlexNet的網路結構，但是有幾大特點：

一、針對跟蹤候選區域的大小將輸入縮小為100*100，而不是一般分類或檢測任務中的224*224。

二、網路的輸出為50*50大小，值在0-1之間的概率圖(probability map)，每個輸出畫素對應原圖2*2的區域，輸出值越高則該點在目標bounding-box中的概率也越高。這樣的做法利用了圖片本身的結構化資訊，方便直接從概率圖確定最終的bounding-box,避免向網路輸入數以百計的proposal，這也是SO-DLT structured output得名的由來。

三、在卷積層和全連線層中間採用SPP-NET中的空間金字塔取樣（spatial pyramid pooling）來提高最終的定位準確度。

(2) 在離線訓練中使用ImageNet 2014的detection資料集使CNN獲得區分object和非object（背景）的能力。

深度學習在目標跟蹤中的應用

SO-DLT線上跟蹤的pipeline如上圖所示:

(1)   處理第t幀時，首先以第t-1幀的的預測位置為中心，從小到大以不同尺度crop區域放入CNN當中，當CNN輸出的probability map的總和高於一定閾值時，停止crop, 以當前尺度作為最佳的搜尋區域大小。

(2)   選定第t幀的最佳搜尋區域後，在該區域輸出的probability map上採取一系列策略確定最終的bounding-box中心位置和大小。

(3)   在模型更新方面，為了解決使用不準確結果fine-tune導致的drift問題,使用了long-term 和short-term兩個CNN，即CNNS和CNNL。CNNS更新頻繁，使其對目標的表觀變化及時響應。CNNL更新較少，使其對錯誤結果更加魯棒。二者結合，取最confident的結果作為輸出。從而在adaptation和drift之間達到一個均衡。

小結：SO-DLT作為large-scale CNN網路在目標跟蹤領域的一次成功應用，取得了非常優異的表現：在CVPR2013提出的OTB50資料集上OPE準確度繪圖(precision plot)達到了0.819, OPE成功率繪圖(success plot)達到了0.602。遠超當時其它的state of the art。

SO-DLT有幾點值得借鑑：

(1) 針對tracking問題設計了有針對性的網路結構。

(2) 應用CNNS和CNNL用ensemble的思路解決update 的敏感性，特定引數取多值做平滑，解決引數取值的敏感性。這些措施目前已成為跟蹤演算法提高評分的殺手鐗。

但是SO－DLT離線預訓練依然使用的是大量無關聯圖片，作者認為使用更貼合跟蹤實質的時序關聯資料是一個更好的選擇。

二、利用現有大規模分類資料集預訓練的CNN分類網路提取特徵

2015年以來，在目標跟蹤領域應用深度學習興起了一股新的潮流。即直接使用ImageNet這樣的大規模分類資料庫上訓練出的CNN網路如VGG-Net獲得目標的特徵表示，之後再用觀測模型(observation model)進行分類獲得跟蹤結果。

這種做法既避開了跟蹤時直接訓練large-scale CNN樣本不足的困境，也充分利用了深度特徵強大的表徵能力。這樣的工作在ICML15，ICCV15，CVPR16均有出現。下面介紹兩篇發表於ICCV15的工作。

FCNT(ICCV15)

Visual Tracking with Fully Convolutional Networks

作為應用CNN特徵於物體跟蹤的代表作品，FCNT的亮點之一在於對ImageNet上預訓練得到的CNN特徵在目標跟蹤任務上的效能做了深入的分析,並根據分析結果設計了後續的網路結構。

FCNT主要對VGG-16的Conv4-3和Conv5-3層輸出的特徵圖譜（feature map）做了分析,並得出以下結論：

(1)   CNN 的feature map可以用來做跟蹤目標的定位。

(2)   CNN 的許多feature map存在噪聲或者和物體跟蹤區分目標和背景的任務關聯較小。

(3)   CNN不同層的特徵特點不一。高層(Conv5-3)特徵擅長區分不同類別的物體，對目標的形變和遮擋非常魯棒，但是對類內物體的區分能力非常差。低層(Conv4-3)特徵更關注目標的區域性細節，可以用來區分背景中相似的distractor，但是對目標的劇烈形變非常不魯棒。

深度學習在目標跟蹤中的應用

依據以上分析，FCNT最終形成了如上圖所示的框架結構：

(1)   對於Conv4-3和Conv5-3特徵分別構建特徵選擇網路sel-CNN(1層dropout加1層卷積)，選出和當前跟蹤目標最相關的feature map channel。

(2)   對篩選出的Conv5-3和Conv4-3特徵分別構建捕捉類別資訊的GNet和區分distractor(背景相似物體)的SNet(都是兩層卷積結構)。

(3)   在第一幀中使用給出的bounding-box生成熱度圖(heat map)迴歸訓練sel-CNN, GNet和SNet。

(4)   對於每一幀，以上一幀預測結果為中心crop出一塊區域，之後分別輸入GNet和SNet，得到兩個預測的heatmap,並根據是否有distractor決定使用哪個heatmap 生成最終的跟蹤結果。

小結：FCNT根據對CNN不同層特徵的分析，構建特徵篩選網路和兩個互補的heat-map預測網路。達到有效抑制distractor防止跟蹤器漂移，同時對目標本身的形變更加魯棒的效果，也是ensemble思路的又一成功實現。

在CVPR2013提出的OTB50資料集上OPE準確度繪圖(precision plot)達到了0.856,OPE成功率繪圖(success plot)達到了0.599，準確度繪圖有較大提高。實際測試中FCNT的對遮擋的表現不是很魯棒，現有的更新策略還有提高空間。

Hierarchical Convolutional Features for Visual Tracking(ICCV15)

這篇是作者在2015年度看到的最簡潔有效的利用深度特徵做跟蹤的論文。其主要思路是提取深度特徵，之後利用相關濾波器確定最終的bounding-box。

這篇論文簡要分析了VGG-19特徵( Conv3_4, Conv4_4, Conv5_4 )在目標跟蹤上的特性，得出的結論和FCNT有異曲同工之處，即：

(1) 高層特徵主要反映目標的語義特性，對目標的表觀變化比較魯棒。

(2) 低層特徵儲存了更多細粒度的空間特性，對跟蹤目標的精確定位更有效。

深度學習在目標跟蹤中的應用

基於以上結論，作者給出了一個粗粒度到細粒度(coarse-to-fine)的跟蹤演算法即：

(1)   第一幀時，利用Conv3_4,Conv4_4,Conv5_4特徵的插值分別訓練得到3個相關濾波器。

(2)   之後的每幀，以上一幀的預測結果為中心crop出一塊區域，獲取三個卷積層的特徵，做插值，並通過每層的相關濾波器預測二維的confidence score。

(3)   從Conv5_4開始算出confidence score上最大的響應點，作為預測的bounding-box的中心位置，之後以這個位置約束下一層的搜尋範圍，逐層向下做更細粒度的位置預測,以最低層的預測結果作為最後輸出。具體公式如下：

(4)   利用當前跟蹤結果對每一層的相關濾波器做更新。

小結：這篇文章針對VGG-19各層特徵的特點，由粗粒度到細粒度最終準確定位目標的中心點。在CVPR2013提出的OTB50資料集上OPE準確度繪圖達到了0.891,OPE成功率繪圖達到了0.605，相較於FCNT和SO-DLT都有提高，實際測試時效能也相當穩定，顯示出深度特徵結合相關濾波器的巨大優勢。

但是這篇文章中的相關濾波器並沒有對尺度進行處理，在整個跟蹤序列中都假定目標尺度不變。在一些尺度變化非常劇烈的測試序列上如CarScale上最終預測出的bounding-box尺寸大小和目標本身大小相差較大。

以上兩篇文章均是應用預訓練的CNN網路提取特徵提高跟蹤效能的成功案例，說明利用這種思路解決訓練資料缺失和提高效能具有很高的可行性。但是分類任務預訓練的CNN網路本身更關注區分類間物體，忽略類內差別。

目標跟蹤時只關注一個物體，重點區分該物體和背景資訊，明顯抑制背景中的同類物體，但是還需要對目標本身的變化魯棒。分類任務以相似的一眾物體為一類，跟蹤任務以同一個物體的不同表觀為一類，使得這兩個任務存在很大差別，這也是兩篇文章融合多層特徵來做跟蹤以達到較理想效果的動機所在。

三、利用跟蹤序列預訓練，線上跟蹤時微調

1和2中介紹的解決訓練資料不足的策略和目標跟蹤的任務本身存在一定偏離。有沒有更好的辦法呢？

VOT2015冠軍MDNet給出了一個示範。該方法在OTB50上也取得了OPE準確度繪圖0.942,OPE成功率繪圖0.702的驚人得分。

MDNet(CVPR2016)

Learning Multi-Domain Convolutional Neural Networks for Visual Tracking

意識到影象分類任務和跟蹤之間存在巨大差別，MDNet提出直接用跟蹤視訊預訓練CNN獲得general的目標表示能力的方法。但是序列訓練也存在問題，即不同跟蹤序列跟蹤目標完全不一樣，某類物體在一個序列中是跟蹤目標，在另外一個序列中可能只是背景。

不同序列中目標本身的表觀和運動模式、環境中光照、遮擋等情形相差甚大。這種情況下，想要用同一個CNN完成所有訓練序列中前景和背景區分的任務，困難重重。

最終MDNet提出Multi-Domain的訓練思路和如上圖所示的Multi-Domain Network。該網路分為共享層和domain-specific層兩部分。

即: 將每個訓練序列當成一個單獨的domain,每個domain都有一個針對它的二分類層(fc6)，用於區分當前序列的前景和背景，而網路之前的所有層都是序列共享的。這樣共享層達到了學習跟蹤序列中目標general的特徵表達的目的，而domain-specific層又解決了不同訓練序列分類目標不一致的問題。

具體訓練時，MDNet的每個mini-batch只由一個特定序列的訓練資料構成，只更新共享層和針對當前序列的特定fc6層。這樣共享層中獲得了對序列共有特徵的表達能力，如對光照、形變等的魯棒性。MDNet的訓練資料也非常有意思，即測試OTB100資料集時，利用VOT2013－2015的不重合的58個序列來做預訓練。測試VOT2014資料集時，利用OTB100上不重合的89個序列做預訓練。這種交替利用的思路也是第一次在跟蹤論文中出現。

線上跟蹤階段針對每個跟蹤序列，MDNet主要有以下幾步：

(1)   隨機初始化一個新的fc6層。

(2)   使用第一幀的資料來訓練該序列的bounding box迴歸模型。

(3)   用第一幀提取正樣本和負樣本，更新fc4, fc5和fc6層的權重。

(4)   之後產生256個候選樣本，並從中選擇置信度最高的，之後做bounding-box regression得到最終結果。

(5)   當前幀最終結果置信度較高時，取樣更新樣本庫，否則根據情況對模型做短期或者長期更新。

MDNet有兩點值得借鑑之處：

(1) MDNet應用了更為貼合跟蹤實質的視訊資料來做訓練，並提出了創新的Multi-domain訓練方法和訓練資料交叉運用的思路。

(2) 此外MDNet從檢測任務中借鑑了不少行之有效的策略，如難例挖掘(hard negative mining)，bounding box迴歸等。尤其是難例迴歸通過重點關注背景中的難點樣本（如相似物體等）顯著減輕了跟蹤器漂移的問題。這些策略也幫助MDNet在TPAMI2015 OTB100資料集上OPE準確度繪圖從一開始的0.825提升到0.908, OPE成功率繪圖從一開始的0.589提升到0.673。

但是也可以發現MDNet的總體思路和RCNN比較類似，需要前向傳遞上百個proposal,雖然網路結構較小，速度仍較慢。且boundingbox迴歸也需要單獨訓練，因此MDNet還有進一步提升的空間。

四、運用遞迴神經網路進行目標跟蹤的新思路

近年來RNN尤其是帶有門結構的LSTM，GRU等在時序任務上顯示出了突出的效能。不少研究者開始探索如何應用RNN來做解決現有跟蹤任務中存在的問題，以下簡要介紹兩篇在這方面比較有代表性的探索文章。

RTT(CVPR16)

Recurrently Target-Attending Tracking

這篇文章的出發點比較有意思，即利用多方向遞迴神經網路(multi-directional recurrent neural network)來建模和挖掘對整體跟蹤有用的可靠目標部分(reliable part)，實際上是二維平面上的RNN建模，最終解決預測誤差累積和傳播導致的跟蹤漂移問題。其本身也是對part-based跟蹤方法和相關濾波(correlation filter)方法的改進和探索。

RTT的整體框架如上圖所示：

深度學習在目標跟蹤中的應用

(1)   首先對每一幀的候選區域進行網狀分塊，對每個分塊提取HOG特徵，最終相連獲得基於塊的特徵。

(2)   得到分塊特徵以後，RTT利用前5幀訓練多方向RNN來學習分塊之間大範圍的空間關聯。

通過在4個方向上的前向推進，RNN計算出每個分塊的置信度，最終每個塊的預測值組成了整個候選區域的置信圖（confidence map）。受益於RNN的recurrent結構，每個分塊的輸出值都受到其他關聯分塊的影響，相比於僅僅考慮當前塊的準確度更高，避免單個方向上遮擋等的影響，增加可靠目標部分在整體置信圖中的影響。

(3)   由RNN得出置信圖之後，RTT執行了另外一條pipeline。即訓練相關濾波器來獲得最終的跟蹤結果。值得注意的是，在訓練過程中RNN的置信圖對不同塊的filter做了加權，達到抑制背景中的相似物體，增強可靠部分的效果。

(4)   RTT提出了一個判斷當前跟蹤物體是否被遮擋的策略，用其判斷是否更新。即計算目標區域的置信度和，並與歷史置信度和的移動平均數(moving average)做一個對比，低於一定比例，則認為受到遮擋，停止模型更新，防止引入噪聲。

小結：RTT是第一個利用RNN來建模part-based跟蹤任務中複雜的大範圍關聯關係的跟蹤演算法。在CVPR2013提出的OTB50資料集上OPE準確度繪圖為0.827,OPE成功率繪圖達到了0.588。相比於其他基於傳統特徵的相關濾波器演算法有較大的提升，說明RNN對關聯關係的挖掘和對濾波器的約束確實有效。RTT受制於引數數目的影響，只選用了引數較少的普通RNN結構（採用HOG特徵其實也是降低引數的另外一種折中策略）。結合之前介紹的解決訓練資料缺失的措施，RTT可以運用更好的特徵和RNN結構，效果還有提升空間。

DeepTracking: Seeing Beyond Seeing Using Recurrent Neural Networks(AAAI16)

這篇文章的應用場景是機器人視覺，目標是將感測器獲得的有遮擋的環境資訊還原為真實的無遮擋的環境資訊。嚴格來說這篇文章僅輸出還原後的圖片，沒有明確預測目標的位置和尺寸等狀態資訊，和之前介紹的所有文章的做法都不一樣，不妨稱為一種新的跟蹤任務。

在模型方面，不同於RTT用RNN建模二維平面關聯，DeepTracking利用RNN來做序列關聯的建模，並最終實現了端到端的跟蹤演算法。

傳統的貝葉斯跟蹤方法一般採用高斯分佈(卡爾曼濾波Kalman filter)或者離散的取樣點權重（粒子濾波particle filter）來近似需要求解的後驗概率 P(y_t|x₁_:t) (yt 為需要預測的機器人周圍的真實場景, x_t 為感測器直接獲得的場景資訊)，其表達能力有限。DeepTracking拓展了傳統的貝葉斯跟蹤框架，並利用RNN強大的表徵能力來建模後驗概率。

具體而言DeepTracking引入了一個具有馬爾可夫性質的隱變數 h_t，認為其反映了真實環境的全部資訊。最終需要預測的 y_t 包含了 h_t，包含了 h_t 的部分資訊，可由 h_t得到。假設 B_t 為關於 h_t的信念(belief),對應於後驗概率：B_el(h_t) = P(y_t|h_t) 。之後經典貝葉斯跟蹤框架中由 P(y_t-1|x_1:t-1) 到 P(y_t|x_1:t) 到的時序更新在這裡轉化為：B_t = F(B_t-1,x_t）和 P(t_y|x_1:t) = P(y_t|B_t)。

深度學習在目標跟蹤中的應用

給出形式表達之後的關鍵是，如何將其對應到RNN的框架中去。DeepTracking的核心思路是用利用兩個權重 WF 和 WP 來分別建模 F(Bt-1, xt)和P(yt|Bt )，將Bt 定義為RNN時序之間傳遞的memory 資訊。此時，如上圖所示RNN的各個狀態和推進流程就和跟蹤任務完美的對接上了。

深度學習在目標跟蹤中的應用

實驗部分，DeepTracking採用模擬的2維感測器資料和如上圖所示的3層RNN的網路結構，B_t 對應於第三層的網路輸出。通過無監督的預測 x_t+n 的任務來使網路獲得預測 y_t 的潛在能力。

小結：DeepTracking作為用RNN建模跟蹤時序任務的作品，其亮點主要在對RNN和貝葉斯框架融合的理論建模上。實驗展示了該方法在模擬場景下的不錯效果，但是模擬資料和真實場景差距很大，能否在實際應用中有比較好的表現還有待商榷。

|總結

本文介紹了深度學習在目標跟蹤領域應用的幾種不同思路。三種解決訓練資料缺失的思路各有千秋，作者認為使用序列預訓練的方法更貼合跟蹤任務的本質因此值得關注（近期也有應用Siamese Network和視訊資料訓練的跟蹤演算法湧現，具體參見王乃巖博士在VLASE公眾號上的介紹文章《Object Tracking新思路》）。

總的來說，基於RNN的目標跟蹤演算法還有很大提升空間。此外，目前已有的深度學習目標跟蹤方法還很難滿足實時性的要求，如何設計網路和跟蹤流程達到速度和效果的提升，還有很大的研究空間。

深度學習大講堂：深度學習在目標跟蹤中的應用