基於Deep Learning的跟蹤演算法總結（一）

阿新 • • 發佈：2019-01-05

博主最近主要關注使用深度學習的視訊跟蹤一系列演算法，本文為學習筆記，僅供學習交流，如有侵權，請指出。

No Free Lunch

不同於檢測、識別等視覺領域深度學習一統天下的趨勢，深度學習在目標跟蹤領域的應用並非一帆風順。其主要問題在於訓練資料的缺失。深度模型的魔力之一來自於對大量標註訓練資料的有效學習，而目標跟蹤僅僅提供第一幀的bounding-box作為訓練資料。

接下來，介紹幾種思路來解決上述資料缺少的問題。

一、利用輔助圖片資料預訓練深度模型，線上跟蹤時微調

在目標跟蹤的訓練資料非常有限的情況下，使用輔助的非跟蹤訓練資料進行預訓練，獲取對物體特徵的通用表示(general representation )，在實際跟蹤時，通過利用當前跟蹤目標的有限樣本資訊對預訓練模型微調(fine-tune), 使模型對當前跟蹤目標有更強的分類效能，這種遷移學習的思路極大的減少了對跟蹤目標訓練樣本的需求，也提高了跟蹤演算法的效能。

DLT(NIPS2013)
Learning a Deep Compact Image Representation for Visual Tracking
這裡寫圖片描述

DLT是第一個把深度模型運用在單目標跟蹤任務上的跟蹤演算法。它的主體思路如上圖所示：

(1) 先使用棧式降噪自編碼器(stacked denoising autoencoder，SDAE)在Tiny Images dataset這樣的大規模自然影象資料集上進行無監督的離線預訓練來獲得通用的物體表徵能力。預訓練的網路結構如上圖(b)所示，一共堆疊了4個降噪自編碼器, 降噪自編碼器對輸入加入噪聲，通過重構出無噪聲的原圖來獲得更魯棒的特徵表達能力。SDAE1024-2560-1024-512-256這樣的瓶頸式結構設計也使獲得的特徵更加compact。

(2) 之後的線上跟蹤部分結構如上圖(c)所示，取離線SDAE的encoding部分疊加sigmoid分類層組成了分類網路。此時的網路並沒有獲取對當前被跟蹤物體的特定表達能力。此時利用第一幀獲取正負樣本，對分類網路進行fine-tune獲得對當前跟蹤目標和背景更有針對性的分類網路。在跟蹤過程中，對當前幀採用粒子濾波(particle filter)的方式提取一批候選的patch(相當於detection中的proposal)，這些patch輸入分類網路中，置信度最高的成為最終的預測目標。

(3) 在目標跟蹤非常重要的模型更新策略上，該論文采取限定閾值的方式，即當所有粒子中最高的confidence低於閾值時，認為目標已經發生了比較大的表觀變化，當前的分類網路已經無法適應，需要進行更新。

小結：DLT作為第一個將深度網路運用於單目標跟蹤的跟蹤演算法，首先提出了“離線預訓練＋線上微調”的思路，很大程度的解決了跟蹤中訓練樣本不足的問題，在CVPR2013提出的OTB50資料集上的29個跟蹤器中排名第5。

但是DLT本身也存在一些不足：

(1) 離線預訓練採用的資料集Tiny Images dataset只包含32*32大小的圖片，解析度明顯低於主要的跟蹤序列，因此SDAE很難學到足夠強的特徵表示。

(2) 離線階段的訓練目標為圖片重構，這與線上跟蹤需要區分目標和背景的目標相差甚大。

(3) SDAE全連線的網路結構使其對目標的特徵刻畫能力不夠優秀，雖然使用了4層的深度模型，但效果仍低於一些使用人工特徵的傳統跟蹤方法如Struck等。

SO-DLT(arXiv2015)
Transferring Rich Feature Hierarchies for Robust Visual Tracking

SO-DLT延續了DLT利用非跟蹤資料預訓練加線上微調的策略，來解決跟蹤過程中訓練資料不足的問題，同時也對DLT存在的問題做了很大的改進。

這裡寫圖片描述

(1) 使用CNN作為獲取特徵和分類的網路模型。如上圖所示，SO-DLT使用了的類似AlexNet的網路結構，但是有幾大特點：一、針對跟蹤候選區域的大小將輸入縮小為100100，而不是一般分類或檢測任務中的224224。二、網路的輸出為5050大小，值在0-1之間的概率圖(probability map)，每個輸出畫素對應原圖22的區域，輸出值越高則該點在目標bounding-box中的概率也越高。這樣的做法利用了圖片本身的結構化資訊，方便直接從概率圖確定最終的bounding-box,避免向網路輸入數以百計的proposal，這也是SO-DLT structured output得名的由來。三、在卷積層和全連線層中間採用SPP-NET中的空間金字塔取樣（spatial pyramid pooling）來提高最終的定位準確度。

(2) 在離線訓練中使用ImageNet 2014的detection資料集使CNN獲得區分object和非object（背景）的能力。

這裡寫圖片描述

SO-DLT線上跟蹤的pipeline如上圖所示:

(1) 處理第t幀時，首先以第t-1幀的的預測位置為中心，從小到大以不同尺度crop區域放入CNN當中，當CNN輸出的probability map的總和高於一定閾值時，停止crop, 以當前尺度作為最佳的搜尋區域大小。

(2) 選定第t幀的最佳搜尋區域後，在該區域輸出的probability map上採取一系列策略確定最終的bounding-box中心位置和大小。

(3) 在模型更新方面，為了解決使用不準確結果fine-tune導致的drift問題,使用了long-term 和short-term兩個CNN，即CNNs和CNNl。CNNs更新頻繁，使其對目標的表觀變化及時響應。CNNl更新較少，使其對錯誤結果更加魯棒。二者結合，取最confident的結果作為輸出。從而在adaptation和drift之間達到一個均衡。

小結：SO-DLT作為large-scale CNN網路在目標跟蹤領域的一次成功應用，取得了非常優異的表現：在CVPR2013提出的OTB50資料集上OPE準確度繪圖(precision plot)達到了0.819, OPE成功率繪圖(success plot)達到了0.602。遠超當時其它的state of the art。

SO-DLT有幾點值得借鑑：

(1) 針對tracking問題設計了有針對性的網路結構。

(2) 應用CNNS和CNNL用ensemble的思路解決update 的敏感性，特定引數取多值做平滑，解決引數取值的敏感性。這些措施目前已成為跟蹤演算法提高評分的殺手鐗。

但是SO－DLT離線預訓練依然使用的是大量無關聯圖片，作者認為使用更貼合跟蹤實質的時序關聯資料是一個更好的選擇。

基於Deep Learning的跟蹤演算法總結（一）

博主最近主要關注使用深度學習的視訊跟蹤一系列演算法，本文為學習筆記，僅供學習交流，如有侵權，請指出。 No Free Lunch 不同於檢測、識別等視覺領域深度學習一統天下的趨勢，深度學習在目標跟蹤領域的應用並非一帆風順。其主要問題在於訓練資料的缺失。深

基於Deep Learning的跟蹤演算法總結（二）

本文主要談談TCNN（樹狀CNN）實現物體跟蹤演算法的大致流程和原理。論文：《Modeling and Propagating CNNs in a Tree Structure for Visual Tracking》，應該是投了CVPR2017。論文地

基於Deep Learning的跟蹤演算法總結（四）

題外話：博主這段時間忙於辦理簽證，比較忙，一直沒時間看論文。：-（一、引言深度學習具有強大的能力，但由於目標跟蹤任務本身的特殊性，深度學習一直沒能很好地發揮出自己的潛能。其中，導致深度學習演算法速度慢的一個重要原因是online-update，即更新過程

比較全面的Adaboost演算法總結（一）

目錄： 1. Boosting演算法基本原理 2. Boosting演算法的權重理解 3. AdaBoost的演算法流程 4. AdaBoost演算法的訓練誤差分析 5. AdaBoost演算法的解釋 6. AdaBoost演算法的正則化 7. AdaBoost演算法的過

資料結構和演算法總結（一）

任何一位有志於駕馭計算機的學生，都應該從這些方面入手，重點是：不斷學習，反覆練習，勤於總結。究竟什麼是演算法呢？所謂演算法，是指基於特定的計算機模型，旨在解決某一問題而設計的一個指令序列。演算法應具有以下流程:輸入與輸出；基本操作即加減乘除；確定性即明確的指令序列，可行性即可在對應計算機

影象拼接演算法總結（一）

影象的拼接技術包括三大部分：特徵點提取與匹配、影象配準、影象融合。 1、基於SRUF 的特徵點的提取與匹配為了使拼接具有良好的精度和魯棒性，同時又使其具有較好的實時性，本實驗採用SURF 演算法完成影象序列特徵點的提取。 SURF 演算法又稱快速魯棒特徵，借鑑了SIFT

語義分割演算法總結（一）

注：在本文中經常會提到輸出資料的維度，為了防止讀者產生錯誤的理解，在本文的開頭做一下說明。如上圖，原始影象大小為5*5，經過一次卷積後，影象變為3*3。那就是5*5的輸入，經過一個卷積層後，輸出的維度變為3*3，再經過一個卷積層，輸出的維度變為1*1

數學建模演算法總結（一）

§1 線性規劃在人們的生產實踐中，經常會遇到如何利用現有資源來安排生產，以取得最大經濟效益的問題。此類問題構成了運籌學的一個重要分支—數學規劃，而線性規劃(Linear Programming 簡記

排序演算法總結（一）——選擇排序

選擇排序的基本宗旨就是每次選出剩餘元素中最大的或者最小放在最終排序的對應位置。 1.直接選擇排序基本思想：在a[1]-a[n-1]中選擇最小的元素和a[0]交換；在a[2]-a[n-1]中選擇最小的元素和a[1]交換； …… 在a[i]-a[n

基於深度學習的目標檢測演算法綜述（一）（截止20180821）

參考：https://zhuanlan.zhihu.com/p/40047760 目標檢測（Object Detection）是計算機視覺領域的基本任務之一，學術界已有將近二十年的研究歷史。近些年隨著深度學習技術的火熱發展，目標檢測演算法也從基於手工特徵的傳統演算法轉向了基於深度神經網路的檢測技

系統學習機器學習之總結（一）--常見分類演算法優缺點

主要是參考網上各種資源，做了整理。其實，這裡更多的是從基礎版本對比，真正使用的時候，看資料，看改進後的演算法。 1. 五大流派 ①符號主義：使用符號、規則和邏輯來表徵知識和進行邏輯推理，最喜歡的演算法是：規則和決策樹 ②貝葉斯派：獲取發生的可能性來進行概率推理，最喜歡的演算法是：樸素貝葉

基於深度學習的目標檢測演算法綜述（一）

前言目標檢測（Object Detection）是計算機視覺領域的基本任務之一，學術界已有將近二十年的研究歷史。近些年隨著深度學習技術的火熱發展，目標檢測演算法也從基於手工特徵的傳統演算法轉向了基於深度神經網路的檢測技術。從最初2013年提出的R-CNN、OverFeat

基於vue框架專案開發過程中遇到的問題總結（一）

（一）關於computed修改data裡變數的值問題：computed裡是不能直接修改data裡變數的值，否則在git commit 時會報錯解決：在computed裡使用get和set來進行獲取和修改data變數，（參考下圖）（二）computed裡監聽陣列

七大排序演算法的個人總結（一）

氣泡排序（Bubble Sort）：很多人聽到排序第一個想到的應該就是氣泡排序了。也確實，氣泡排序的想法非常的簡單：大的東西沉底，汽泡上升。基於這種思想，我們可以獲得第一個版本的冒泡： public static void sort1(int[] array) { for

資料結構與演算法學習總結（一）

1.什麼是資料結構和演算法資料結構，就是一組資料的儲存結構。演算法，就是操作資料的一組方法。資料結構是為演算法服務的，演算法要作用在特定的資料結構之上。 2.為什麼要學習資料結構和演算法？（1）對個人：資料結構和演算法是程式設計師的必修課程之一，能幫助我們寫出效能更

演算法學習（一）——分治以及排序演算法總結

分治策略：分解（Divide）：將問題劃分為若干子問題解決（Conquer）：遞迴求解子問題合併（combine）：子問題組合成原問題主方法：T(n) = aT(n/b)+f(n) 分解成a個問題，每個子問題降b倍，合併為O(f(n)) 主定理：比

springboot學習總結（一）外部配置（命令行參數配置、常規屬性配置、類型安全的配置之基於properties）

mapping span ppi oid res component cati void auth 學習的內容主要是汪雲飛的《Spring Boot實戰》（一）命令行參數配置 springboot項目可以基於jar包運行，打開jar的程序可以通過下面命令行運行： java

springboot學習總結（一）外部配置（命令列引數配置、常規屬性配置、型別安全的配置之基於properties）

學習的內容主要是汪雲飛的《Spring Boot實戰》（一）命令列引數配置 springboot專案可以基於jar包執行，開啟jar的程式可以通過下面命令列執行： java -jar xxx.jar 可以通過以下命令修改tomcat埠號 java -jar xxx.jar --server.por

深度學習總結（一）各種優化演算法

一.優化演算法介紹 1.批量梯度下降（Batch gradient descent，BGD） θ=θ−η⋅∇θJ(θ) 每迭代一步，都要用到訓練集的所有資料，每次計算出來的梯度求平均 η代表學習率LR 2.隨機梯度下降（Stochas

基於ncnn的深度學習演算法優化（一）

實驗環境：Ubuntu14.04+cmake+protobuf（可選，protobuf僅用於編譯caffetoncnn轉換工具，若無需求可不安裝）一、下載ncnn程式碼並編譯 git clone https://github.com/Tencent/n

基於Deep Learning的跟蹤演算法總結（一）

No Free Lunch

一、利用輔助圖片資料預訓練深度模型，線上跟蹤時微調

DLT是第一個把深度模型運用在單目標跟蹤任務上的跟蹤演算法。它的主體思路如上圖所示：

(3) 在目標跟蹤非常重要的模型更新策略上，該論文采取限定閾值的方式，即當所有粒子中最高的confidence低於閾值時，認為目標已經發生了比較大的表觀變化，當前的分類網路已經無法適應，需要進行更新。

小結：DLT作為第一個將深度網路運用於單目標跟蹤的跟蹤演算法，首先提出了“離線預訓練＋線上微調”的思路，很大程度的解決了跟蹤中訓練樣本不足的問題，在CVPR2013提出的OTB50資料集上的29個跟蹤器中排名第5。

但是DLT本身也存在一些不足：

(1) 離線預訓練採用的資料集Tiny Images dataset只包含32*32大小的圖片，解析度明顯低於主要的跟蹤序列，因此SDAE很難學到足夠強的特徵表示。

(2) 離線階段的訓練目標為圖片重構，這與線上跟蹤需要區分目標和背景的目標相差甚大。

(3) SDAE全連線的網路結構使其對目標的特徵刻畫能力不夠優秀，雖然使用了4層的深度模型，但效果仍低於一些使用人工特徵的傳統跟蹤方法如Struck等。

SO-DLT延續了DLT利用非跟蹤資料預訓練加線上微調的策略，來解決跟蹤過程中訓練資料不足的問題，同時也對DLT存在的問題做了很大的改進。

(2) 在離線訓練中使用ImageNet 2014的detection資料集使CNN獲得區分object和非object（背景）的能力。

SO-DLT線上跟蹤的pipeline如上圖所示:

(1) 處理第t幀時，首先以第t-1幀的的預測位置為中心，從小到大以不同尺度crop區域放入CNN當中，當CNN輸出的probability map的總和高於一定閾值時，停止crop, 以當前尺度作為最佳的搜尋區域大小。

(2) 選定第t幀的最佳搜尋區域後，在該區域輸出的probability map上採取一系列策略確定最終的bounding-box中心位置和大小。

小結：SO-DLT作為large-scale CNN網路在目標跟蹤領域的一次成功應用，取得了非常優異的表現：在CVPR2013提出的OTB50資料集上OPE準確度繪圖(precision plot)達到了0.819, OPE成功率繪圖(success plot)達到了0.602。遠超當時其它的state of the art。

SO-DLT有幾點值得借鑑：

(1) 針對tracking問題設計了有針對性的網路結構。

(2) 應用CNNS和CNNL用ensemble的思路解決update 的敏感性，特定引數取多值做平滑，解決引數取值的敏感性。這些措施目前已成為跟蹤演算法提高評分的殺手鐗。

但是SO－DLT離線預訓練依然使用的是大量無關聯圖片，作者認為使用更貼合跟蹤實質的時序關聯資料是一個更好的選擇。

相關推薦