High Performance Visual Tracking with Siamese Region Proposal Network論文筆記
論文:High Performance Visual Tracking with Siamese Region Proposal Network
文論下載:http://openaccess.thecvf.com/content_cvpr_2018/papers/Li_High_Performance_Visual_CVPR_2018_paper.pdf
DaSiamRPN程式碼地址:https://github.com/foolwood/DaSiamRPN
DaSiamRPN配置方法:UBUNTU16.04下面配置的。https://blog.csdn.net/donkey_1993/article/details/82794101
2018年CVPR,在VOT,Benchmark上面都去了很好的成績,跟蹤速度提升很快,泰坦下面可以跑200FPS。
2018年ECCV的Distractor-aware Siamese Networks for Visual Object Tracking也是在這篇論文的基礎上改進的,跟蹤效果提升了一些。
論文摘要:
網路結構是孿生網路,把Faster-Rcnn裡面的RPN引入到跟蹤裡面,同時在跟蹤階段使用了 一次檢測(後面會解釋) 的方法。跟蹤速度可以達到160FPS,在VOT2015,2016,2017上面都取得了很高的準確率。
論文結構:
圖一:演算法的網路結構
這篇論文主要是由三部分組成:(後面會圍繞這三部分來講一下)
1.孿生網路提取特徵。
2.Region Proposal Network(RPN)網路結構。
3.One-shot learning,一次學習。
孿生網路提取特徵:
孿生網路在目標跟蹤領域應用廣泛,由Siam-FC,Goturn等演算法。他可以兼顧速度和準確率。論文中的孿生網路主要是用來提取特徵。
RPN網路結構:
RPN主要是同來選擇候選區域的。想Faster-Rcnn上一樣,但是本演算法的RPN的尺度分別為[0.33,0.5,1,2,3]五種尺度。
One-shot learning:
one-shot learning以及zero shot learning都屬於遷移學習領域,主要研究的是網路少樣本精準分類問題,單樣本學習能力。
演算法的跟蹤流程:
1.將第一幀圖片和當前幀傳到孿生網路裡面來提取特徵。
2.將第一幀和當前幀的特徵圖傳到RPN網路裡面,RPN網路主要分為兩部分,一部分是分類網路,一部分是迴歸網路。這兩部分都分別將第一幀和當前幀的特徵圖傳到網路裡面來。分類網路,假設有k個anchor,我們分類只需要分前景和背景所以有2k個值。迴歸網路裡面則有4k個值。
3.在分類網路裡面,用第一幀的特徵圖作為卷積核來卷積但前幀的特徵圖。在迴歸網路裡面,用第一幀的特徵圖作為卷積核來卷積但前幀的特徵圖。
4.RPN網路裡面的分類網路會輸出前景和背景的分類結果,迴歸網路會把標註框迴歸輸出來。
下面講一下演算法在跟蹤過程中的 one-shot detection:
就如下圖所示的一樣Teamplate Frame只有在第一幀的時候會執行一次,然後後續的跟蹤第一幀就不需要再進行提取特徵
的操作。只需要執行灰色框中的網路就可以了。這個就是one-shot detection(個人理解)。
候選區域的選擇方式:
1.第一種方法,只搜尋離中心區域最遠為7的區域的anchor框。如下圖所示以中心紅框為中心距離為7的正方形區域。
2. 第二種方案選擇策略是利用餘弦視窗和尺度變化懲罰對候選區域的得分進行重新排序,得到最優的方案。
跟蹤結果:
這個就不需要多說了,跟蹤效果最好,速度快。
以上就是我看的這篇論文的主要內容。