1. 程式人生 > >目標檢測領域19個建議

目標檢測領域19個建議

作者:種樹的左耳
連結:https://www.zhihu.com/question/280703314/answer/564235579
來源:知乎
著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。
 

1.從專注精度的Faster RCNN、RFCN相關係列,以及專注速度的YOLO系列,未來的方向更專注於精度和速度的結合,這也是過去的很多模型在SSD系列上產生的原因,主要代表有RefineDet、RFBNet等。所以SSD系列的研究會成為主流。

2.目標選框從Region Based 和Anchor Based到基於角點,甚至是基於segmentation,包括semantic segmentation 和 instance segmentation 。今年比較有代表的CornerNet和Grid RCNN是一個開拓思路的方向,細節就不用說了吧。。。未來的目標選框方法依舊是研究的一個重要方向。

3.多尺度問題(尺度變換問題),目前常見的三種思路,採用專門設計的尺度變換模組,可以參考STDN: Scale-Transferrable Object Detection。多個scale的目標檢測設計,沒記錯的話之前有在Faster RCNN基礎上,做多個scale的rpn。當然最新的SNIP也是多個RPN。還有就是SNIPER,先用SNIPER的模組進行一個粗檢測,檢測出多個scale關注區域,然後再進行細檢測。目前的問題是,如果是才有scale transfer moudle的話,可能會丟失一些資訊,也就是多scale融合學習存在問題,那麼如何設計一個單scale模型transfer moudle進行有效學習,這一點我是存疑的,總感覺這個多scale融合哪裡存在問題。同時,採用多scale的先初步多scale檢測再細檢測會增加計算時間,如何有效的將兩個模組進行結合,進行進一步的再設計是未來一個重點。

4.重新思考目標檢測的訓練,凱明今年的新作Rethinking imagenet pre-training已經驗證了一個問題,pre-training再training和training from scratch這一點在目標檢測問題理論上也是適用的。當目標檢測資料集達到一定規模,目標選框問題是否可以單獨抽離出來,做好更精確的選框預訓練,再在具體的資料集上主要進行選框適應性訓練和分類訓練?另外由於目前的目標檢測backbone網路都是從影象分類網路過來的,影象分類網路之前的提法是尺度不變性,而目標檢測有尺度變化性,今年清華的一篇文章就是做了這個問題,設計了一個專門針對目標檢測問題的backbone,但是還是基於ImgNet進行了預訓練,那麼不在ImgNet進行預訓練是否可行?另外如何從一個小的資料集上進行一個轉向任務的無預訓練的學習 or 有預訓練的小規模資料學習訓練。目標檢測的小規模資料訓練是在實際工程應用中,尤其是工業化場景中一個比較需要關注的問題。

5.重新思考卷積神經網路的旋轉不變性和尺度變化,有一些我在上面已經提到了,從一些論文的研究表明,卷積神經網路的旋轉不變性似乎是一個偽命題,卷積網路的旋轉不變性主要是通過資料的增強和大樣本的學習獲取的,本身應該不具備旋轉不變性。這個問題我看一些研究者提到過,我的感覺是應該是不具備旋轉不變性的,可能需要進行進一步的研究進行分析。旋轉不變性和尺度變化會影響目標檢測演算法的基本框架。

6.目標檢測以及深度學習的分割、關鍵點檢測、跟蹤都需要在資料標註上耗費巨大的成本,如何採用演算法進行更有效的標註是一個核心的問題,包括上面4中提到的如何用更少的樣本進行學習是關鍵。如果不能進行無監督的話,那麼小規模資料的監督學習如何更有效進行訓練達到大幅度精度提升將會是研究的重點。還有就是採用單影象單類別的弱標註,不進行選框標註,通過對大型目標檢測資料集進行預訓練,然後在這種單類單影象場景進行弱監督多類檢測學習,進而泛化到多類單影象檢測。

7.IOU的演算法設計和閾值的選擇,今年比較有特點的是IOUNet和Cascade RCNN。

8.更好的NMS。

9. one shot learning,我看來一個樣本和小樣本的資料增強和學習,也會有一些有意思的研究。參考評論裡面的提到的參考文章:LSTD: A Low-Shot Transfer Detector for Object Detection 發表在AAAI2018。

10.如何實現未知目標類的檢測,也就是我們常說的zero shot learning。從結合語義等資訊從已知類別的目標檢測,遷移到對未知類別的目標進行檢測。參考論文Zero-Shot Object Detection(ECCV2018)。

11.如何從已經訓練的模型去遷移到新增資料、新增類別的學習,也就是增量學習(Incremental Learning)。可以參考的論文有Incremental Learning of Object Detectors without Catastrophic Forgetting(ICCV2017)目標檢測的論文以及End-to-End Incremental Learning(ECCV2018)。

12. CNN、Pooling、Loss 目前都有各種各樣的變體,更有效的CNN、Pooling、Loss依舊會出現。

13.將目標檢測方法的一些研究遷移到SOT(Single Object Tracking)和MOT(Multiple Object Tracking),可以有效的觀察到今年表現比較好的SOT演算法和MOT演算法都有和檢測的結合出現。單目標跟蹤可參考商湯和中科院計算所的SiameseRPN:High Performance Visual Tracking with Siamese Region Proposal Network(CVPR2018)以及最新的SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks(剛剛釋出)。多目標跟蹤可參考清華艾海舟組的REAL-TIME MULTIPLE PEOPLE TRACKING WITH DEEPLY LEARNED CANDIDATE SELECTION AND PERSON RE-IDENTIFICATION(CVPR2018)

14.目標檢測的FineGrained問題。

15.模型的輕量級化,從目前的輕量級網路對於計算資源的壓縮上,主要是集中在對於backebone的壓縮,那麼對於模型整體上針對目標檢測的考慮進行再設計是否可行?

16.大尺寸影象的目標檢測問題,目前很多檢測的基本主要集中在512x512和1000x600左右的影象操作,但是在未來,4k影象和視訊會成為主流,大尺寸影象的目標檢測、跟蹤都會成為主流,今年CVPR2018有一篇文章Dynamic Zoom-in Network for Fast Object Detection in Large Images是進行大尺寸影象的目標檢測,主要是做的2k,設計了一個粗檢測和精細檢測的模組。所以針對大尺度的影象如何進行計算資源的壓縮、有效的目標檢測or跟蹤是一個非常有前瞻性的研究工作。尤其是未來的網路電視劇、電影、短視訊會出現更多的4k內容。

17.AR場景下的跨類檢測融合,這個屬於我的想象,一個簡單的比如是AR眼鏡會跟人類的眼睛一樣的視野。那麼在這個場景下對於視覺獲取內容的有效提取包括影象裡面就包括文字、商標、各類目標等等內容的融合檢測。

18.3d 鐳射雷達lidar和深度相機的目標檢測,在自動駕駛這一塊用的比較多,但是更精細的應用場景還是很多的,還有很多的應用場景比如裁判之類的要求更精細化的檢測(包括關鍵點檢測分割之類的)。

19.視訊流的檢測,主要是應用到移動端場景的手機或者FPGA。由於視訊流的圖片資訊具有時間和空間相關性,相鄰幀之間的特城提取網路會輸出有冗餘的特徵圖資訊,會造成沒必要的計算浪費。同時圖片的目標檢測演算法在目標物體運動模糊,拍攝焦距失調,物體部分遮擋,非剛性物體罕見變形姿態的情況下,很難獲得較為準確的結果。同時權衡精度、計算時間以及計算資源變得尤為重要。可參考論文包括Towards High Performance Video Object Detection for Mobiles(Arxiv Tech Report 2018)、Towards High Performance Video Object Detection(CVPR2018)、Fully Motion-Aware Network for Video Object Detection(ECCV2018),ECCV2018和CVPR2018都有兩三篇,主要貼一下Jifeng Dai的工作,其它就不貼了