論文學習-深度學習目標檢測2014至201901綜述-Deep Learning for Generic Object Detection A Survey
部落格: blog.shinelee.me |部落格園 | CSDN
寫在前面
paper: https://arxiv.org/abs/1809.02165
github: https://github.com/hoya012/deep_learning_object_detection,A paper list of object detection using deep learning
這篇綜述對深度學習目標檢測2014至201901取得的進展進行了總結,包括:
More than 250 key contributions are included in this survey, covering many aspects of generic object detection research: leading detection frameworks and fundamental subprob-lems including object feature representation , object proposal generation , context information modeling and training strategies ; evaluation issues , specifically benchmark datasets , evaluation metrics , and state of the art performance .
本文的主要目的在於摘錄paper中的一些重要圖表和結論,作為系統學習的索引,不做詳細的展開。
下面兩張圖來自github,分別為paper list和performance table,紅色為作者認為必讀的paper。


目標檢測任務與挑戰
目標檢測任務的輸入是一張影象,輸出是影象中的物體位置和類別,如下圖所示,位置可通過Bounding Box描述,也可描述為畫素的集合。

為了確定圖片中物體的位置和類別,要面臨很多挑戰,一個好的檢測器要做到 定位準確 、 分類準確 還要 效率高 ,需要對光照、形變、尺度、視角、尺寸、姿態、遮擋、模糊、噪聲等情況魯棒,需要能容忍可能存在的較大的類內差異,又能區分開較小的類間差異,同時還要保證高效。


目標檢測方法彙總
在2012年前,目標檢測方法主要是人工特徵工程+分類器,2012年後主要是基於DCNN的方法,如下圖所示:


目標檢測的框架可以分成2類:
- Two stage detection framework :含region proposal,先獲取ROI,然後對ROI進行識別和迴歸bounding box,以RCNN系列方法為代表。
- One stage detection framework :不含region proposal,將全圖grid化,對每個grid進行識別和迴歸,以YOLO系列方法為代表。
Pipeline對比與演化如下:

主幹網路、檢測框架設計、大規模高質量的資料集是決定檢測效能的3個最重要的因素,決定了學到特徵的好壞以及特徵使用的好壞。
基礎子問題
這一節談論的重點包括:基於DCNN的特徵表示、候選區生成、上下文資訊、訓練策略等。
基於DCNN的特徵表示
主幹網路(network backbone)
ILSVRC(ImageNet Large Scale Visual Recognition Competition)極大促進了DCNN architecture的改進,在計算機視覺的各種任務中,往往將這些經典網路作為主幹網路(backbone),再在其上做各種文章,常用在目標檢測任務中的DCNN architectures如下:

Methods For Improving Object Representation
物體在影象中的尺寸是未知的,圖片中的不同物體尺寸也可能是不同的,而DCNN越深層的感受野越大,因此只在某一層上進行預測顯然是難以達到最優的,一個自然的想法是利用不同層提取到的資訊進行預測,稱之為 multiscale object detection ,可分成3類:
- Detecting with combined features of multiple CNN layers
- Detecting at multiple CNN layers;
- Combinations of the above two methods
直接看圖比較直觀:


嘗試對幾何變形進行建模也是改善Object Representation的一個方向,方法包括結合Deformable Part based Models (DPMs)的方法、Deformable Convolutional Networks (DCN)方法等。

Context Modeling
上下文資訊可以分為3類:
- Semantic context : The likelihood of an object to be found in some scenes but not in others;
- Spatial context : The likelihood of finding an object in some position and not others with respect to other objects in the scene;
- Scale context : Objects have a limited set of sizes relative to other objects in the scene.
DCNN通過學習不同抽象層級的特徵可能已經隱式地使用了contextual information,因此目前的state-of-art目標檢測方法並沒有顯式地利用contextual information,但近來也有一些顯式利用contextual information的DCNN方法,可分為2類:Global context和Local context。
感覺可以在某種程度上看成是資料層面的整合學習。
Detection Proposal Methods
Two stage detection framework需要生成ROI。
生成ROI的方法,可以分為 Bounding Box Proposal Methods 和 Object Segment Proposal Methods ,前者回歸出Bounding Box來描述ROI,後者通過分割得到畫素集合來描述ROI。


Other Special Issues
通過data augmentation tricks(資料增廣)可以得到更魯棒的特徵表示,可以看成是資料層面上的整合學習,考慮到物體尺度可大可小的問題,scaling是使用最多的資料增廣方法。

Datasets and Performance Evaluation
以上。