SSD論文策略理解

阿新 • • 發佈：2018-12-31

SSD模型結構：

剛開始的層使用影象分類模型中的層，稱為base network，在此基礎上，新增一些輔助結構：

1. Mult-scale feature map for detection

在base network後，新增一些卷積層，這些層的大小逐漸減小，可以進行多尺度預測

2. Convolutional predictors for detection

每一個新新增的層，可以使用一系列的卷積核進行預測。對於一個大小為m*n、p通道的特徵層，使用3*3的卷積核進行預測，在某個位置上預測出一個值，該值可以是某一類別的得分，也可以是相對於default bounding boxes的偏移量，並且在影象的每個位置都將產生一個值，如圖2所示。

3. Default boxes and aspect ratio

在特徵圖的每個位置預測K個box。對於每個box，預測C個類別得分，以及相對於default bounding box的4個偏移值，這樣需要(C+4)*k個預測器，在m*n的特徵圖上將產生(C+4)*k*m*n個預測值。這裡，default bounding box類似於FasterRCNN中anchors，如圖1所示。

個人感覺SSD模型與Faster RCNN中的RPN很類似。SSD中的dafault bounding box類似於RPN中的anchor，但是，SSD在不同的特徵層中考慮不同的尺度，RPN在一個特徵層考慮不同的尺度。

SSD模型訓練：

1. Matching strategy

將每個groundtruth box與具有最大jaccard overlap的defalult box進行匹配，這樣保證每個groundtruth都有對應的default box；並且，將每個defalut box與任意ground truth配對，只要兩者的jaccard overlap大於某一閾值，本文取0.5，這樣的話，一個groundtruth box可能對應多個default box。

jaccard overlap的計算:

2. Training objective

Let

be an indicator for matching the i-th default box to the j-th ground truth box of category p 。

損失函式的計算類似於Fast RCNN中的損失函式，總的損失函式是localization loss (loc) 和 confidence loss (conf) 的加權和，如下:

confidence loss:

localization loss (loc) :

其中，（gcx, gcy, gw, gh）表示groundtruth box，（dcx, dcy, dw, dh）表示default box，（lcx, lcy, lw, lh）表示預測的box相對於default box的偏移量。

3. Choosing scales and aspect ratios for default boxes

為了處理不同尺度的物體，一些文章，如：Overfeat，處理不同大小的影象，然後將結果綜合。實際上，採用同一個網路，不同層上的feature map，也能達到同樣的效果。影象分割演算法FCN表明，採用低層的特徵圖可以提高分割效果，因為低層保留的影象細節資訊比較多。因此，該論文采用lower feature map、upper feature map進行預測。

一般來說，CNN的不同層有著不同的感受野。然而，在SSD結構中，default box不需要和每一層的感受野相對應，特定的特徵圖負責處理影象中特定尺度的物體。在每個特徵圖上，default box的尺度計算如下：

其中，smin = 0.2，smax = 0.9

default box的aspect ratios 有：{1， 2， 3，1/2，1/3}，對於 aspect ratio = 1，額外增加一個default box，該box的尺度為。

每一個default box，寬度、高度、中心點計算如下：

4. Hard negative mining

經過matching後，很多default box是負樣本，這將導致正樣本、負樣本不均衡，訓練難以收斂。因此，該論文將負樣本根據置信度進行排序，選取最高的那幾個，並且保證負樣本、正樣本的比例為3：1。

5. Data augmentation

為了使得模型對目標的尺度、大小更加魯棒，該論文對訓練影象做了data augmentation。每一張訓練影象，由以下方法隨機產生：

1）使用原始影象

2）取樣一個path，與目標的最小jaccard overlap為0.1、0.3、0.5、0.7、0.9 （這個具體怎麼做呢？？？）

3）隨機取樣一個path

取樣得到的path，其大小為原始影象的[0.1, 1]，aspect ratio在1/2與2之間。當groundtruth box的中心在取樣的path中時，保留重疊部分。經過上述取樣之後，將每個取樣的pathresize到固定大小，並以0.5的概率對其水平翻轉。

SSD論文策略理解

SSD論文策略理解

SSD 論文理解

redis的LRU策略理解

翻譯SSD論文(Single Shot MultiBox Detector)

對Deep Learning Face Representation from Predicting 10,000 Classes論文的理解

Image Caption（一）論文及理解

《Deformable Convolutional Networks》論文簡單理解筆記

ssd論文詳解

目標檢測SSD論文解讀

SSD論文閱讀筆記

對於GANs原始論文的理解

SSD論文淺析

SegNet-論文筆記-理解

SSD論文翻譯

翻譯SSD論文(Single Shot MultiBox Detector)，僅作交流~

DeconvNet 論文閱讀理解

[論文理解]SSD:Single Shot MultiBox Detector

對於瀏覽器的同源策略你是怎樣理解的呢？

《一種策略融合的跨語言文本情感傾向判別方法》論文學習筆記（大一下）

深入理解JVM：垃圾收集器與內存分配策略

SSD論文策略理解

相關推薦