論文源址:https://pjreddie.com/media/files/papers/YOLOv3.pdf

程式碼:https://github.com/qqwweee/keras-yolo3

摘要

       本文針對YOLO再次改進,訓練更大的網路,準確率也有所提高。在320x320的輸入上YOLOv3執行22ms,mAP為28.2,與SSD的準確率相同,但比SSD快三倍。在使用0.5 IOU作為檢測機制時,YOLOv3仍表現很好。在Titan X上實現57.9 AP50 51ms的執行,而RetinamNet為57.5 AP50執行198ms,YOLOv3要快3.8倍。

The Deal

      bounding box 的預測:沿襲YOLO9000的方式,仍採用維度聚合的方式。網路預測每個bounding box的四個座標,tx,ty,tw,th。如果單元格偏離影象左上角(cx,cy),而且先驗框的寬和高為pw,ph,這預測的值為:

 

      訓練時,選擇平方誤差損失的和,預測座標對應的真值為,梯度計算是真值減去預測值,通過翻轉上述式子,可以得到真值的值。YOLOv3通過使用邏輯迴歸預測每個bounding box的目標分數。如果一個先驗框與ground truth 的重合率要比其他先驗框都要多,則該框的目標分數應為1.對於與ground truth中目標有重疊超過閾值(本為設定為0.5),但不是最好的先驗框,將此預測進行移除。如果一個先驗框沒有一個ground truth與之匹配。則沒有類別和座標的預測損失。只有是否存在目標的損失描述。

 

      類別預測:使用多類別的分類器對每個框內可能包含的類別進行預測分類。YOLOv3並未使用softmax,只是使用獨立的邏輯迴歸分類器。訓練時,採用二元交叉熵損失進行類別的預測。當面向更復雜的情況時(開放的資料集,此資料集中存在大量重疊的標籤),此方法會有所幫助,而使用softmax基於每個box只包含一個類別的假設,並不實用,而使用多標記的方法可以更好的描述資料。

     不同尺寸的預測: YOLOv3預測三種不同的尺寸。YOLOv3採用類似於FPN網路類似的結構提取多尺寸特徵。在基礎的特徵提取層後添加了基層卷積層。最後預測了一個三維張量,編碼bounding box,objectness和類別的預測。COCO中每種尺寸預測三個框,因此張量為NXNX[3*(4+1+80)],分別代表4個座標,1個objectness及80個類別的預測。取前兩層的feature map將其上取樣擴大至2倍,然後將取樣後的feature map與更靠前的feature map進行拼接。通過上取樣可以獲得更多的語義資訊,提取靠前層的feature map可以獲得影象的細節資訊。最後,新增一些卷積層來處理拼接後的feature map,並對此張量進行預測,當前的尺寸擴大。重複此方法,對最後一種尺寸進行預測。第三種儲存預測的結果結合了先前的計算(相當於微調後的feature map)。

     仍採用k-means劇烈確定先驗框,任意選擇9個簇及3種尺寸。在COCO資料集上得到的9個先驗框為(10×13),(16×30),(33×23),(30×61),(62×45),(59× 119),(116×90),(156×198),(373×326). 

      特徵提取:使用全新的網路進行特徵提取。基於YOLOv2的網路將,Darknet19與殘差結構進行結合。包含一系列的3x3與1x1的卷積夾雜著殘差連線,網路規模變大,叫做Darknet-53。

Darknet-53比Darknet-19高效,同時,比resnet-101,resnet-152更快。比較結果如下。

實驗比較

 

 實驗失效的方案:

(1)Anchor box x,y offset predictions

(2)Linear x,y predictions instead of logistic. 

(3)Focal loss.

(4)DualIOUthresholdsandtruthassignment. 

Reference

     [1] Analogy. Wikipedia, Mar 2018. 1

     [2] M. Everingham, L. Van Gool, C. K. Williams, J. Winn, and A. Zisserman. The pascal visual object classes (voc) challenge. International journal of computer vision, 88(2):303– 338, 2010. 6

     [3] C.-Y. Fu, W. Liu, A. Ranga, A. Tyagi, and A. C. Berg. Dssd: Deconvolutional single shot detector. arXiv preprint arXiv:1701.06659, 2017. 3

     [4] D. Gordon, A. Kembhavi, M. Rastegari, J. Redmon, D. Fox, andA.Farhadi. Iqa: Visualquestionansweringininteractive environments. arXiv preprint arXiv:1712.03316, 2017. 1