《YOLOv3: An Incremental Improvement》論文筆記

阿新 • • 發佈：2018-11-02

1. 論文工作

在這篇文章中又對之前的YOLO-v2進行了優化，優化之後的網路變大了，準確率也提升了。但是，升級之後得到的YOLO-v3也是一樣的快。在解析度 $320*320$ 的情況下執行只需要22ms且擁有28.2mAP，比同精度SSD快三倍。使用老的0.5AP檢測度量，YOLO-v3執行只要51ms並且取得57.9 $A$

P 50 AP_{50}

A P_{50}

。這都是好於RetinaNet的，速度比它快3.8倍。
在這裡插入圖片描述

2. 優化細節

2.1 邊界框預測

在YOLO9000中使用錨點框與維度聚類實現邊界預測。下面這張圖就是YOLO-v2裡面的圖
在這裡插入圖片描述
在YOLO9000中使用的損失函式，而在YOLO-v3中使用邏輯迴歸預測每個邊界框的物件評分。如果邊界框先驗與ground truth重疊是多餘於其他邊界框先驗的，那麼該值應該是1。如果邊界框先驗與ground truth重疊沒有超過設定好的閾值，則就會將其拋棄掉，一般來講閾值為0.5。論文中為每個ground truth物件預先分配一個邊界框。如果一個邊界框先驗沒有被分配給一個ground truth物件，那麼它不會導致座標或類預測的損失。

2.2 分類預測

對於每個框使用多標籤分類預測可能包含的類。這裡將softmax替換為了邏輯分類，以獲得更好的效能。在訓練過程中，使用二元交叉熵損失進行分類預測。
當轉移到更復雜的領域，比如開放影象資料集時，這個辦法會有所幫助。在這個資料集中有許多重疊的標籤(即女人和人)。使用softmax強加了這樣的假設，即每個框只有一個類，而實際情況往往不是這樣。多標籤方法可以更好地建模資料。

2.3跨尺度進行預測

YOLO-v3在三個不同的尺度上預測邊界框。使用的是類似於金字塔網路的概念從這些尺度中提取特徵。在基本特徵提取器中添加了幾個卷積層。最後一個預測了一個3-d張量編碼邊界框，物件，和分類類預測。在COCO資料集上對每個尺度上預測三個邊界框，因而輸出的三維張量就可以描述為 $N$

∗ N [ 3 ∗ ( 4 + 1 + 80 ) ) ] N*N[3*(4+1+80))]

N * N [3 * (4 + 1 + 80))]

，包含4個邊界框偏移，是否是目標以及80類預測。
接下來，從之前的兩個層提取特徵對映，並以2倍向上取樣。除此之外還從網路的前端獲取一個特徵對映，並使用連線將其與我們的上取樣特徵合併。這種方法是的可以從上取樣的特徵中獲得更有意義的語義資訊，從早期的特徵對映中獲得更細粒度的資訊。然後新增更多的卷積層來處理這個組合特徵圖，並最終預測出一個類似的張量，儘管現在是它的兩倍大。

2.4 特徵抽取網路

YOLO-v3使用了新的特徵抽取網路結構，部分借鑑了YOLO-v2中的DarkNet-19，並且加入了shortcut connections，最後使得網路有53個卷積層，因而網路的名字是DarkNet-53。
在這裡插入圖片描述
新的網路自然也更加牛皮了，論文裡面給出了該網路與DarkNet-19與ResNet-100+的比較：

3. YOLO-v3與其它網路的對比

論文中將YOLO-v3與其它檢測網路進行對比，得到如下表格
在這裡插入圖片描述
值的一提的是，在YOLO-v3中使用多尺度預測的方式提升了小目標檢測的效能。但是相對的對於中等以及大目標結果變得稍差一些。

4. 之前踩過的坑

作者在研究YOLO-v3的時候試過很多種方法，但是很多被證實是沒用的，論文裡面羅列了一些出來。
（1）邊界框x，y偏移預測。作者嘗試使用常規的錨點框預測機制，用線性啟用來預測x, y偏移量作為邊界框寬度或高度的倍數。但是發現這種方法降低了模型的穩定性，並沒有很好地工作。
（2）線性x, y的預測，而不是邏輯。嘗試使用線性啟用去預測 $(x, y)$ 的偏移而不是邏輯啟用，這導致了mAP的下降幾個點。
（3）焦點損失函式。試過在網路中加入焦點損失函式，但是發現mAP下降了2個點，這或許是YOLO-v3對於焦點損失要解決的問題已經足夠好了。
（4）雙重IOU閾值。借鑑了Faster R-CNN訓練中的雙重閾值機制，但是沒有取得好的結果。

《YOLOv3: An Incremental Improvement》論文筆記

1. 論文工作在這篇文章中又對之前的YOLO-v2進行了優化，優化之後的網路變大了，準確率也提升了。但是，升級之後得到的YOLO-v3也是一樣的快。在解析度 320

論文閱讀筆記（九）YOLOv3: An Incremental Improvement

專案地址 Abstract 該技術報告主要介紹了作者對 YOLOv1 的一系列改進措施（注意：不是對YOLOv2，但是借鑑了YOLOv2中的部分改進措施）。雖然改進後的網路較YOLOv1大一些，但是檢測結果更精確，執行速度依然很快。在輸入影象解析度

論文閱讀筆記三十一：YOLOv3: An Incremental Improvement

論文源址：https://pjreddie.com/media/files/papers/YOLOv3.pdf 程式碼：https://github.com/qqwweee/keras-yolo3 摘要本文針對YOL

深度學習論文翻譯解析（一）：YOLOv3: An Incremental Improvement

cluster tina ble mac 曾經 media bject batch 因此原標題： YOLOv3: An Incremental Improvement 原作者： Joseph Redmon Ali Farhadi YOLO官網：YOLO: Real-Tim

論文筆記——An online EEG-based brain-computer interface for controlling hand grasp using an adaptive probabilistic neural network（10年被引用66次）

不同 -s evel 模型 his ren 虛擬 dem virt 題目：利用自適應概率網絡設計一種在線腦機接口樓方法控制手部抓握概要：這篇文章提出了一種新的腦機接口方法，控制手部，系列手部抓握動作和張開在虛擬現實環境中。這篇文章希望在現實生活中利用腦機接口技術控制抓握。

論文筆記10：ITSEGO: An Ontology for Game-based Intelligent Tutoring Systems

參考論文：ITSEGO: An Ontology for Game-based Intelligent Tutoring Systems Abstract 這項工作提出了一個方法，發展學生解決問題的能力和數字能力，實現從幼兒園到小學的過渡。通過一種基於本體的方法，該方法將一個智慧的輔導系統（

YOLOv3論文筆記

0x00 Foreword 今天看到YOLOv3釋出的資訊，第一個反應就是，我×，我之前的模型還沒有訓練好，現在又出來一個(T_T)。不過我對於YOLOv3的釋出還是很激動的，因為我之前和大多數人一樣，對於single-stage報以很小的期望

論文筆記：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application

1.歷史方法 1）基於字元的DCNN,比如photoOCR.單個字元的檢測與識別。要求單個字元的檢測器效能很強，crop的足夠好。 2）直接對圖片進行分類。9萬個單詞，組合成無數的單詞，無法直接應用 3）RNN,訓練和測試均不需要每個字元的位置。但是需要預處理，從圖片得到特

《An Experimental Comparison of Partitioning Strategies in Distributed Graph Processing》——論文筆記

ABSTRACT 在不同處理系統，應用，圖，執行環境下，分割槽策略選擇的問題。沒有單個的策略適用於所有環境，實驗表明分割槽策略取決於（1）輸入圖的度數分佈（2）應用程式的型別和持續時間（3）叢集大小。 1. INTRODUCTION 現在有各種各樣的圖

論文筆記|Towards End-to-End Lane Detection: an Instance Segmentation

用盡量少的語言描述一篇paper 本文看點：結合embedding和Segmentation mask提供一種做Lane Instance Segmentation的思路 Lane的Instance Segmentation可以比單純的Segmentati

【論文筆記】One Millisecond Face Alignment with an Ensemble of Regression Trees

參考文獻： Kazemi V, Sullivan J. One millisecond face alignment with an ensemble of regression trees[C]//Computer Vision and Pattern

【論文筆記】An End-to-End Model for QA over KBs with Cross-Attention Combining Global Knowledge

一、概要該文章發於ACL 2017，在Knowledge base-based question answering (KB-QA)上，作者針對於前人工作中存在沒有充分考慮候選答案的相關資訊來訓練question representation的問題，提出

【論文筆記】An Intelligent Fault Diagnosis Method Using: Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks

ivar 單位矩陣作用一次一個 http example tps 計算論文來源：IEEE TRANSACTIONS ON INDUSTRIAL ELECTRONICS 2016年的文章，SCI1區，提出了兩階段的算法。第一個階段使用Sparse filtering

《YOLOv3: An Incremental Improvement》論文筆記

1. 論文工作

2. 優化細節

2.1 邊界框預測

2.2 分類預測

2.3跨尺度進行預測

2.4 特徵抽取網路

3. YOLO-v3與其它網路的對比

4. 之前踩過的坑

《YOLOv3: An Incremental Improvement》論文筆記

論文閱讀筆記（九）YOLOv3: An Incremental Improvement

論文閱讀筆記三十一：YOLOv3: An Incremental Improvement

深度學習論文翻譯解析（一）：YOLOv3: An Incremental Improvement

論文筆記——An online EEG-based brain-computer interface for controlling hand grasp using an adaptive probabilistic neural network（10年被引用66次）

論文筆記10：ITSEGO: An Ontology for Game-based Intelligent Tutoring Systems

YOLOv3論文筆記

論文筆記：An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application

《An Experimental Comparison of Partitioning Strategies in Distributed Graph Processing》——論文筆記

論文筆記|Towards End-to-End Lane Detection: an Instance Segmentation

【論文筆記】One Millisecond Face Alignment with an Ensemble of Regression Trees

【論文筆記】An End-to-End Model for QA over KBs with Cross-Attention Combining Global Knowledge

【論文筆記】An Intelligent Fault Diagnosis Method Using: Multivariate Anomaly Detection for Time Series Data with Generative Adversarial Networks

論文筆記：目標追蹤-CVPR2014-Adaptive Color Attributes for Real-time Visual Tracking

論文筆記之 SST: Single-Stream Temporal Action Proposals

Selective Search for Object Recognition 論文筆記【圖片目標分割】

Deep Learning論文筆記之（二）Sparse Filtering稀疏濾波

Semi-supervised Segmentation of Optic Cup in Retinal Fundus Images Using Variational Autoencoder 論文筆記

論文筆記之：Collaborative Deep Reinforcement Learning for Joint Object Search

論文筆記-Learning Phrase Representations using RNN Encoder–Decoder for Statistical Machine Translation

《YOLOv3: An Incremental Improvement》論文筆記

1. 論文工作

2. 優化細節

2.1 邊界框預測

2.2 分類預測

2.3跨尺度進行預測

2.4 特徵抽取網路

3. YOLO-v3與其它網路的對比

4. 之前踩過的坑

相關推薦