[論文學習]《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 》

阿新 • • 發佈：2019-01-10

faster R-CNN的主要貢獻
- 提出了 region proposal network（RPN）,通過該網路我們可以將提取region proposal的過程也納入到深度學習的過程之中。這樣做既增加了Accuracy，由降低了耗時。之所以說增加Accuracy是因為，RPN是可以通過反向傳播訓練的，所以他提取的proposal也會更準確一些。
The Flowchart of the Faster RCNN
faster R-CNN 的幾個主要概念（按照網路的結構順序來）
- RPN block，如下圖所示。他的輸入就是feature map，輸出是K個anchor，以及對應的score和coordinates。其中score代表的是這個bbox是前景(foreground, fg)還是背景（background, bg），coordinates代表是bounding box 的座標。
  - RPN中首先將每一個slide Windows變成一個256/512(ZF/VGG respectively)維的向量，代表的是提取特徵。因為我們要對每個slide window做這一步操作，所以這步操作也可以通過卷積來完成，卷積kernel的size就是slide window的大小。假設，我們Feature map 的大小為w*h, 我們每個anchor的size和長寬比都有三種，所以針對每個pixel，我們可以得到的anchor的個數為9個。（注意，一開始anchor是針對每個pixel都提取的，只不過後來通過一些演算法剔除了一些）。
  - proposal score：在第一步，我們得到了中間層，抽象來講就是每個pixel的特徵向量，要知道這裡的pixel對應到原圖中就是16倍的（vgg16為例）。然後我們再通過一個卷積層來預測每個pixel的每個anchor的得分。所以這裡的輸出就是w*h*18。
  - proposal bbox location：同上一步，這裡的輸入也是第一步的輸出。在上一步中，我們已經得到了bounding box的座標，這一步的作用是對上面的座標進行微調(平移和縮放)。也需要4個引數。所以這裡的輸出就是w*h*36。
- 到目前為止，我們就已經可以訓練RPN了。下面是訓練RPN中的知識點：
  - Loss function 是由兩部分組成，第一部分是對proposal score計算交叉熵，第二部分是對proposal bbox計算Smooth L1 loss。
  - 對proposal score計算交叉熵：首先是通過Softmax得到概率。既然計算交叉熵，那麼我們的label是什麼呢？我們知道我們已經得到了許多anchor，每個anchor都可以對映到原圖上去，而原圖也是有ground truth的。所以我們的label主要是通過anchor與ground truth(bounding box)的IoU的值來決定的。原文將anchor的label分為三種類型：1,0，和-1。它們分別代表fg，bg和don’t care。其中fg有兩個條件：1、IoU的值大於0.7。2、ground truth對應IoU最大的anchor。兩者只要滿足其一就認為是fg。bg的話就是IoU不滿足條件。don’t care一般是指anchor不合法，比如說越界等情況。為了減少計算量，文中提出了一種優化方法，也就是限制fg和bg的個數。文中限制的總數不超過256個，fg的個數不超過128個。然後計算交叉熵的時候，我們只關注fg和bg。
  - 對於proposal bbox location計算Smooth L1 loss。其中Smooth L1 loss的定義如下所示：
    $x_i=w_{in}(t_i-v_i) i \in \{x,y,w,h\}\\ L1(x_i) = \left\{\begin{matrix} 0.5x_i^2 \sigma^2 & |x_i\sigma| < 1\\ |x_i| - \frac{0.5}{\sigma^2} & otherwise \end{matrix}\right.\\ SmoothL1 = w_{out}\sum_{i\in{x,y,w,h}}{L1(x_i)}$
    -其中 $w_{in}$ 是選擇那些fg的anchor，其餘的都為0。 $w_{out}$ 是為了正則化。總的來說，就是我們只對fg計算Smooth L1 loss。
- 到目前為止，我們已經可以提取proposal了(bounding box)，為了消除提取proposal的冗餘性，我們使用non-maximum suppression(nms,非最大抑制)。
  - 演算法流程：
    - 按照得分從高到低將N個矩陣排序，假設排序好的最高得分的是R1，並且得分依次遞減，Rn的得分最低。
    - 從前往後找到第一個未被確定的矩陣x
    - 從該位置往後遍歷，計算每一個矩陣y與矩陣x的IoU值，如果該值大於閾值，則刪除矩陣y，否則繼續該步驟。直到遍歷完成整個矩陣集合。
    - 重複步驟2，直到集合中的所有元素都已經確定。
  - 注意，演算法裡面的score就是我們之前預測的每個anchor的score。
- 到目前位置我們已經找到了將要輸入R-CNN的proposal，接下來就是給所有的proposal賦予相應的label，這是依據他對某個ground truth的IoU值來確定的。
- 到目前為止，我們得到了proposal和label。但是在輸入到R-CNN前還有一問題，那就是我們的proposal的大小是不一致的，但是我們在輸入到fully connected layer之前必須將他們的維度變成一致的。在這裡，作者採用了RoI pooling的方法。RoI Pooling最直觀的介紹如下圖所示。通過RoI Pooling, 我們將所有的proposal的都變成了7*7的大小。
- 最後再將ROI Pooling的結果展開輸入到fully connected layer中去，實現object classification。
實現程式碼：upcoder/MyFasterRCNN
參考文獻：

[論文學習]《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 》

faster R-CNN的主要貢獻提出了 region proposal network（RPN）,通過該網路我們可以將提取region proposal的過程也納入到深度學習的過程之中。這樣做既增加了Accuracy，由降低了耗時。之所以說增加Accura

深度學習論文翻譯解析（十三）：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

論文標題：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 　　標題翻譯：基於區域提議（Region Proposal）網路的實時目標檢測論文作者：Shaoqing Ren, K

論文閱讀筆記（六）Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

采樣分享最終產生 pre 運算減少 att 我們作者：Shaoqing Ren, Kaiming He, Ross Girshick, and Jian SunSPPnet、Fast R-CNN等目標檢測算法已經大幅降低了目標檢測網絡的運行時間。可是盡管如此，仍然

論文閱讀筆記二十六：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks（CVPR 2016）

論文源址：https://arxiv.org/abs/1506.01497 tensorflow程式碼：https://github.com/endernewton/tf-faster-rcnn 摘要目標檢測依賴於區域proposals演算法對目標的位置進

【論文筆記】Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

寫在前面：我看的paper大多為Computer Vision、Deep Learning相關的paper，現在基本也處於入門階段，一些理解可能不太正確。說到底，小女子才疏學淺，如果有錯

【Faster RCNN】《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》

NIPS-2015 NIPS，全稱神經資訊處理系統大會(Conference and Workshop on Neural Information Processing Systems)，是一個關於機器學習和計算神經科學的國際會議。該會議固定在每年的12月舉行

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Abstract SPPnet和Fast R-CNN雖然減少了演算法執行時間，但region proposal仍然是限制演算法速度的瓶頸。而Faster R-CNN提出了Region Proposal Network (RPN)，該網路基於卷積特徵預測每個位置是否為物體以及

【筆記】Faster-R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

論文程式碼：重要：訓練檔案.prototxt說明：http://blog.csdn.net/Seven_year_Promise/article/details/60954553從RCNN到fast R

【翻譯】Faster-R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

摘要目前最先進的目標檢測網路需要先用區域建議演算法推測目標位置，像SPPnet[7]和Fast R-CNN[5]這些網路已經減少了檢測網路的執行時間，這時計算區域建議就成了瓶頸問題。本文中，我們介紹一種區域建議網路（Region Proposal Network, R

Faster RCNN: Towards RealTime Object Detection with Region Proposal Networks+Visualizing and Underst

Faster RCNN是對之前的 RCNN、SPPNet、Fast RCNN 等目標檢測框架的進一步優化，將 Region Proposal 過程融合進入 CNN 模型，稱之為 RPN（Region Proposal Network），大幅降低了 test-time 計算量，

Is Faster R-CNN Doing Well for Pedestrian Detection?論文閱讀

原文連結：http://arxiv.org/pdf/1607.07032v2.pdf 原始碼連結：https://github.com/zhangliliang/RPN_BF/tree/RPN-pedestrian 簡介：行人檢測是個特定課題，而不是一般的物體檢測。雖然最近流行的深度物體

Is Faster R-CNN Doing Well for Pedestrian Detection?論文翻譯

翻譯僅為學習，如有侵權請聯絡我刪除～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～～摘要行人檢測被認為是特定課題，而不是一般的物體檢測。雖然最近的深度學習物件檢測器，如Fast/Faster R-CNN[1，2]在一般目標檢測方面表現出了優異的效能，但它

從程式設計實現角度學習Faster R-CNN（附極簡實現）

https://www.jianshu.com/p/9da1f0756813 從程式設計實現角度學習Faster R-CNN（附極簡實現） GoDeep 關注 2018.03.11 15:51* 字數 5820 閱讀 1897評論 2

[計算機視覺][神經網路與深度學習]Faster R-CNN配置及其訓練教程

Faster R-CNN教程最後更新日期：2016年4月29日本教程主要基於python版本的faster R-CNN，因為python layer的使用，這個版本會比matlab的版本速度慢10%，但是準確率應該是差不多的。目前已經實現的有兩種方式： Alternative trainingAp

《You Only Look Once: Unified, Real-Time Object Detection》論文筆記

1. 論文思想 YOLO（YOLO-v1）是最近幾年提出的目標檢測模型，它不同於傳統的目標檢測模型，將檢測問題轉換到一個迴歸問題，以空間分隔的邊界框和相關的類概率進行目標檢測。在一次前向運算中，一個單一的神經網路直接從完整的影象中預測邊界框和類概率。由於整個檢測管道是一個單一的網路，

You Only Look Once: Unified, Real-Time Object Detection 論文閱讀

本文僅是對論文的解讀，供個人學習使用，如果有侵權的地方，還請聯絡我刪除博文一、簡述 Yolo方法是一種目標檢測的方法。整個演算法的框架其實是一個迴歸的過程。現在簡單介紹一個下這個演算法的運轉流程。建立網路模型，輸入影象，然後其輸出結果記錄了影象中的Bounding Box（後

論文閱讀：You Only Look Once: Unified, Real-Time Object Detection

Preface 注：這篇今年 CVPR 2016 年的檢測文章 YOLO，我之前寫過這篇文章的解讀。但因為不小心在 Markdown 編輯器中編輯時刪除了。幸好同組的夥伴轉載了我的，我就直

【目標檢測】[論文閱讀][yolo] You Only Look Once: Unified, Real-Time Object Detection

論文名稱《You Only Look Once: Unified, Real-Time Object Detection》摘要 1、之前的目標檢測方法採用目標分類思想解決檢測問題，本文提出一個基於迴歸的框架，用於目標的定位及識別。 2、一個網路，一次預

YOLO(You Only Look Once):Real-Time Object Detection

path nor bat pen 2-0 object network file with caffe-yolo:https://github.com/xingwangsfu/caffe-yolo YOLO in caffe Update 12-05-2016: Curre

YOLO前篇---Real-Time Grasp Detection Using Convolutional Neural Networks

論文地址：https://arxiv.org/abs/1412.3128 1. 摘要比目前最好的方法提高了14%的精度，在GPU上能達到13FPS 2. 基於神經網路的抓取檢測 A 結構使用AlexNet網路架構，5個卷積層+3個全連線層，卷積層

[論文學習]《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 》

相關推薦