faster-rcnn中，對RPN的理解

阿新 • • 發佈：2019-01-15

原文中rcnn部分的截圖

圖片來自網上，黑色是滑動視窗的區域，就是上圖的紅色區域的sliding window其他顏色 9種視窗就是anchor機制生成的9種區域

這裡要把sliding window和卷積層的滑動區別開，sliding winsow的stride步長是1！（想到經典的harr+adaboost人臉檢測）

sliding window只是選取所有可能區域，並沒有額外的什麼作用！

以下是我對faster-rcnn中的RPN的理解：
經過前面的網路生成了一個多通道的特徵圖，接下來就是通過在這些特徵圖上應用滑動視窗加 anchor 機制進行目標區域判定和分類了，

目標檢測，就是包括目標框定和目標判定。

所以這裡的滑動視窗 + anchor的機制的功能就類似於 fast rcnn 的selective search 生成proposals 的作用
rpn網路用來生成proposals

用原文的話講“we slide a small network over the conv feature map output by the last shared conv layer”

1.RPN是一個卷積層（256維） + relu + 左右兩個層的（clc layer 和 reg layer）的小網路
  應用在滑動視窗區域上的，所有的滑動視窗共享這個 RPN
  這個卷積層對比普通的卷積層
  1，它是一個將 n x n x channels的輸入通過256個 n x n 大小的卷積核生成 1 * 1 * 256的feature map，即最後是256維的特徵
  2，它的輸入就是滑動視窗nxn對應的特徵圖區域，經過它卷積後特徵圖變成1 x 1了
  3，由於此時輸出的是 1 * 1 *256，所有cls layer 和reg layer是用 1 x 1的卷積核進行進一步的特徵提取，
這裡1 x 1卷積核卷積時，對各個通道都有不同的引數，因為輸入又是1 x 1的圖片，所以相當於全連線的功能，相當於把 1 * 1 * 256展平成 256，然後進行全連線
2.關於 anchor機制
  anchor機制就是在n x n的滑動視窗上，進一步生成k種不同大小的可能區域
  滑動視窗加 anchor機制基本把目標可能出現的區域都涵蓋了
  所以滑動視窗加 anchor 就替代了滑動視窗加金字塔的功能

3.RPN損失計算
RPN提取出的256d特徵是被這k種區域共享的，輸給clc layer和reg layer後，只要一次前向，就同時預測k個區域的前景、背景概率（1個區域2個scores，所以是2k個scores），以及bounding box（1個區域4個coordinates，所以是4k個coordinates），具體的說：

clc layer輸出預測區域的2個引數，即預測為前景的概率pa和pb，損失用softmax loss（cross entropy loss）（本來還以為是sigmoid，這樣的話只預測pa就可以了？）。需要的監督資訊是Y=0,1，表示這個區域是否ground truth

reg layer輸出預測區域的4個引數：x,y,w,h，用smooth L1 loss。需要的監督資訊是anchor的區域座標{xa,ya,wa,ha} 和 ground truth的區域座標{x*,y*,w*,h*}

計算損失時，我們需要確定k個區域中的各個區域是不是有效的，是前景還是背景。有效的區域才計算損失。上面的監督資訊：Y，{xa,ya,wa,ha}（k個），{x*,y*,w*,h*}（1個）是根據文章中的樣本產生規則得到的：

對於這k個區域
1 分配正標籤給滿足以下規則的區域
1.1 與某個ground truth(GT)的IoU最大的區域
1.2 與任意GT的IoU大於0.7的區域
(使用規則2基本可以找到足夠正樣本，但對於所有區域與GT的IoU都不大於0.7，可以用規則1)
(一個GT可能分配正標籤給多個anchor，具體怎麼分配？)
2 分配負標籤給與所有GT的IoU都小於0.3的區域。

非正非負的區域不算損失，對訓練沒有作用
RPN只對有標籤的區域計算loss。

最後
參與訓練RPN的區域都有參與最後rcnn的訓練，只是只有RPN預測為前景的區域在rcnn才有計算迴歸損失

在使用faster rcnn的時候，rpn預測為前景的區域才是proposal，然後按照softmax score從大到小排序選出前2000個區域，在用NMS進一步篩選出300個區域，然後輸給後面的rcnn進行預測（注意此時rcnn的預測類別不包括背景，已經RPN輸出的已經預設是前景了）

---------------------
作者：美利堅節度使
來源：CSDN
原文：https://blog.csdn.net/ying86615791/article/details/72788414?utm_source=copy
版權宣告：本文為博主原創文章，轉載請附上博文連結！

faster-rcnn中，對RPN的理解

faster-rcnn中，對RPN的理解

faster rcnn 中核心部分RPN網路的整理與理解

對faster rcnn 中rpn層的理解

[caffe筆記005]：通過程式碼理解faster-RCNN中的RPN

faster-rcnn中新增Mask中的RoiAlign層，使迴歸框更精確（ roi_align_layer.cu:240] Check failed: error == cudaSuccess *）

在faster rcnn中使用soft nms，faster rcnn的改進（一）

faster-rcnn中新增Mask中的RoiAlign層，使迴歸框更精確

faster rcnn中損失函式（一）——softmax，softmax loss和cross entropy的講解

——————————JavaScript中，對String字符串的一些操作——————————

C# ArcgisEngine開發中，對一個圖層進行過濾，只顯示符合條件的要素

python/numpy/tensorflow中，對矩陣行列操作，下標是怎麽回事兒？

【C++】判斷元素是否在vector中，對vector去重，兩個vector求交集、並集

在flask框架中，對wtforms的SelectMultipleField的一個報錯處理

在實際的開發工作中，對字串的處理是最常見的程式設計任務。本題目即是要求程式對使用者輸入的串進行處理。具體規則如下：（1）把每個單詞的首字母變為大寫。（2）把數字與字母之間用下劃線字元（_）分開，使得更

（原）faster rcnn的tensorflow程式碼的理解

faster rcnn中資料標註pascal voc格式

資料庫讀取原始資料插入新表中，對處理原始資料的原則總結

請問下Faster rcnn 中最後訓練出自己的模型,得到的AP=0.00 mAP=0.000? 檢測精度為什麼是0呢?[已經解決,, TillTheWorldEnd 的回答可以解決哈]

faster rcnn中損失函式（二）—— Smoooh L1 Loss的講解

caffe學習（四）：py-faster-rcnn配置，執行測試程式（Ubuntu）

faster-rcnn中，對RPN的理解

相關推薦