關於RPN中proposal的座標迴歸引數的一點理解及Faster R-CNN的學習資料

阿新 • • 發佈：2019-01-14

在Faster R-CNN的區域生成網路RPN中為了能夠以目標真實框(Ground Truth box)為監督訊號去訓練RPN網路依據anchor預測proposal的位置，作者並不是直接回歸proposal的(x,y,w,h)，而是採用了以下形式的引數化座標偏移向量 $(t_{x},$

t y , t w , t h

) (t_x,t_y,t_w,t_h)

(t_{x}, t_{y}, t_{w}, t_{h})

，其具體計算公式如下：
$在這裡插入圖片描述$
其中(x,y,w,h)代表預測的proposal的座標引數，

(x_a,y_a,w_a,h_a)

代表anchor的座標引數，

(x^*, y^*,w^*,h^*)

代表真實框的座標引數。
之所以這麼做個人覺得有兩點原因：

這裡是要依據anchor去預測proposal的位置，而anchor並非真實框，所以沒辦法直接對座標引數進行迴歸，而是轉而利用proposal與anchor的偏差(offset，t向量)去迴歸anchor與真實框的偏差(t*向量)。這就是上面公式中為什麼出現 $x-x_a$ 和 $x^*-x_a$ 的原因。
關於上面公式的原理可以詳細看下一文讀懂Faster RCNN-知乎中bounding box regression原理部分以及邊框迴歸詳解這篇部落格。假定可以對anchor進行修正使其儘可能接近真實框，則只要對anchor進行平移和縮放即可。
設 $A_x,A_y,A_w,A_h$ 為anchor的中心點座標和寬、高， $G'_x,G'_y,G'_w,G'_h$ 為對anchor修正後接近真實框的相應位置引數，則
- 平移變換可以用下式表示
  
  上面乘以anchor的寬、高是為了保證學習到的變換引數具有尺度不變性，因為這些變換引數學習完成後是固定的，而要預測的目標框卻有大有小，乘以anchor的寬、高後就能實現對目標尺寸的自適應
- 縮放變換可以用下式表示
  
  上面取了指數是為了保證縮放倍數是大於0的
$(t_x,t_y,t_w,t_h)$ 實際上就是相應的平移和縮放參數 $d_x(A),d_y(A),d_w(A),d_h(A)$ ，也是RPN網路迴歸部分要學習的目標。

關於Faster R-CNN的學習資料，除了上面連結中的從原理上詳細解釋Faster R-CNN的那一篇外，還有就是從程式碼實現的角度講解Faster R-CNN的從程式設計實現角度學習Faster R-CNN（附極簡實現），希望對想弄清楚Faster R-CNN原理的朋友有所幫助。

關於RPN中proposal的座標迴歸引數的一點理解及Faster R-CNN的學習資料

在Faster R-CNN的區域生成網路RPN中為了能夠以目標真實框(Ground Truth box)為監督訊號去訓練RPN網路依據anchor預測proposal的位置，作者並不是直接回歸proposal的(x,y,w,h)，而是採用了以下形式的引數化座標偏移向量

關於C#中ref與out引數的理解

/*ref與out引數的使用*/using System;using System.Collections.Generic;using System.Linq;using System.Text; namespace conapp_6_out與ref的使用{ //定義類

Faster R-CNN中的RPN和anchor機制理解

先上圖看一下Faster R-CNN操作流程：圖片說明：Faster R-CNN=Fast R-CNN+RPN，其中Fast R-CNN結構不變；RPN負責生成proposals，配合最後一層的feature map，使用ROI Pooling，生成fixed length的fe

Spark學習——spark中的幾個概念的理解及引數配置

首先是一張spark的部署圖：節點型別有： 1. master 節點：常駐master程序，負責管理全部worker節點。 2. worker 節點：常駐worker程序，負責管理execu

Cocos2d-x中關於schedule函式的一點理解

今天看到一行程式碼，大意如下： this->schedule(schedule_selector(HelloWorld::Hello),20.0); 該語句會在20秒之後執行一次Hello函式。因為函式的引數沒有寫全，所以就想看看schedule函式別的引數預設情

影象檢索中BOW和LSH的一點理解

去年年底的時候在一篇部落格中，用ANN的框架解釋了BOW模型[1]，並與LSH[2]等雜湊方法做了比較，當時得出了結論，BOW就是一種經過學習的Hash函式。去年再早些時候，又簡單介紹過LLC[3]等稀疏的表示模型，當時的相關論文幾乎一致地得出結論，這些稀疏表示的方法在影

Android 中關於SimpleAdapter構造引數的理解

simpleAdapter的建構函式如下： public SimpleAdapter (Context context, List<? extends Map<String, ?>> data, int resource, St

【轉載】Spark學習——spark中的幾個概念的理解及參數配置

program submit man 聯眾 tail 進行 orb 數據源 work 首先是一張Spark的部署圖：節點類型有： 1. master 節點：常駐master進程，負責管理全部worker節點。2. worker 節點：常駐worker進程，負責管理

Faster R-cnn中的RPN網路詳細解釋

作者RPN網路前面的g層借用的是ZF網路，網路相對較淺，不過並不影響後期介紹。 1、首先，輸入圖片大小是 224*224*3（這個3是三個通道，也就是RGB三種） 2、然後第一層的卷積核維度是 7*7*3*96 （所以大家要認識到卷積核都是4維的，在caffe的矩陣計算中都是這麼實現的）； 3、

Faster R-CNN中RPN的分析

摘要 Faster R-CNN是object detection的里程碑之作。它提出了RPN，即一種用CNN來提取proposal的網路。為了更好地理解RPN的程式碼實現細節，充分理解它用到的SmoothL1Loss是很必要的。本文簡述了RPN的作用，討論

Java中多型轉型的問題理解及多型概述

一、虛擬碼 class 孔子爹 { public int age = 40; public void teach() { System.out.println("講解Java"); }

TensorFlow Object Detection API中的Faster R-CNN /SSD模型引數調整

關於TensorFlow Object Detection API配置，可以參考之前的文章https://becominghuman.ai/tensorflow-object-detection-api-tutorial-training-and-evaluating-custom-object-detec

tensorflow object detection faster r-cnn 中keep_aspect_ratio_resizer是什麽意思

ng- 最小圖片 sta fault overflow cti hub .com 如果小夥伴的英語能力強可以直接閱讀這裏：https://stackoverflow.com/questions/45137835/what-the-impact-of-differe

純C++版500VIP源碼下載的Faster R-CNN（通過caffe自定義RPN層實現）

方便預測大致 ole test cto oop 可執行文件 names 這裏500VIP源碼下載 dsluntan.com 介紹的是通過添加自定義層（RPN層）代替python層，實現c++版的Faster R-CNN，因為去掉python了，所以部署時不會因為牽扯到p

論文閱讀筆記（六）Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

采樣分享最終產生 pre 運算減少 att 我們作者：Shaoqing Ren, Kaiming He, Ross Girshick, and Jian SunSPPnet、Fast R-CNN等目標檢測算法已經大幅降低了目標檢測網絡的運行時間。可是盡管如此，仍然

【Faster RCNN】《Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks》

NIPS-2015 NIPS，全稱神經資訊處理系統大會(Conference and Workshop on Neural Information Processing Systems)，是一個關於機器學習和計算神經科學的國際會議。該會議固定在每年的12月舉行

目標檢測演算法理解：從R-CNN到Mask R-CNN

　　因為工作了以後時間比較瑣碎，所以更多的時候使用onenote記錄知識點，但是對於一些演算法層面的東西，個人的理解畢竟是有侷限的。我一直做的都是影象分類方向，最近開始接觸了目標檢測，也看了一些大牛的論文，雖然網上已經有很多相關的演算法講解，但是每個人對同一個問題的理解都不太一樣，本文主

論文閱讀筆記二十六：Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks（CVPR 2016）

論文源址：https://arxiv.org/abs/1506.01497 tensorflow程式碼：https://github.com/endernewton/tf-faster-rcnn 摘要目標檢測依賴於區域proposals演算法對目標的位置進

Faster R-CNN理解、討論

論文 : Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks[J]. PAMI2017. GitHub : 3. 補充程式Detectron : ht

Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

Abstract SPPnet和Fast R-CNN雖然減少了演算法執行時間，但region proposal仍然是限制演算法速度的瓶頸。而Faster R-CNN提出了Region Proposal Network (RPN)，該網路基於卷積特徵預測每個位置是否為物體以及

關於RPN中proposal的座標迴歸引數的一點理解及Faster R-CNN的學習資料

相關推薦