Rich feature hierarchies for accurate object detection and semantic segmentation (RCNN)筆記

阿新 • • 發佈：2018-11-17

RCNN系列對比圖，來源

1、本文主要是記錄RCNN。論文相對於以前的傳統方法的改進有：

速度，經典的目標檢測演算法使用滑動視窗依次判斷所有可能的區域。本文則（採用selective Search方法）預先提取一系列較可能是物體的候選區域，之後僅僅在這些候選區域上進行feature extraction，進行判斷。
訓練集，經典的目標檢測演算法在區域中提取人工設定的特徵。本文則採用深度網路進行特徵提取。使用兩個資料庫，一個較大的識別庫（ImageNet ILSVC 2012）：標定每張圖片中物體的類別。一千萬張影象，1000類。一個較小的檢測庫（PASCAL VOC2007）:標定每張圖片中，物體的類別和位置，一萬影象，20類。本文使用是別人進行與訓練得到CNN（有監督預訓練），而後用檢測庫調優引數，最後在檢測庫上評測。

2、RCNN的主要步驟

候選區域的提取：一張影象生成1k~2k的候選區域，使用的Selective Search方法
特徵提取：對每個候選區域，使用深度網路提取特徵（CNN），將提取到的feature map儲存到磁碟。
類別判斷：將特徵送入到每一類的SVM分類器，判斷是否屬於該類。【利用feature map訓練SVM來對目標和背景進行分類，每個類一個二進位制SVM】
位置精修：使用迴歸去精細修正候選框的位置

3、步驟細節

候選框的選取：要搜尋出圖片中所有可能是物體的區域，搜出的候選框是矩形的，而且大小各有不同。然後CNN對輸入圖片的大小是固定的。因此需要對每個候選框進行大小預處理。在paper裡有兩種不同的處理方法：
- 各向異性縮放：不管圖片的長寬比例，直接進行縮放，變為CNN的nxn的大小。
- 各向同性縮放：solution_A，先擴充再裁剪，直接在原始圖片中，把候選框的邊界進行擴充套件延伸成正方形，然後進行裁剪；如果已經延伸到了原始圖片的外邊界，那麼就用候選框的中的顏色均值來填充。solution_B，先裁剪後擴充，把候選框的圖片裁剪出來，然後用固定的背景顏色填充成正方形圖片（背景顏色也是採用候選框的畫素顏色均值）。【對於A，B方法，paper中還有個padding處理，作者發現採用各向異性縮放、padding=16的精度最高。】
特徵提取：Alexnet的精度為58.5%，VGG16精度為66%，但是AlexNet計算量比較小。Alexnet包含5個卷積層、2個全連線層，pool5層的神經元個數為9216、f6和f7的神經元個數都是4096個，最終提取特徵每個輸入候選框圖片都能得到一個4096維的特徵向量，那麼如果是2000個候選框，則有2000x4096維度。
- 這裡，初始化的引數也是直接選取已經訓練好的Alexnet的引數作為初始化引數，然後fine-tuning訓練。
- 我們在將候選框放入到CNN訓練的前，需要先將框標註好為正、負樣本，與ground-truth box的IOU>0.5則認為是正樣本【正樣本在這裡應該有對應的ground-truth box類別，這樣在back-propagation時才能得到對於的loss來進行梯度下降】，否則是負樣本，即背景。
- 假設要檢測的物體種類是N個，那麼我們需要將上面預訓練的CNN（AlexNet）最後一層給替換掉，替換成N+1個輸出的神經元（加1是background），然後這一層採用引數隨機初始化的方法。其他的網路層引數不變。接著就可以使用SGD訓練了，learning rate=0.001。每次訓練時，batch size=128，其中32個是正樣本，96個是負樣本。【這裡注意了,這裡的分類，不用做最後的分類，因為我們這裡主要是為了進行fine-tuning，所以在IOU選擇時（IOU>0.5就當作正樣本，是為了增加CNN訓練的資料量）並不嚴格，故精度會比較低。】

svm訓練，類別判斷：對於svm，我們只有當bounding box把整個物體包含在內才叫正樣本。沒有包含到的，且IOU<0.3的都是負樣本。【作者測試了IOU閾值各種方案，最終採用了IOU閾值為0.3效果最好，即當重疊率小於0.3時，我們就將其標註為負樣本。】一旦CNN f7層的特徵被提取出來，那麼我們將為每個物體類別訓練一個svm分類器。當我們用CNN提取2000個候選框，可以得到2000x4096這樣的特徵向量矩陣，然後我們只需要把這樣的一個矩陣跟svm權值矩陣4096*N點乘（N為分類類別數目，因為我們訓練了N個svm，每個svm包含了4096個權值w。【那這個不就相當於一個全連線層麼，f7與分類FC層之間的w為4096xN，即svm，而在fine-tuning裡，使用的是N+1】），就可以得到結果。
位置精修：對每一類目標，使用一個線性迴歸器進行精修。輸入為pool5層的4096維特徵，輸出為x，y方向的縮放和平移。訓練樣本：判定為本類的候選框中和真值重疊面積大於0.6的候選框。

4、測試階段

對影象進行Selective search得到2000個region proposals，並歸一化到227x227
在CNN中提取特徵，然後使用最後的層（SVM，20個神經單元？？）對特徵向量進行打分，得到一個2000x20的矩陣，其中20是類別。
對2000x20的每一列進行排序，然後對每一列進行NMS【將score最大的bounding box作為選定框，計算其餘的bounding box與當前最大score與box的IOU，去除IOU大於設定閾值的bounding box。重複上面步驟，直至候選bounding box為空，在將score小於一定閾值的選定狂刪除得到這一類的結果。然後繼續下一個分類的NMS，即下一列】。

問題解釋：

Selective Search：first使用一種過分割手段【過分割就是把本來屬於一個整體的目標分成多個，比如分割一朵花，結果把花瓣、莖葉全分到不同的區域，這就是過分割】，將影象分割成小區域（1K~2K個）。second檢視現在的小區域，按照合併規則合併可能性最高的兩個相鄰區域。重複知道整張圖合併成一個區域位置。third輸出所有曾經存在過的區域，所謂候選區域。其中合併的規則如下：優先合併顏色（顏色直方圖）相近、紋理（梯度直方圖）相近的、合併後總面積小的、合併後，總面積在其BBox中所佔比例最大的（保證合併後的形狀規則）。
超畫素【參考】：為了在不犧牲太大精確度的情況下降維。超畫素最直觀的解釋就是把一些具有相似特性的畫素“聚合”起來，形成一個更具有代表性的大“元素”。而這個新的元素，將作為其他影象處理演算法的基本單位。一來可以大大降低了維度，二來可以剔除一些異常畫素點。至於根據什麼特性把一個個畫素點聚集起來，可以是顏色、紋理、類別等。

對於目標檢測問題：圖片分類標註好的訓練資料非常多，但是物體檢測的標註資料卻很少，如何用少量的標註資料，訓練高質量的模型，這就是文獻最大的特點，這篇論文采用了遷移學習的思想：先用了ILSVRC2012這個訓練資料庫（這是一個圖片分類訓練資料庫），先進行圖片分類訓練【預訓練CNN】。這個資料庫有大量的標註資料，共包含了1000種類別物體，因此預訓練階段CNN模型的輸出是1000個神經元（當然也直接可以採用Alexnet訓練的模型引數）。再在小型目標資料集PASCAL_VOC上微調（fine-tuning）CNN。

參考：https://zhuanlan.zhihu.com/p/23006190

https://zhuanlan.zhihu.com/p/38946391

https://zhuanlan.zhihu.com/p/23341500

Rich feature hierarchies for accurate object detection and semantic segmentation (RCNN)筆記

RCNN系列對比圖，來源 1、本文主要是記錄RCNN。論文相對於以前的傳統方法的改進有：速度，經典的目標檢測演算法使用滑動視窗依次判斷所有可能的區域。本文則（採用selective Search方法）預先提取一系列較可能是物體的候選區域，之後僅僅在這些候選區域上進行featur

《Rich feature hierarchies for accurate object detection and semantic segmentation》筆記

傳統目標檢測基本都是特徵工程，通過low-level feature，各種methods做ensemble。這篇文章將CNN和目標檢測結合在一起，提出了R-CNN（Regions with CNN features）。作者提出的方法，主要包括三個模組：

RCNN:Rich feature hierarchies for accurate object detection and semantic segmentation 閱讀筆記

Rich feature hierarchies for accurate object detection and semantic segmentation 0. 簡介本文是CVPR2014的論文，在這之前檢測最好的方法結合了low-lev

Rich feature hierarchies for accurate object detection and semantic segmentation（理解）

0 - 背景　　該論文是2014年CVPR的經典論文，其提出的模型稱為R-CNN（Regions with Convolutional Neural Network Features），曾經是物體檢測領域的state-of-art模型。 1 - 相關知識補充 1.1 - Selective Searc

論文閱讀筆記二十三：Rich feature hierarchies for accurate object detection and semantic segmentation Tech report(R-CNN CVPR2014)

論文源址：http://www.cs.berkeley.edu/~rbg/#girshick2014rcnn 摘要在PASCAL VOC資料集上，最好的方法的思路是將低階資訊與較高層次的上下文資訊進行結合。該文的兩個亮點：（1）將CNN應用到re

Rich feature hierarchies for accurate object detection and semantic segmentation Tech report 論文解讀

一、R-CNN的三個模組每個圖片生成獨立類別的 region proposal，這些 proposals 定義了可用於檢測器的候選框集合使用大型的卷積神經網路，可以從每個region proposal中提取固定長度的特徵向量一組能區分每個類別的線性向量機組

論文解讀1——Rich feature hierarchies for accurate object detection and semantic segmentation

背景　　在2012 Imagenet LSVRC比賽中，Alexnet以15.3%的top-5 錯誤率輕鬆拔得頭籌（第二名top-5錯誤率為26.2%）。由此，convNet的潛力受到廣泛認可，一炮而紅。既然convNet在影象分類任務上能取得好成績，是不是也能放到目標檢測任務上呢。本文就是用convNet

深度學習論文翻譯解析（八）：Rich feature hierarchies for accurate object detection and semantic segmentation

論文標題：Rich feature hierarchies for accurate object detection and semantic segmentation 　　標題翻譯：豐富的特徵層次結構，可實現準確的目標檢測和語義分割論文作者：Ross Girshick Jeff Donahue Trev

【深度學習：目標檢測】RCNN學習筆記(1):Rich feature hierarchies for accurate object detection and semantic segmentat

轉載：http://blog.csdn.net/u011534057/article/details/51218218 rcnn主要作用就是用於物體檢測，就是首先通過selective search 選擇2000個候選區域，這些區域中有我們需要的所對應的物體的bound

【筆記】R-CNN:Rich feature hierarchies for Accurate Object Detection and Segmentation

基於R-CNN的物體檢測一、相關理論本篇博文主要講解2014年CVPR上的經典paper：《Rich feature hierarchies for Accurate Object Detection and Segmentation》，這篇文章的演算法思想又被稱之為

[論文理解]Region-Based Convolutional Networks for Accurate Object Detection and Segmentation

Region-Based Convolutional Networks for Accurate Object Detection and Segmentation 概括這是一篇2016年的目標檢測的文章，也是一篇比較經典的目標檢測的文章。作者介紹到，現在表現最好的方法非常的複雜，而本文的方法，簡單又容

Region-based Convolutional Networks for Accurate Object Detection and Segmentation----R-CNN論文筆記

一、為什麼提出R-CNN 目標檢測效能停滯不前，效能最好的整合方法又太複雜，所以作者提出了一個既能大幅提升效能，又更簡單的R-CNN。二、R-CNN的框架上面的框架圖清晰的給出了R-CNN的目標檢測流程： 1) 輸入測試影象 2) 利用s

【論文筆記】Region-based Convolutional Networks for Accurate Object Detection and Segmentation

《Region-based Convolutional Networks for Accurate Object Detection and Segmentation》是將卷積神經網路應用於物體檢測的一篇經典文章。整個識別過程可以用下面的一張圖片來清晰的表示：首先給定一

ECCV 2018 論文閱讀筆記——Acquisition of Localization Confidence for Accurate Object Detection

目標檢測涉及到目標分類和目標定位，但很多基於 CNN 的目標檢測方法都存在分類置信度和定位置信度不匹配的問題。針對這一問題，一種稱之為 IoU-Net 的目標檢測新方法被提出，在基準方法的基礎上實現了顯著的提升。該論文已被將於當地時間 9 月 8

20.Flow-Guided Feature Aggregation for Video Object Detection

用於視訊目標檢測的流引導特徵聚合摘要將最先進的目標檢測器從影象擴充套件到視訊是具有挑戰性的。檢測的準確性受到視訊中外觀惡化的影響，例如，運動模糊，視訊散焦，罕見姿勢等。現有工作試圖在盒級上利用時間資訊，但是這種方法不是端對端訓練的。我們提出了流引導特徵聚合，一種用於視訊目標檢測的精確的端

Acquistion of Localization Confidence for Accurate Object Detection論文翻譯

翻譯僅為學習，如有侵權請聯絡我刪除。翻譯如有錯誤之處請指出。摘要現在的基於CNN物體檢測器依賴於邊界框迴歸和非極大值抑制來定位物體。雖然類標籤的概率自然的反映了分類置信度，但缺乏定位置信度。這使得合適的定位邊界框在迭代迴歸期間退化，甚至在NMS時被抑制。在這篇論文裡我們提

【論文筆記】視訊物體檢測(VID)系列 FGFA：Flow-Guided Feature Aggregation for Video Object Detection

1.Abstract 視訊中的物體檢測會受到諸如運動模糊、視訊散焦、奇特姿態等的影響。現有的工作嘗試從box-level使用temporal資訊，但是這種方法不能端到端地進行訓練。我們提出了FGFA，在frame-level使用temporal資訊。它將相

Acquistion Location Confidence for accurate object detection

istio bubuko 問題 bject guid 誤差特征值 family 原因 Acquistion Location Confidence for accurate object detection 本論文主要是解決一下兩個問題： 1、分類得分高的預測框與

Dynamic Zoom-in Network for Fast Object Detection in Large Images 閱讀筆記

摘要我們引入了一個通用框架, 它降低了物體檢測的計算成本, 同時保留了不同大小的物體在高解析度影象中出現的情況的準確性。檢測過程中以coarse-to-fine的方式進行，首先對影象的down-sampled版本,然後在一系列較高解析度區域上，識別出哪些可能

Deep learning based Object Detection and Instance Segmentation using Mask R

A few weeks back we wrote a post on Object detection using YOLOv3. The output of an object detector is an array of bounding boxes around objects detected i

Rich feature hierarchies for accurate object detection and semantic segmentation (RCNN)筆記

相關推薦