1. 程式人生 > >【論文翻譯】R-CNN

【論文翻譯】R-CNN

Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5)

Ross Girshick Jeff Donahue Trevor Darrell Jitendra Malik UC Berkeley {rbg,jdonahue,trevor,malik}@eecs.berkeley.edu

摘要

在典型的PASCAL VOC資料集上測量的物件檢測效能在過去幾年中已經穩定下來。最好的方法是複雜的系統,通常將多個低階影象特徵與高階語境相結合。在本文中,我們提出了一種簡單可擴充套件的檢測演算法,相對於2012年VOC的先前最佳結果,平均精度(mAP)提高了30%以上,達到53.3%的mAP。我們的方法結合了兩個關鍵的改進:(1)可以將大容量卷積神經網路(CNN)應用於自下而上的區域提案,以便定位和分割物件。(2)當標記的訓練資料稀缺時,對輔助任務進行訓練,然後進行域特定的微調,可以顯著提升效能。由於我們將區域提案與CNN相結合,所以我們稱之為我們的方法R-CNN:具有CNN特徵的區域。我們還將R-CNN與OverFeat進行比較,OverFeat是最近提出的基於類似CNN架構的滑動視窗檢測器。我們發現R-CNN在20類的ILSVRC2013檢測資料集上大幅超越OverFeat。完整系統的原始碼在

http://www.cs.berkeley.edu/~rbg/rcnn

簡介

特徵很重要。各種視覺識別任務的過去的十年取得了很大的進步,這取決於SIFT1和HOG2的使用。但是如果我們觀察典型的視覺識別任務的效能,如PASCAL VOC物件檢測3,會發現2010-2012年進展緩慢,僅通過組合不同模型和使用已有方法的變體來獲得很小的改進。

SIFT和HOG是阻滯方向直方圖,一種可以大致與V1中的複合細胞,靈長類動物視覺途徑中的第一皮質區域相關聯的表示。但是我們也知道識別發生在後續的幾個階段,這表明可能存在層次化,多階段的計算特徵的過程,這些過程對於視覺識別更為有用。

Fukushima的“神經認知機”

4是一種受生物學啟發的分層和偏移不變的模式識別模型,這只是一個早期的嘗試。但是,神經認知機缺乏監督訓練演算法。卷積神經網路(CNN)是一類擴充套件神經認知機的模型,建立在Rumelhart等5LeCun等6提出的通過反向傳播進行的隨機梯度下降的基礎之上。

CNN在20世紀90年代有廣泛的使用(例如7),但是隨著支援向量機的興起,CNN已經逐漸淡出了公眾視野。 2012年,Krizhevsky等8通過在ImageNet大型視覺識別挑戰(ILSVRC)上顯示出更高的影象分類準確度,重新喚起了人們對CNN的興趣9 10。他們的成功是通過使用大型CNN訓練120萬張帶標記影象,以及對LeCun的CNN(例如,max(x,0)非線性整流和“Dropout”正規化)的一些改進。

ImageNet結果的重要性在ILSVRC 2012研討會期間大有爭議。中心問題可以歸結為:在多大程度上,CNN分類對ImageNet的分類結果可以泛化為PASCAL VOC挑戰的目標檢測結果?

我們通過彌合影象分類和物件檢測之間的差距來回答這個問題。本文首先提出,與基於更簡單的HOG類特徵的系統相比,CNN可以顯著提高PASCAL VOC的目標檢測效能。為了實現這一結果,我們主要關注兩個問題:使用深度網路定位目標,並只使用少量注帶標記的檢測資料訓練高容量模型。

與影象分類不同,檢測需要在影象中定位(可能是許多)目標。一種方法將定位作為迴歸問題。然而,Szegedy等人與我們並行的工作11,表明這種策略在實踐中可能不會很好(他們在VOC 2007年的mAP為30.5%,而我們的方法達到了58.5%)。另一種方法是構建一個滑動視窗檢測器。 CNN已經以這種方式被使用了至少二十年,通常是在受限物體上,如面部12 13和行人14。為了保持高空間解析度,這些CNN通常只有兩個卷積和池化層。我們也考慮了採用滑動視窗方法。然而,在我們的網路中,具有五個卷積層的單元在輸入影象中具有非常大的接收場(195×195195×195畫素)和步進(32×3232×32畫素),這使得在滑動視窗內的精確定位成為開放的技術挑戰。

相反,我們通過在“識別使用區域”正規化15中操作來解決CNN的定位問題,這已經成功實現了目標檢測16和語義分割17。在測試時間,我們的方法為輸入影象生成大約2000個類別無關的區域提案,使用CNN從每個提案中提取固定長度的特徵向量,然後對每個區域進行類別特定的線性SVM分類。我們使用簡單的技術(影象仿射變換)來計算每個區域提案的固定大小的CNN輸入,而不管區域的形狀。如下圖(圖1)所示:(物件檢測系統概述。我們的系統(1)輸入一張影象,(2)提取約2000個自下而上區域提案,(3)使用大卷積神經網路(CNN)計算每個提案的特徵,然後(4)使用類別特定的線性SVM。 R-CNN在PASCAL VOC 2010中實現了53.7%的平均精度(mAP)。相較之下,16使用了相同的區域提案,但是使用了空間金字塔和視像單詞方法,達到了35.1%的mAP。主流的可變部件模型為33.4%。在200類的ILSVRC2013檢測資料集上,R-CNN的mAP為31.4%,超過OverFeat很多18,先前最佳結果為24.3%。)

Figure 1

由於我們的系統將區域提案與CNN相結合,所以我們將方法命名為R-CNN:具有CNN特徵的區域。

在本文的更新版本中,我們通過在200類ILSVRC2013檢測資料集上執行R-CNN,提供R-CNN和最近提出的OverFeat18檢測系統的比較。 OverFeat使用滑動視窗CNN進行檢測,是目前在ILSVRC2013檢測中效能最好的方法。我們的R-CNN明顯優於OverFeat,mAP為31.4%,而OverFeat是24.3%。

檢測面臨的第二個挑戰是帶標記的資料很少,目前可用的數量不足以訓練大型CNN。這個問題的常規解決方案是使用無監督的預訓練,然後進行輔助微調(見14)。本文的第二個主要貢獻是在大型輔助資料集(ILSVRC)上進行監督預訓練,然後對小資料集(PASCAL)進行域特定的微調,這是在資料稀缺時訓練高容量CNN模型的有效範例。在我們的實驗中,微調將檢測的mAP效能提高了8個百分點。微調後,我們的系統在VOC 2010上實現了54%的mAP,而高度優化的基於HOG的可變部件模型(DPM)為33%19 20。Donahue等人同時進行的工作21表明可以使用Krizhevsky的CNN(無需微調)作為黑盒特徵提取器,在多個識別任務(包括場景分類,細粒度子分類和域適配)中表現出色。

我們的系統也很有效率。唯一的類特定計算是相當小的矩陣向量乘積和貪心非極大值抑制。這種計算屬性來自於所有樣本共享的特徵,並且比以前使用的區域特徵維度還低兩個數量級(參見16)。

瞭解我們的方法的失敗模式對於改進它也是至關重要的,因此我們給出了由Hoiem等人22提出的的檢測分析工具的結果。 作為這一分析的中間後果,我們證明了一種簡單的邊界迴歸方法顯著地減少了定位誤差,這是主要的誤差模式。

在發掘技術細節之前,我們注意到,由於R-CNN在區域上執行,將其擴充套件到語義分割的任務是很自然的。經過少量的修改,我們也在PASCAL VOC分割任務中取得了有競爭力的成果,VOC 2011測試集的平均分割精度為47.9%。

用R-CNN進行目標檢測

我們的目標檢測系統由三個模組組成。第一個生成類別無關區域提案。這些提案定義了可用於我們的檢測器的候選檢測集。第二個模組是從每個區域提取固定長度特徵向量的大型卷積神經網路。第三個模組是一組特定類別的線性SVM。在本節中,我們介紹每個模組的設計思路,描述其測試時使用情況,詳細介紹其引數的學習方式,並給出在PASCAL VOC 2010-12和ILSVRC2013上的檢測結果。

模組設計

區域提案。各種最近的論文提供了生成類別無關區域提案的方法。例子包括:物件性23,選擇性搜尋16,類別無關物件提議24,約束引數最小化(CPMC)17,多尺度組合分組25和Cireşan等提出的26,通過將CNN應用於特定間隔的方塊來檢測有絲分裂細胞,這是區域提案的特殊情況。具體的區域提案方法對於R-CNN是透明的,但我們使用選擇性搜尋以便於與先前檢測工作的對照比較(例如16 27)。

特徵提取。我們使用Krizhevsky等人8提出的CNN的Caffe28實現,從每個區域提案中提取4096維特徵向量。將減去畫素平均值的227×227227×227解析度的RGB影象通過五個卷積層和兩個全連線層向前傳播來計算特徵。可以參考288以獲得更多的網路架構細節。

為了計算區域提案的特徵,我們必須首先將該區域中的影象資料轉換為與CNN相容的格式(其架構需要固定227×227227×227畫素大小的輸入)。在許多可能的針對任意形狀區域的變換中,我們選擇最簡單的。不管候選區域的大小或橫縱比如何,我們將整個區域不保持橫縱比縮放到所需的大小。在縮放之前,我們擴大了被縮放的區域,使得在縮放後,原始區域邊界到現有區域邊界寬度為p畫素。如下圖(圖2)所示:(縮放後的VOC 2007訓練樣本,圖中使用p = 16)

Figure 2

其它的縮放方案在附錄A中討論。

測試

在測試時,我們對測試影象進行選擇性搜尋,以提取大約2000個區域提案(我們在所有實驗中使用選擇性搜尋的“快速模式”)。然後縮放每個區域,並通過CNN向前傳播,以計算特徵。最後,對於每個類,我們使用針對該類訓練的SVM來對每個提取的特徵向量進行評分。給定影象中的所有區域的得分,我們應用貪婪非極大值抑制(每個類別獨立進行),在訓練時學習一個閾值,如果其與得分較高的區域的重疊部分(IoU)高於這個閾值,則丟棄這個區域。

效能分析。兩種性質使檢測效率高。首先,所有CNN引數都在所有類別中共享。其次,與其他常見方法比較,由CNN計算出的特徵向量是低維度的,例如具有空間金字塔和視像單詞的方法。UVA檢測系統16中使用的特徵比我們(維度,360k對比4k)大兩個數量級。

這種共享的結果是計算區域建議和特徵(GPU上的13秒/影象或CPU上的53秒/影象)的時間在所有類別上進行攤銷。唯一的類特定計算是特徵與SVM權重和非極大值抑制之間的點積。在實踐中,影象的所有點積運算都被整合為單個矩陣與矩陣的相乘。特徵矩陣通常為2000×40962000×4096,SVM權重矩陣為4096×N4096×N,其中N為類別數。

分析表明,R-CNN可以擴充套件到數千個類,而不需要使用如雜湊這樣的技術。即使有10萬個類,在現代多核CPU上產生的矩陣乘法只需10秒。這種效率不僅僅是使用區域提案和共享特徵的結果。由於其高維度特徵,UVA系統的速度將會降低兩個數量級,並且需要134GB的記憶體來儲存10萬個線性預測器。而對於低維度特徵而言,僅需要1.5GB記憶體。

將R-CNN與Dean等人最近的工作對比也是有趣的。使用DPM和雜湊的可擴充套件檢測29。在引入1萬個干擾類的情況下,每個影象的執行時間為5分鐘,其在VOC 2007上的的mAP約為16%。通過我們的方法,1萬個檢測器可以在CPU上執行大約一分鐘,而且由於沒有逼近,可以使mAP保持在59%(見消融研究)。

訓練

監督預訓練。我們僅通過使用影象級標記來區分性地對大型輔助資料集(ILSVRC2012分類)進行CNN預訓練(此資料沒有檢測框標記)。使用開源的Caffe CNN庫進行預訓練28。簡而言之,我們的CNN幾乎符合Krizhevsky等人的論文中8的表現,ILSVRC2012分類驗證集獲得的top-1錯誤率高出2.2個百分點。這種差異是由於訓練過程中的簡化造成的。

域特定的微調。為了使CNN適應新任務(檢測)和新域(縮放的提案視窗),我們僅使用縮放後的區域提案繼續進行CNN引數的隨機梯度下降(SGD)訓練。除了用隨機初始化的(N + 1)路分類層(其中N是類別數,加1為背景)替換CNN的ImageNet特有的1000路分類層,CNN架構不變。對於VOC,N = 20,對於ILSVRC2013,N = 200。我們將所有區域提案與檢測框真值IoU ≥0.5的區域作為正樣本,其餘的作為負樣本。我們以0.001(初始學習率的1/10)的學習率開始SGD,這樣可以在不破壞初始化的情況下進行微調。在每個SGD迭代中,我們統一取樣32個正樣本(在所有類別中)和96個負樣本,以構建大小為128的小批量。將取樣的正樣本較少是因為它們與背景相比非常罕見。

目標類別分類器。考慮訓練二分類器來檢測汽車。很明顯,緊緊圍繞汽車的影象區域應該是一個正樣本子,一個與汽車無關的背景區域應該是一個負樣本。較不清楚的是如何標註部分重疊汽車的區域。我們用IoU重疊閾值來解決這個問題,在這個閾值以下的區域被定義為負樣本。重疊閾值0.3是通過在驗證集上嘗試了0,0.1,…,0.50,0.1,…,0.5的不同閾值選擇出來的。我們發現選擇這個閾值是很重要的。將其設定為0.5,如9,mAP會降低5個點。同樣,將其設定為0會將mAP降低4個點。正樣本被簡單地定義為每個類的檢測框真值。

一旦提取了特徵並應用了訓練標籤,我們就可以優化每類線性SVM。由於訓練資料太大記憶體不夠,我們採用標準的難分樣本挖掘方法19 30。難分樣本挖掘可以快速收斂,實際上所有影象遍歷一邊,mAP就停止增長了。

附錄B中,我們將討論為什麼在微調與SVM訓練中,正樣本和負樣本的數量不同。我們還討論了涉及訓練檢測SVM的權衡,而不是簡單地使用微調CNN的最終softmax層的輸出。

PASCAL VOC 2010-12上的結果

根據PASCAL VOC最佳實踐3,我們在VOC 2007資料集上驗證了所有設計和超引數(見消融研究)。對於VOC 2010-12資料集的最終結果,我們對VOC 2012 train上對CNN進行了微調,並在VOC 2012 trainval上優化檢測SVM。我們將測試結果提交給評估伺服器,對於兩種主要演算法變體(帶有和不帶有檢測框迴歸)的每一種,都只提交一次。

如下表(表1)所示:(VOC 2010測試的平均檢測精度(%)。 R-CNN與UVA和Regionlets最相似,因為所有方法都使用選擇性搜尋區域提案。檢測框迴歸(BB)在附錄C中描述。在本文釋出時,SegDPM是PASCAL VOC排行榜中表現最好的方法。 †DPM和SegDPM使用其他方法未使用的上下文重排。)

Table 1

我們與其它四種很優秀的方法進行了比較,包括SegDPM31,它將DPM檢測器與語義分割系統的輸出相結合32,並使用了上下文重排。最具可比性的是Uijlings等人的UVA系統16,因為我們的系統使用相同的區域提案演算法。為了對區域進行分類,他們的方法構建了一個四級空間金字塔,並用密集取樣的SIFT((擴充套件對準SIFT和RGB-SIFT描述符,每個向量用4000字的碼本量化),使用直方圖交叉核心SVM進行分類。與其多特徵非線性核心SVM方法相比,我們將mAP從35.1%提高到了53.7%,同時也快得多(見測試)。我們的方法在VOC 2011/12測試中實現了接近的效能(53.3%的mAP)。

ILSVRC2013檢測結果

我們使用與PASCAL VOC相同的系統超引數,在200類的ILSVRC2013檢測資料集上執行R-CNN。我們遵循相同的原則,僅提交測試結果給ILSVRC2013評估伺服器兩次,一次有檢測框迴歸,一次沒有。

Figure 3

上圖(圖3)比較了R-CNN與ILSVRC 2013競賽中的結果以及競賽後提交的OverFeat結果18。 R-CNN達到了31.4%的mAP,遠超過OverFeat的24.3%的第二好成績。為了說明不同類別的AP分佈情況,還提供了箱子圖。

下表(表8)中列出了每個類的AP。

Table 8

大多數方法(OverFeat,NEC-MU,UvA-Euvision ,Toronto A和UIUC-IFP)使用卷積神經網路,表明CNN使用方法的差異可以導致結果有很大的差別。

ILSVRC2013檢測資料集中,我們概述了ILSVRC2013檢測資料集,並提供了在執行R-CNN時詳細配置資訊。

視覺化,消融和錯誤模式

視覺化學習到的特徵

第一層卷積核可以直觀視覺化,易於理解8。它們捕獲定向邊緣和相對顏色。瞭解後續層次更具挑戰性。 Zeiler和Fergus在33中提出了一種有視覺吸引力的反捲積方法。我們提出一個簡單(和補充)非引數方法,直接顯示網路學到的內容。

這個想法是在網路中列出一個特定的單元(特徵),並將其用作它自己的目標檢測器。也就是說,我們在大量的區域提案(約1000萬)中計算這個單元的啟用,將提案按啟用從大到小排序,然後執行非極大值抑制,然後顯示啟用最大的提案。通過準確顯示它激活了哪些輸入,我們的方法讓所選單元“自己說話”。我們避免平均,以看到不同的視覺模式,並深入瞭解這個單元計算的不變性。

我們可以看到來自pool5pool5的單元,這是網路第五,也是最終卷積層的最大池化輸出。pool5pool5的特徵圖維度是6×6×256=92166×6×256=9216。忽略邊界效應,每個pool5pool5單元在原始227×227227×227畫素輸入中具有195×195195×195畫素的感受野。位於中央的pool5pool5單元具有幾乎全域性的視野,而靠近邊緣的則有一個較小的裁剪的視野。

Figure 4

如上圖(圖4,六個pool5pool5單元的啟用最大的區域。感受野和啟用值以白色繪製。某些單元與概念對齊,例如人(第1行)或文字(第4行)。其它單元捕獲紋理和材料屬性,如點陣列(第2行)和鏡面反射(第6行)。)中的每一行都顯示了在VOC 2007 trainval上進行微調的CNN中的pool5pool5單元的前16個最大啟用的區域,包括256個功能獨特的單元中有6個(更多參見附錄D)。選擇這些單位以顯示網路學習的有代表性的樣本。在第二行,我們看到一個在狗臉和點陣列上觸發的單元。與第三行對應的單元是紅色斑點檢測器。還有用於人臉和更抽象圖案的檢測器,例如文字和具有視窗的三角形結構。網路似乎學習了一種將少量類別調諧特徵與形狀,紋理,顏色和材質屬性的分散式表示相結合的表示。隨後的完全連線的層fc6fc6具有對這些豐富特徵的大量組合進行建模的能力。

消融研究

逐層分析效能,沒有微調。為了瞭解哪些層對於檢測效能至關重要,我們分析了CNN最後三層在VOC 2007資料集上的結果。上一節簡要描述了pool5pool5。最後兩層總結如下。

層fc6fc6完全連線到pool5pool5。為了計算特徵,它將pool5pool5的特徵圖乘以一個4096×92164096×9216的權重矩陣(重構為9216維向量),然後加上一個偏置向量。最後應用ReLU線性整流。

層fc7fc7是網路的最後一層。這是通過將由fc6fc6計算的特徵乘以4096×4096權重矩陣來實現的,並且類似地加上了偏置向量並應用ReLU線性整流。

Table 2

我們首先來看看沒有在PASCAL上進行微調的CNN的結果,即所有的CNN引數僅在ILSVRC 2012上進行了預訓練。逐層分析效能(如上表,表2第1-3行)顯示,fc7fc7的特徵總體上差於fc6fc6的特徵。這意味著可以刪除CNN引數的29%或約1680萬,而不會降低mAP。更令人驚訝的是,即使使用僅6%的CNN引數來計算pool5pool5特徵,除去fc7fc7和fc6fc6也產生相當好的結果。 CNN的大部分表達能力來自其卷積層,而不是來自於更密集的全連線層。這一發現表明通過僅使用CNN的卷積層來計算任意大小影象的類似HOG意義上的密集特徵圖的潛在實用性。這種表示方式可以在pool5pool5特徵之上實現包括DPM在內的滑動視窗檢測器。

逐層分析效能,微調。現在我們來看看在PASCAL上進行微調的CNN的結果。改善情況引人注目(表2第4-6行):微調使mAP提高8.0個百分點至54.2%。對於fc6fc6和fc7fc7,微調的提升比對pool5pool5大得多,這表明從ImageNet中學習的pool 5特性是一般性的,並且大多數改進是從學習域特定的非線性分類器獲得的。

與近期特徵學習方法的比較。近期在PAS-CAL VOC檢測中已經開始嘗試了一些特徵學習方法。我們來看兩種最新的基於DPM模型的方法。作為參考,我們還包括基於標準HOG的DPM的結果20

第一個DPM特徵學習方法,DPM ST34,使用“草圖表徵”概率直方圖增強了HOG特徵。直觀地,草圖表徵是通過影象片中心的輪廓的緊密分佈。草圖表徵概率在每個畫素處被隨機森林計算,該森林經過訓練,將35 x 35畫素的影象片分類為150個草圖表徵或背景之一。

第二種方法,DPM HSC35,使用稀疏碼直方圖(HSC)替代HOG。為了計算HSC,使用100個7 x 7畫素(灰度)元素的學習詞典,在每個畫素處求解稀疏程式碼啟用。所得到的啟用以三種方式整流(全部和兩個半波),空間合併,單位L2歸一化,和功率變換(x←sign(x)|x|α)(x←sign(x)|x|α)。

所有R-CNN變體的都優於三個DPM基線(表2第8-10行),包括使用特徵學習的兩個。與僅使用HOG特徵的最新版本的DPM相比,我們的mAP提高了20個百分點以上:54.2%對比33.7%,相對改進61%。HOG和草圖表徵的組合與單獨的HOG相比mAP提高2.5個點,而HSC在HOG上mAP提高了4個點(使用內部私有的DPM基線進行比較,兩者都使用非公開實現的DPM,低於開源版本20)。這些方法的mAP分別達到29.1%和34.3%。

網路架構

本文的大多數結果使用了Krizhevsky等人的網路架構8。然而,我們發現架構的選擇對R-CNN檢測效能有很大的影響。如下表(表3)中所示:(兩種不同CNN架構在VOC 2007檢測測試的平均精度(%)。前兩行是使用Krizhevsky等人的架構(T-Net)的表2的結果。第三和第四行使用Simonyan和Zisserman(O-Net)最近提出的16層架構36。)

Table 3

我們使用Simonyan和Zisserman最近提出的16層深度網路36並給出了VOC 2007測試的結果。該網路是2014年ILSVRC分類挑戰中表現最好的網路之一。網路具有由13層3×33×3卷積核組成的均勻結構,其中散佈五個最大池化層,最後接三個全連線層。我們將該網路稱為“O-Net”即牛津網路,基準稱為“T-Net”即多倫多網路。

檢測錯誤分析

為了揭示我們的方法的錯誤模式,我們應用了Hoiem等人的優秀檢測分析工具22,以瞭解微調如何改變它們,並將我們的錯誤型別與DPM比較。分析工具的完整介紹超出了本文的範圍,可以參考22瞭解更多的細節(如“標準化AP”)。千言萬語不如一張圖,我們在下圖(圖5和圖6)中討論。

Figure 5

最多的假陽性(FP)型別分佈。每個圖表顯示FP型別的演變分佈,按照FP數量降序排列。FP分為4種類型:Loc(定位精度差,檢測框與真值的IoU在0.1到0.5之間或重複的檢測)。Sim(與相似類別混淆)。Oth(與不相似的類別混淆)。BG(檢測框標在了背景上)。與DPM(參見22)相比,我們的Loc顯著增加,而不是Oth和BG,表明CNN特徵比HOG更具區分度。Loc增加的原因可能是我們使用自下而上的區域提案可能產生鬆散的定位位置,以及CNN進行全影象分類的預訓練模型所獲得的位置不變性。第三列顯示了我們的簡單邊界迴歸方法如何修復許多Loc。

Figure 6

對目標特點的敏感度。每個圖顯示六個不同目標特點(遮擋,截斷,邊界區域,縱橫比,視角,區域性可視性)內最高和最低效能的子集的平均值(跨類別)歸一化AP(見22)。我們展示了我們的方法(R-CNN)有或沒有微調(FT)和邊界迴歸(BB)以及DPM voc-release5的圖。總體而言,微調並不會降低敏感度(最大和最小值之間的差異),而且對於幾乎所有的特點,都能極大地提高最高和最低效能的子集的效能。這表明微調不僅僅是簡單地提高縱橫比和邊界區域的最低效能子集的效能(在分析之前,基於我們如何縮放網路輸入而推測)。相反,微調可以改善所有特點的魯棒性,包括遮擋,截斷,視角和區域性可視性。

檢測框迴歸

基於錯誤分析,我們實現了一種簡單的方法來減少定位錯誤。受DPM中使用的檢測框迴歸的啟發19,我們訓練一個線性迴歸模型使用在區域提案上提取的pool5pool5特徵來預測一個新的檢測框。完整的細節在附錄C中給出。表1,表2和圖5中的結果表明,這種簡單的方法解決了大量的定位錯誤,將mAP提高了3到4個點。

定性結果

ILSVRC2013的定性檢測結果如下圖(圖8和圖9)所示:

Figure 8

在val2val2上達到31.0%mAP的配置的檢測結果示例。每個影象都是隨機抽樣的(這些都沒有刻意挑選)。顯示精度大於0.5的所有檢測,並標記了預測的類別和精度。可以放大以看清楚

Figure9

更多示例。詳見圖8說明。

更穩定的結果如下圖(圖10和圖11)所示:

Figure10

Figure11

這些示例是經過挑選的。我們選擇這些影象是因為它們包含有趣的的結果。

ILSVRC2013檢測資料集

用R-CNN進行目標檢測中,我們介紹了ILSVRC2013檢測資料集的結果。該資料集與PASCAL VOC不太一致,需要選擇如何使用它。由於這些選擇不是顯而易見的,我們將在這一節中介紹這些選擇。

資料集概述

ILSVRC2013檢測資料集分為三組:訓練(395,918),驗證(20,121)和測試(40,152),其中每組的影象數目在括號中。驗證和測試集是從相同的影象分佈中劃分的。這些影象與PASCAL VOC影象中的場景和複雜性(目標數量,雜波量,姿態變異性等)類似。驗證和測試集是詳盡標註的,這意味著在每個影象中,來自所有200個類的所有例項都被標註為邊界框。相比之下,訓練集來自ILSVRC2013分類影象。這些影象具有更多的可變複雜性,並且傾向於是單個位於影象中心的目標的影象。與驗證和測試集不同,訓練集(由於它們的數量很多)沒有詳盡標註。在任何給定的訓練影象中,200個類別的例項可能被標註也可能不被標註。除了這些影象集,每個類都有一組額外的負樣本。負樣本經過人工檢查以確認它們不包含任何相關類的例項。本文沒有使用負樣本。有關如何收集和標註ILSVRC的更多資訊可以在37 38中找到。

這些資料集的分組的性質為訓練R-CNN提供了許多選擇。訓練影象不能用於難負樣本重訓練,因為標註不是很好。負樣本來自哪裡?此外,訓練影象具有不同於驗證和訓練集的分佈。是否應該使用訓練影象,如果是,在什麼程度上?雖然我們還沒有徹底評估大量的選擇,但是我們根據以往的經驗,提出了一個最明顯的路徑。

我們的總體策略是嚴重依賴驗證集,並使用一些訓練影象作為一個輔助正樣本來源。為了使用驗證集進行訓練和驗證,我們將其分成大小大致相等的“val1val1”和“val2val2”集合。由於某些類在val中的數量非常少(最小的只有31個,連110個的一半都不到),所以產生一個近似類間均衡的劃分是很重要的。為此,產生了大量的候選分割,並選擇了最大相對類間不平衡的最小值(相對不平衡度被定義為|a−b|/(a+b)|a−b|/(a+b),其中a和b是兩個集合各自的類計數)。每個候選分裂是通過使用其類計數作為特徵聚類的驗證集影象來生成的,然後是是一個可以改善劃分平衡度的隨機區域性搜尋。這裡使用的特定劃分具有約11%的最大相對類間不平衡和4%的中值相對類間不平衡。val1val1/val2val2劃分和用於生產它們的程式碼將被公開提供,以允許其他研究人員將他們的方法與在本文中使用的驗證集劃分方法進行比較。

區域提案

我們遵循用於PASCAL檢測的區域提案方法。選擇性搜尋16在val1val1,val2val2中的每個影象上以“快速模式”執行,並進行測試(但不是在訓練影象上)。需要一個小的修改來處理選擇性搜尋不是尺度不變的,所以需要產生的區域數量取決於影象解析度。 ILSVRC的影象尺寸範圍從非常小到少量幾百萬畫素的影象,因此我們在執行選擇性搜尋之前,將每個影象的大小調整為固定的寬度(500畫素)。在驗證集上,選擇性搜尋在每個影象上平均有2403個區域提案,檢測框真值(以0.5 IoU閾值)的召回率91.6%。這一召回率明顯低於PASCAL的約98%,表明該區域提案階段有明顯的改善空間。

訓練資料

對於訓練資料,我們形成了一套影象和方框,其中包括val1val1的所有選擇性搜尋和檢測框真值,以及訓練集中每個類別最多N個檢測框真值(如果一個類別的檢測框真值數少於N個,那就有多少用多少)。我們將把這個資料集稱為val1+trainNval1+trainN。在消融研究中,我們給出了N∈{0,500,1000}的val2val2上的mAP(見消融實驗)。

R-CNN中的三個階段需要訓練資料:(1)CNN微調,(2)檢測器SVM訓練(3)檢測框迴歸訓練。使用與用於PASCAL的完全相同的設定,在val1+trainNval1+trainN上進行50k次SGD迭代以微調CNN。使用Caffe在一塊NVIDIA Tesla K20上微調花了13個小時。對於SVM訓練,使用來自val1+trainNval1+trainN的所有檢測框真值作為各自類別的正樣本。對來自val1val1的5000張(大約一半)隨機選擇的影象的子集執行難負樣本重訓練。最初的實驗表明,難負樣本重訓練僅使mAP下降了0.5個百分點,同時將SVM訓練時間縮短了一半。沒有從訓練集中取樣負樣本,因為沒有詳盡標註。沒有額外的經過確認的負樣本。檢測框迴歸器在val1val1訓練。

驗證和評估

在將結果提交給評估伺服器之前,我們使用上述訓練資料驗證了資料使用選擇、微調和檢測框迴歸對val 2集的影響。所有系統超引數(例如,SVM C超引數,區域縮放中使用的邊界填充,NMS閾值,檢測框迴歸超引數)固定為與PASCAL相同的值。毫無疑問,這些超引數選擇中的一些對ILSVRC來說稍微不太理想,但是這項工作的目標是在沒有廣泛資料集調優的情況下,在ILSVRC上產生初步的R-CNN結果。在選擇val2val2上的最佳配置後,我們提交了兩個結果檔案到ILSVRC2013評估伺服器。第一個沒有檢測框迴歸,第二個有檢測框迴歸。對於這些提交,我們擴充套件了SVM和檢測框迴歸訓練集,分別使用val+train1kval+train1k和valval。我們在val1+train1kval1+train1k上微調CNN來避免重新執行微調和特徵計算。

消融實驗

如下表(表4)所示:(ILSVRC2013上的資料使用選擇、微調和邊界迴歸消融研究。)

Table 4

第一個觀察是,val2val2上的mAP與測試集上的mAP非常接近。這使我們有信心相信,val2val2上的mAP是測試集效能的良好指標。第一個結果是20.9%,是在ILSVRC2012分類資料集上預訓練的CNN(無微調)並允許訪問val1val1中少量訓練資料的R-CNN實現(val1val1中一半的類別,每個類有15到55個樣本)。將訓練集擴充套件到val1+trainNval1+trainN將效能提高到24.1%,N = 500和N = 1000之間基本上沒有差異。使用僅從val1val1的樣本微調CNN可以稍微改善到26.5%,但是由於用於訓練的正樣本較少,可能會出現嚴重的過擬合。將用於微調的資料擴充套件到val1+train1kval1+train1k,相當於每個類增加了100個正樣本用於訓練,有助於將mAP顯著提高至29.7%。檢測框迴歸將結果提高到31.0%,這與PASCAL中所觀察到的收益相比較小。

與OverFeat的關係

R-CNN和OverFeat之間有一個有趣的關係:OverFeat可以看作(大致上)是R-CNN的一個特例。如果用一個多尺度的正方形區域的金字塔取代選擇性搜尋區域提案,並將每個類別的檢測框迴歸器改變為一個單一的檢測框迴歸函式,則兩個系統將是非常相似的(訓練上有一些潛在的顯著差異:CNN微調、使用SVM等)。值得注意的是,OverFeat比R-CNN具有顯著的速度優勢:根據18引用的圖中顯示每張影象2秒,速度約為RCNN的9倍。這種速度來自於OverFeat的滑動視窗(即區域提案)在影象級別沒有縮放的事實,因此可以在重疊視窗之間輕鬆共享計算。通過在任意大小的輸入上以卷積方式執行整個網路來實現共享。加快R-CNN的速度應該應該有很多可行的辦法,未來的工作中將會考慮。

語義分割

區域分類是語義分割的基礎,這使我們可以輕鬆地將R-CNN應用於PASCAL VOC分割挑戰。為了便於與當前領先的語義分割系統(稱為“二階池化”的O2PO2P)32的直接比較,我們在其開源框架內修改。O2PO2P使用CPMC為每個影象生成150個區域提案,然後使用支援向量迴歸(SVR)來預測對於每個類別的每個區域的質量。他們的方法的高效能是由於CPMC區域的高質量和強大的多種特徵型別(SIFT和LBP的豐富變體)的二階池化。我們還注意到,Farabet等39最近使用CNN作為多尺度畫素級分類器在幾個密集場景標記資料集(不包括PAS-CAL)上取得了良好的結果。

我們遵循40 32並擴充套件PASCAL分割訓練集,以包含Hariharan等提供的額外註釋41。在VOC 2011驗證集上,交叉驗證我們的設計決策和超引數。最終測試結果僅提交一次。

用於分割的CNN特徵。我們評估了在CPMC區域上計算特徵的三個策略,所有這些策略都是將區域縮放為227 x 227。第一個策略(full)忽略了該區域的形狀,並直接在縮放後的區域上計算CNN特徵,就像我們縮放區域提案那樣。然而,這些特徵忽略了區域的非矩形形狀。兩個區域可能具有非常相似的邊界框,同時具有非常小的重疊。因此,第二個策略(fg)僅在區域的前景掩碼上計算CNN特徵。我們用影象均值替換背景,使得背景區域在減去影象均值後為零。第三個策略(full + fg)簡單地連線full和fg特徵。我們的實驗驗證了它們的互補性。

VOC 2011結果。如下表(表5)所示:(在VOC 2011驗證集上的平均分割精度。第一列是O2PO2P的結果,2-7列是我們在ILSVRC 2012上預訓練的CNN的結果)

Table 5

每個類別的完整結果參見附錄E。在每種特徵計算策略中,fc6fc6總是超過fc7fc7,以下討論是指fc6fc6的特徵。fg策略稍微優於full,表明掩碼區域的形狀提供了更強的訊號,與我們的直覺相匹配。然而,full + fg的平均準確度達到47.9%,比我們的fg最佳結果高4.2%(也略勝於O2PO2P),表明full特徵提供大量的資訊,即使給定fg特徵。值得注意的是,在full + 特徵上使用一個CPU核心訓練20個SVR需要花費一個小時,相比之下,在O2PO2P特徵上訓練需要10個多小時。

如下表(表6)所示:(在VOC 2011 測試集上的分割精度。我們與兩個強大的基線做對比:“Regions and Parts”(R&P)40和O2PO2P32。沒有微調。我們的CNN實現了優異的分割效能,超過了R&P,與O2PO2P差不多)

Table 6

我們提供了VOC 2011測試集的結果,將我們的最佳表現方法fc6fc6(full + fg)與兩個強大的基線進行了比較。我們的方法在21個類別中的11箇中達到了最高的分割精度,最高的分割精度為47.9%,跨類別平均(但可能與任何合理的誤差範圍內的O2PO2P結果有關)。微調可能會實現更好的效能。

結論

近年來,物體檢測效能停滯不前。效能最好的系統是複雜的組合,將多個低階影象特徵與來自物體檢測器和場景分類器的高階語境相結合。本文提出了一種簡單且可擴充套件的物件檢測演算法,相對於PASCAL VOC 2012上的前最佳結果,相對改進了30%。

我們通過兩個關鍵的改進實現了這一效果。第一個是將大容量卷積神經網路應用於自下而上的區域提案,以便定位和分割物件。第二個是在有標記的訓練資料很少的情況下訓練大型CNN的方法。我們發現,通過使用大量的影象分類資料對輔助任務進行有監督的預訓練,然後對資料稀缺的目標檢測任務進行微調,是非常有效的。我們相信,“監督的預訓練/領域特定的微調”的方法對於各種資料缺乏的視覺問題都將是非常有效的。

我們通過使用計算機視覺中的經典工具與深度學習(自下而上的區域提案和卷積神經網路)的組合達到了很好的效果。而不是僅僅依靠純粹的科學探究。

致謝:該研究部分由DARPA Mind的Eye與MSEE專案支援,NSF授予了IIS-0905647,IIS-1134072和IIS-1212798,以及豐田支援的MURI N000014-10-1-0933。本研究中使用的GPU由NVIDIA公司慷慨捐贈。

附錄

A.目標區域提案縮放

本文中使用的卷積神經網路需要227×227227×227畫素的固定大小輸入。為了檢測,我們認為目標提案是任意矩形的影象。我們評估了將目標提案轉換為有效的CNN輸入的兩種方法。

如下圖(圖7)所示:

Figure 7

第一個方法將目標提案擴充為正方形並縮放到所需大小,如圖7(B)所示。這種方法還有一種變體,僅擴充為方框,擴充部分不填充影象內容,如圖7(C)所示。第二種方法是將目標提案不保留橫縱比的情況下縮放到所需大小,如圖7(D)所示。

對於這些轉換中的每一個,我們還考慮在原始目標提案四周包括附加影象內容。內容填充的量(pp)被定義為在縮放後圖像中,原始目標提案周圍的邊界大小。圖7顯示了每個示例的頂行中p=0p=0畫素,底行中p=16p=16畫素。在所有方法中,如果矩形框超出影象邊緣,超出的部分將被填充為影象均值(然後在將影象輸入到CNN之前減去)。一組實驗表明,採用上下文填充(p=16p=16畫素)的縮放可以明顯提高mAP(提高3-5個點)。顯然還有更多其它可行的方案,包括使用複製而不是平均填充。對這些方案的詳盡評估將作為未來的工作。

B.正負樣本和Softmax

有兩個設計選擇值得進一步討論。第一個是:為什麼在微調CNN和訓練目標檢測SVM時定義的正負樣本不同?首先簡要回顧下正負樣本的定義,對於微調,我們將每個目標提案對映到它具有最大IoU重疊(如果有的話)的檢測框真值上,如果其IoU至少為0.5,並將其標記為對應類別的正樣本。剩下的提案都標記為“背景”(即所有類的負樣本)。對於訓練SVM,相比之下,我們只採用檢測框真值作為各自類別的正樣本。與某一類別所有的正樣本的IoU都小於0.3的目標提案將被標記為該類別的負樣本。其它(IoU超過0.3,但不是檢測框真值)的提案被忽略。

從時序上講,我們得出這些定義是因為我們一開始通過由ImageNet預先訓練的CNN計算出的特徵訓練SVM,因此微調在這個時間點不是一個需要考慮因素。在這種情況下,我們發現,在我們評估的一組設定(包括我們現在用於微調的設定)中,我們當前使用的訓練SVM的設定是最佳的。當我們開始使用微調時,我們最初使用與我們用於SVM訓練的正負樣本的定義相同的定義。然而,我們發現結果比使用我們當前定義的正負樣本獲得的結果差得多。

我們的假設是,如何定義正負樣本的差異對訓練結果影響不大,結果的差異主要是由微調資料有限這一事實引起的。我們目前的方案引入了許多“抖動”的樣本(這些提案與檢測框真值的重疊在0.5和1之間,但並不是檢測框真值),這將正樣本的數量增加了大約30倍。我們推測,需要使用如此大量的樣本以避免在微調網路時的過擬合。然而,我們還注意到,使用這些抖動的例子可能不是最佳的,因為網路沒有被微調以進行精確的定位。

這導致了第二個問題:為什麼微調之後,訓練SVM呢?簡單地將最後一層微調網路(21路Softmax迴歸分類器)作為物件檢測器將變得更加簡潔。我們嘗試了這一點,發現VOC 2007的表現從54.2%下降到了50.9%的mAP。這種效能下降可能來自幾個因素的組合,包括微調中使用的正樣本的定義不強調精確定位,並且softmax分類器是在隨機抽樣的負樣本上訓練的,而不是用於訓練SVM的“更嚴格的負樣本”子集。

這個結果表明,微調之後可以獲得接近SVM水平的效能,而無需訓練SVM。我們推測,通過一些額外的調整來微調以達到更接近的水平。如果是這樣,這樣可以簡化和加速R-CNN訓練,而不會在檢測效能方面有任何損失。

C.檢測框迴歸

我們使用一個簡單的檢測框迴歸來提高定位效能。在使用類特定檢測SVM對每個選擇性搜尋提案進行評分之後,我們使用類別特定的邊界迴歸器預測新的檢測框。這與在可變部件模型中使用的檢測框迴歸相似19。這兩種方法之間的主要區別在於,我們使用CNN計算的特徵迴歸,而不是使用在推測的DPM部件位置上計算的幾何特徵。

我們的訓練演算法的輸入是一組NN個訓練對(Pi,Gi)i=1,…,N(Pi,Gi)i=1,…,N,其中Pi=(Pix,Piy,Piw,Pih)Pi=(Pxi,Pyi,Pwi,Phi)指定提案PiPi的邊界框中心的畫素座標以及寬度和高度(以畫素為單位)。注意,除非需要,下文中我們不再寫出上標ii。每個檢測框真值GG以相同的方式指定:G=(Gx,Gy,Gw,Gh)G=(Gx,Gy,Gw,Gh)。我們的目標是學習將提案框PP對映到檢測框真值G的轉換。

我們使用四個函式dx(P)dx(P),d(yP)d(yP),d(Pw)d(Pw)和dh(P)dh(P)引數化這個轉換。前兩個指定PP的邊界框的中心的比例不變的平移,後兩個指定PP的邊界框的寬度和高度的對數空間轉換。在學習了這些函式後,我們可以通過應用轉換將輸入提案P轉換成預測的檢測框真值GˆG^。Gˆx=Pwdx(P)+Px(1)(1)G^x=Pwdx(P)+Px

Gˆy=Phdy(P)+Py(2)(2)G^y=Phdy(P)+Py

Gˆw=Pwexp(dw(P))(3)(3)G^w=Pwexp(dw(P))

Gˆh=Phexp(dh(P))(4)(4)G^h=Phexp(dh(P))

每個函式d⋆(P)d⋆(P)(⋆⋆表示x,y,w,hx,y,w,h中的一個)都建模為提案PP的pool5pool5特徵(記為ϕ5(P)ϕ5(P),對影象資料的依賴隱含的假定)的線性函式。即d⋆(P)=wT⋆ϕ5(P)d⋆(P)=w⋆Tϕ5(P),其中w⋆w⋆表示模型和訓練引數的一個向量,通過優化正則化最小二乘法的目標(脊迴歸)來學習w⋆w⋆。w⋆=argminwˆ⋆∑Ni(ti⋆−wˆT⋆ϕ5(Pi))2+λ‖‖wˆ⋆‖‖2(5)(5)w⋆=argminw^⋆∑iN(t⋆i−w^⋆Tϕ5(Pi))2+λ‖w^⋆‖2

訓練對(P,G)(P,G)的迴歸目標t⋆t⋆定義為:tx=(Gx−Px)/Pw(6)(6)tx=(Gx−Px)/Pw

ty=(Gy−Py)/Ph(7)(7)ty=(Gy−Py)/Ph

tw=log(Gw/Pw)(8)(8)tw=log⁡(Gw/Pw)

th=log(Gh/Ph)(9)(9)th=log⁡(Gh/Ph)

作為標準正則化最小二乘問題,可以有效的找到封閉解。

我們在實現邊界迴歸的過程中發現了兩個微妙的問題。第一是正則化是重要的:我們基於驗證集,設定λ=1000λ=1000。第二個問題是,選擇使用哪些訓練對(P,G)(P,G)時必須小心。直觀地說,如果PP遠離所有的檢測框真值,那麼將PP轉換為檢測框真值G的任務就沒有意義。使用像PP這樣的例子會導致一個無望的學習問題。因此,只有當提案PP至少在一個檢測框真值附近時,我們才執行學習任務。“附近”即,將PP分配給具有最大IoU的檢測框真值G(在重疊多於一個的情況下),並且僅當重疊大於閾值(基於驗證集,我們使用的閾值為0.6)。所有未分配的提案都被丟棄。我們為每個目標類別執行一次,以便學習一組特定於類別的檢測框迴歸器。

在測試時,我們對每個提案進行評分,並預測其新的檢測框一次。原則上,我們可以迭代這個過程(即重新評估新預測的檢測框,然後從它預測一個新的檢測框,等等)。但是,我們發現迭代不會改進結果。

D.額外的特徵視覺化

如下圖(圖12)所示:(我們展示在VOC 2007測試的大約1000萬個區域中的啟用最大的24個區域提案,分別最強烈地激活了20個單元。每一組以單元在6 x 6 x 256維的pool5pool5特徵圖中的(y,x,channel)(y,x,channel)位置標記。每個影象區域都用白色疊加繪製了單元感受野。啟用值(我們通過除以通道中的所有單位的最大啟用值進行歸一化)被顯示在感受野的左上角。可通過放大來看清楚。)

Figure 12

圖中顯示了額外20個pool5pool5單元的視覺化。對於每個單元,我們展示在VOC 2007測試的大約1000萬個區域中的啟用最大的24個區域提案。

每一組以單元在6 x 6 x 256維的pool5pool5特徵圖中的(y,x,channel)(y,x,channel)位置標記。在每個通道內,CNN使用相同的函式計算不同的輸入,(y,x)(y,x)位置僅改變感受野。

E.每個類別的分割結果

如下表(表7)所示:(VOC 2011驗證集上每一類的分割準確率)

Table 7

除了O2PO2P32方法之外,我們還給出了我們的六種分割方法在VOC 2011 val上每個類別的分割精度。包括背景類,這些結果顯示了在20個PASCAL類中哪種方法最強。

F.跨資料集冗餘分析

對輔助資料集進行訓練時,一個問題是它與測試集之間可能存在冗餘。由於目標檢測和整影象分類的任務大不相同,使得這種交叉冗餘沒那麼令人擔憂,我們仍然進行了調查,以量化PASCAL測試集被包含在ILSVRC 2012訓練和驗證集中的程度。對於有興趣使用ILSVRC 2012作為PASCAL影象分類任務的訓練資料的研究人員,我們的研究結果可能是有用的。

我們對重複(和近似重複)的影象進行了兩次檢查。第一個測試是基於Flickr影象ID的完全匹配,它們包含在VOC 2007測試集的標註中(在後續的PASCAL測試集中這些ID有意保密)。所有PASCAL影象,以及大約一半的ILSVRC,都是從flickr.com收集的。在4952中有31個匹配(0.63%)。

第二個檢查使用GIST42描述符匹配,如43所示,在大型(> 100萬)影象集合中的近似重複影象檢測中具有出色的效能。按照43所述,我們計算了所有ILSVRC 2012 trainval和PASCAL 2007測試集的影象的縮放到32×3232×32畫素版本的GIST描述符。

GIST描述符的歐幾里德距離最近鄰匹配找出了38個近似重複的影象(包括由flickr ID匹配發現的所有31個)。這些匹配在JPEG壓縮級別和解析度方面略有不同,裁剪程度也較小。這些研究結果表明,冗餘很小,小於1%。對於VOC 2012,因為flickr ID不可用,我們僅使用GIST匹配方法。基於GIST匹配,VOC 2012測試影象中有1.5%與ILSVRC 2012匹配。 VOC 2012略高可能是由於兩個資料集在時間上比VOC 2007和ILSVRC 2012更接近。

G. 檔案更新日誌

本文件跟蹤R-CNN的進展情況。為了幫助讀者瞭解它隨時間的變化,這裡是一個描述修訂版本的簡短的更新日誌。

v1 初始版本。

v2 CVPR 2014 camera-ready版本。包括檢測效能的實質性改進(1)從高學習率開始微調(0.001而不是0.0001),(2)在準備CNN輸入時使用上下文填充,(3)檢測框迴歸來修正定位錯誤。

v3 ILSVRC2013檢測資料集的結果,與OverFeat比較的結果被新增到了文中。

v4 附錄B中softmax vs. SVM的結果包含一個已經修復的錯誤。我們感謝Sergio Guadarrama幫助確定這個問題。

v5 添加了使用Simonyan和Zisserman36的新的16層網路架構的結果。

參考文獻:

  1. D. Lowe. Distinctive image features from scale-invariant keypoints. IJCV, 2004.
  2. N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005.
  3. M. Everingham, L. Van Gool, C. K. I. Williams, J. Winn, and A. Zisserman. The PASCAL Visual Object Classes (VOC) Challenge. IJCV, 2010. ↩2
  4. K. Fukushima. Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position. Biological cybernetics, 36(4):193–202, 1980.
  5. D. E. Rumelhart, G. E. Hinton, and R. J. Williams. Learning internal representations by error propagation. Parallel Distributed Processing, 1:318–362, 1986.
  6. Y. LeCun, B. Boser, J. Denker, D. Henderson, R. Howard, W. Hubbard, and L. Jackel. Backpropagation applied to handwritten zip code recognition. Neural Comp., 1989.
  7. Y. LeCun, L. Bottou, Y. Bengio, and P. Haffner. Gradient-based learning applied to document recognition. Proc. of the IEEE, 1998.
  8. A. Krizhevsky, I. Sutskever, and G. Hinton. ImageNet classification with deep convolutional neural networks. In NIPS, 2012. ↩2 ↩3

    相關推薦

    論文翻譯R-CNN

    Rich feature hierarchies for accurate object detection and semantic segmentation Tech report (v5) Ross Girshick Jeff Donahue Trevo

    論文翻譯Faster R-CNN

    Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks Shaoqing Ren, Kaiming He, Ross Girshick, and Jian S

    論文翻譯Fast R-CNN

    Fast R-CNN Ross Girshick Microsoft Research [email protected] 摘要 本文提出了一種快速的基於區域的卷積網路方法(fast R-CNN)用於目標檢測。Fast R-CNN建立在以

    論文翻譯Mask R-CNN

    Mask R-CNN Kaiming He Georgia Gkioxari Piotr Dolla ́r Facebook AI Research (FAIR) Ross Girshick 摘要 我們提出了一個概念上簡單,靈活和通用的目標分割框架。我們

    論文翻譯ResNet論文中英對照翻譯--(Deep Residual Learning for Image Recognition)

    【開始時間】2018.10.03 【完成時間】2018.10.05 【論文翻譯】ResNet論文中英對照翻譯--(Deep Residual Learning for Image Recognition) 【中文譯名】深度殘差學習在影象識別中的應用 【論文連結】https://arx

    論文翻譯中英對照翻譯--(Attentive Generative Adversarial Network for Raindrop Removal from A Single Image)

    【開始時間】2018.10.08 【完成時間】2018.10.09 【論文翻譯】Attentive GAN論文中英對照翻譯--(Attentive Generative Adversarial Network for Raindrop Removal from A Single Imag

    [論文翻譯] Fast R-CNN

    摘要 本文提出了一種快速的基於區域的卷積網路方法(fast R-CNN)用於目標檢測。Fast R-CNN建立在以前使用的深卷積網路有效地分類目標的成果上。相比於之前的成果,Fast R-CNN採用了多項創新提高訓練和測試速度來提高檢測精度。Fast R-CN

    論文翻譯ADVIO: An Authentic Dataset for Visual-Inertial Odometry

    ADVIO: An Authentic Dataset for Visual-Inertial Odometry 該資料集的特點:使用iPhone手機採集、真實複雜場景、對比現有商用和學術研究VIO系統性能 【摘要】對於行人場景的VIO的研究,由於缺少真實和公開的基準資料

    滑動窗加速方法——程明明bing演算法論文翻譯

    BING: Binarized Normed Gradients for Objectness Estimation at 300fps Ming-Ming Cheng, Ziming Zhang, Wen-Yan Lin, Philip Torr, IEEE CVPR

    論文翻譯NIN層論文中英對照翻譯--(Network In Network)

    multipl 全球 itself 展示 假設 intro this muti function 【論文翻譯】NIN層論文中英對照翻譯--(Network In Network) 【開始時間】2018.09.27 【完成時間】2018.1

    論文閱讀(Chenyi Chen——ACCV2016R-CNN for Small Object Detection)

    數據 大小 table 使用 con 改進 包括 end 修改 Chenyi Chen——【ACCV2016】R-CNN for Small Object Detection 目錄 作者和相關鏈接 方法概括 創新點和貢獻 方法細節 實驗結果 總結與收獲點 參考文獻

    論文解析Cascade R-CNN: Delving into High Quality Object Detection

    論文連結 CVPR2018的文章。和BPN一樣,本文主要關注的是目標檢測中IoU的閾值選取問題,但是BPN主要針對的是SSD等single-stage的detector,感興趣的童鞋可以看我的另一篇博文BPN 目標檢測中,detector經常是用低IoU閾值來train的,如果提高IoU閾值

    論文筆記Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks

    寫在前面:      我看的paper大多為Computer Vision、Deep Learning相關的paper,現在基本也處於入門階段,一些理解可能不太正確。說到底,小女子才疏學淺,如果有錯

    技術翻譯支持向量機簡明教程及其在python和R下的調參

    sel machine 線性 線上 ont 投影 vars 不一定 .cn 原文: Simple Tutorial on SVM and Parameter Tuning in Python and R 介紹 數據在機器學習中是重要的一種任務,支持向量機(SVM)

    論文解析MTCNN論文要點翻譯

    目錄 @ 0.論文連線 點選開啟 1.前言 MTCNN是一篇關於人臉檢測演算法效果很不錯的論文,落地效果也很好,據我所知有不少公司在用這個演算法做人臉檢測。 2.論文Abstract翻譯 在無約束環境下,人臉的檢測與對齊對於不同的姿勢,燈光和遮擋是非常有挑戰性的。近期的學術研究證明了深度學習方法在這兩個任務

    筆記R-CNN:Rich feature hierarchies for Accurate Object Detection and Segmentation

    基於R-CNN的物體檢測 一、相關理論 本篇博文主要講解2014年CVPR上的經典paper:《Rich feature hierarchies for Accurate Object Detection and Segmentation》,這篇文章的演算法思想又被稱之為

    第六期 OSI七層簡述和基礎知識英語翻譯

    數據鏈路 一個 live bit ftp 查看本機 mask 文件 序列 OSI 7 層 1 - 物理層2 - 數據鏈路層3 - 網絡層編址和路由4 - 傳輸層提供端到端的數據連接(端,就是端口的端)TCPUDP 5 - 會話層(系統內部實現機制,數據包中無法體現出來)6

    論文筆記T Test

    nor thum pan n-1 統計學 for nes 其它 align 用來算兩組數的差別大小 只要是一種叫做p-value的 就是說假如你測定一個實驗的p-value是5%也就是說你有95%的信心確定這個實驗它是正確的在正規的實驗裏 只有當p-value小於5%的時候

    深度學習Tensorflow——CNN 卷積神經網路 2

    轉自https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/5-05-CNN3/ 目錄 圖片處理  建立卷積層  建立全連線層  選優化方法  完整程式碼

    深度學習Tensorflow——CNN 卷積神經網路 1

    轉自https://morvanzhou.github.io/tutorials/machine-learning/tensorflow/5-04-CNN2/ 這一次我們會說道 CNN 程式碼中怎麼定義 Convolutional 的層和怎樣進行 pooling. 基於上一次卷積神經網路的介