1. 程式人生 > >論文翻譯 DOTA:A Large-scale Dataset for Object Detection in Aerial Images

論文翻譯 DOTA:A Large-scale Dataset for Object Detection in Aerial Images

網絡 操作 邊框 允許 官方 靈活 數量級 image 轉化

簡介:武大遙感國重實驗室-夏桂松和華科電信學院-白翔等合作做的一個航拍圖像數據集

摘要

目標檢測是計算機視覺領域一個重要且有挑戰性的問題。雖然過去的十幾年中目標檢測在自然場景已經有了較重要的成就,但在遙感圖像上卻進展緩慢,原因不僅僅體現在圖像規模的龐大及多樣性、物體定位問題和地球表面物體實例的形狀檢測上,還因為遙感場景中具有良好註釋的數據集過於匱乏。為了推進在Earth Vision,又稱Earth Observation and Remote Sensing上的目標檢測的研究,我們引進在遙感圖像目標檢測領域的一個大規模數據集。截至目前,我們從不同的傳感器和平臺眾包收集了2806個航拍圖像,每一個圖像是(大小約4000*4000),目標涵蓋了各種各樣的規模、位置、形狀。這些圖像被遙感領域的專家註釋並被分為15個目標類別,註釋後的完整數據集圖像包括188282個實例,每一個被一個任意四邊形標記。為了在Earth Vision上完成目標檢測的一個baseline,我們在DOTA上使用最先進水平的目標檢測算法。實驗說明了DOTA數據集可以很好的表示出Earth Vision應用軟件並且具有挑戰性

背景介紹

在Earth Vision上的目標檢測是指局部化地球表面感興趣的物體,如交通工具、飛機等,然後預測他們所屬的類別。在傳統的數據集上,物體的位置通常由於重力而呈現出一種整體向下的狀態,相較於傳統數據集來說,航拍的數據集圖像常常處於各種各樣奇奇怪怪的位置上,比如圖一所示,這取決與航拍的平臺的視角。

隨著計算機視覺領域的已有的最新進展和Earth Vision應用的高需求,有大量的研究已經圍繞著航拍圖像開展。這些方法中絕大部分嘗試著將原有的目標檢測算法從自然場景中轉化到遙感圖像領域。最近,由於受到基於深度學習的目標檢測算法成功的鼓舞,Earth Vision的研究者們繼續追逐處理遙感圖像數據,進行了基於網絡的微小調整,使之在大規模數據訓練中有所改善。當此種微調的處理方式成為一種較為可行的探索途徑時,一些圖像如圖片1,在一些方面揭示了航拍圖像目標檢測任務和傳統目標檢測任務的清晰區別

l 航拍圖像目標檢測的實例數量級更大。這不僅僅因為傳感器的空間分辨率,也因為同一種物體目錄下大小發生了變換

l 許多小物體實例在航拍圖像中是聚集在一起的。比如說海港裏的船只和停車場裏的車輛,如圖一所示。此外 航拍圖像中物體出現的頻率是非常不平衡的,比如一些小型的圖像1k*1K中可能包含1900個實例,而一些大圖4K*4K中可能只包含少數的小實例。

l 航拍圖像中物體常常以任意的位置出現,有一些實例常常有著比較誇張的縱橫比,比如說一座橋。

除了這些清楚明白的困難外,在Earth Vision的目標檢測研究還面臨著一些位置的數據集偏差問題,比如數據集的普遍性程度很低。為了緩和這些偏差,註釋數據集時應該註意要反映真實世界的應用需求。

因此,不難明白,那些自然場景圖片中習得的目標檢測經驗在航拍圖像中並不適用。但是 ,在航拍圖像的目標檢測中存在註釋好的數據集比如:,嘗試著在理想狀態(清晰的背景,不存在密集分布的實例)下使用圖片,但是這樣並不足以反映復雜問題

1DOTA數據集中的一個例子

(a)DOTA數據集的一個典型圖片包括各種各樣多類別的實例

(b)圖解實例有著多樣化的位置和大小

(c)(d)分別圖解稀疏的實例和聚集的實例,在這裏我們展示DOTA 15個可能類別圖像中的4

(b)(c)(d)中圖像是數據源(a)的裁剪,直方圖(e)(f)表示出DOTA中實例大小和位置的分布規律

l 我們認為,DOTA是Earth Vision中具有多樣性目錄的一個最大的有註釋的數據集,它可以作為用來評價航拍圖像的目標檢測器。我們將會在視野和規模上繼續更新DOTA,來反映不停變化的現實世界條件。

l 我們在DOTA上使用最先進的目標檢測算法作為基準,它也將被作為未來算法改進的基準

為了促進Earth Vision上的目標檢測研究,DOTA也將會在計算機視覺領域對傳統目標檢測提出感興趣的算法問題

需求動機

近年來,在一些依賴數據的研究中,數據集扮演了較為重要的角色,一些數據集比如MSCOCO,在促進目標檢測和圖像捕捉方面很有助力。當涉及到分類問題和場景識別任務時,ImageNet和Places數據集也很好

但是,在航拍目標檢測方面,一個像MSCOCO或是ImageNet的數據集,在圖像數字和細節的註釋上是有缺失的,這也是在Earth Vision上的研究中面臨的主要障礙之一,特別是在使用基於深度學習的算法方面。航拍目標檢測在車輛計算,遠程目標追蹤,和無人駕駛方面是非常有幫助的。因此,一個大規模並富有挑戰的航拍目標檢測基準,盡可能地接近現實世界的應用,是促進這個領域研究工作中不可避免的問題。

我們認為一個好的航拍圖像數據集應該擁有四個性質 1.大量的圖片 2.每一類都有許多實例 3 合適方位的目標註釋 4許多不同類型的物體,使之更接近現實世界應用。但是,已有的航拍數據集都有以下的幾個缺點:不完整的數據、缺乏細節的註釋,低分辨率。此外,它們的復雜性並不足以將之認為是真實世界的反映。

1:航空圖像中DOTA數據集和其他目標檢測數據集的比較。BB是邊界框的縮寫。One-dot是指只註釋所提供實例的中心坐標。更細分的類別則不考慮在內。例如,DOTA15個不同的類別組成,但實際上只有14類,因為大型車輛和小型車輛都屬於車輛目錄下的子目錄。

像TAS [9], VEDAI [24], COWC [20] 等數據集只關註車輛,ucas-aod包含汽車和飛機,HRSC2016只包含船只,雖然有標註細致的分類信息。但所有這些數據集在類別的數量上都是少的,這對它們在復雜場景的泛化適應上有所約束。作為對比,NWPU VHR-10數據集由10種類型的物體組成,而它的總實例數大概只有3000。關於這些已存在的數據集的具體比較細節在表1中給出。我們在第四部分可以看到,對比這些航拍數據集,DOTA具有更龐大的目標實例數目、隨意但是均勻的方向,多樣性的分類目錄和復雜的航拍場景。此外,DOTA數據集中的場景與真實場景更加一致,所以DOTA數據集對於真實世界應用開發來說是更有幫助的

當涉及到普通的目標數據集時,由於龐大的圖片數目、多種多樣的分類和更多的註釋細節,研究者們偏向於選擇ImageNet and MSCOCO。在眾多目標數據集中ImageNet擁有著最大的圖片數目,但是平均下來每張圖片的實例數卻遠遠小於 MSCOCO以及我們的DOTA,加之它必須有清晰背景和被精心選擇過的場景限制。DOTA中的圖片包含很多的目標檢測實例,有一些甚至超過1000個實例。在每張圖片的實例和場景上PASCAL VOC Dataset和ImageNet很相似,但是不充足的圖片數量使得它不適合處理更多的檢測需求。我們的DOTA在實例數量和場景類型方面很像MSCOCO,但是DOTA的分類沒有MSCOC那麽多,因為在航拍圖片中,能被清楚看清的物體是有限的。

此外,在上文提到的大規模普遍目標檢測基準中DOTA數據集的特別之處在於使用OBB方法註釋,OBB可以很好的區分目標物體的離散與聚集,在第三部分詳細描述了使用OBB註釋目標物體的好處。在表2中對DOTA,PASCAL VOC,ImageNet and MSCOCO等的比較,找出不同

2DOTA數據集與其他一般目標檢測數據集的比較。Bbox是邊界框的縮寫,Avg.BBox quantity表示每個圖像的平均邊界框數量。可以看到在DOTA中,每個圖像的平均實例數,DOTA極大地超越了其他數據集。

DOTA數據集的註釋

3.1圖像的收集

正如[5]中提到的那樣,在航拍數據集中,多種多樣的傳感器被使用,是產生數據集偏差的因素,為了消除這些偏差,我們數據集中的數據是由多分辨率多傳感器和多平臺來收集的,如谷歌地球。為了提高數據的多樣性,我們收集的圖片的城市是由圖像判讀方面的專家來挑選的,記錄下精確的地理坐標,來捕捉圖片使得確保沒有重復的圖像

3.2

我們的DOTA數據集註釋選擇了15種類別,包括飛機、船只、儲蓄罐、棒球內場、網球場、籃球場、田徑場、海港、橋、大型車輛、小型車輛、直升飛機、英式足球場、環形路線、遊泳池

目錄類別是由圖像判讀方面的莊家根據目標物體的普遍性和現實世界中的價值型來挑選的,前十個類別在已有的數據集中很普遍,我們保留了下來,除了將交通工具的汽車分為大型和小型,因為兩種類型的汽車在航拍圖像上區別很大。其他的類別主要是由於現實場景的應用。我們選擇直升機是考慮到航拍圖像中運動物體具有重要的意義,迂回路線被選中是因為它在道路分析中具有重要意義。

要不要把“stuff”作為一類是值得探討的,在SUN數據集中,一般說來沒有明確的定義說明什麽是stuff一類,比如海港、機場、停車場。但是,它們提供的語境信息是對檢測有幫助的。我們只采納了海港分類,因為它的邊界容易定義,並且在我們的圖片源信息中有豐富的實例。最後拓展的分類是足球場

在表2我們比較了DOTA和NWPU VHR_10,後者在先前存在的航拍圖像目標檢測數據集中有更多的分類數。順便提一句,DOTA在目錄分類數目和每一類下的實例數目都遠超過了NWPU VHR-10

3.3註釋方法

我們思考了許多不同的註釋方法。在計算機視覺領域,如[12]所說許多視覺概念比如,區域說明,目標,屬性,關系,都可以被一個註釋邊框說明,對邊框的一個普遍描述是(x,y,w,h),(x,y)表示位置,(w,h)是邊框的寬和高。

沒有一定方向的物體可以被這種註釋方式充分註釋。然而,以這種方式標記的邊界框不能精確或緊湊地貼合物體的輪廓,例如航空影像中的文本和物體。如圖3(c)所示的極端但實際的普遍存在情況,和(d)比起來,兩個邊界框之間的重疊是如此之大以至於最先進的對象檢測方法也不能區分它們。為了解決這一問題,我們需要一種其他更適合面向這種有一定方向物體的註釋方法。

一個可能選項是采用基於theta的邊界框,它被應用於一些文本檢測基準(36),即(x,y,w;h,thete),其中theta表示從邊界框與水平方向的夾角度。但這種方法的缺點是依舊不能貼合圍繞住那些不同部分之間可能有較大變形的物體。考慮到航拍圖像中物體的復雜場景和物體的各種方位,我們需要放棄這種方法選擇其他更靈活易懂的方式。一種可供選擇的方法是使用任意四邊形邊界框,它可以被描述為, 其中x,y表示圖像中邊界框頂點們所在的位置。這些頂點按順時針順序排列。這種方法在定向場景的文本檢測中廣泛使用。我們受到這些研究的鼓舞,在註釋物體時使用任意四邊形邊界框的方式

2DOTANWPU VHR10數據集的類別和相應實例數量的比較

3:將所使用的註釋方法的可視化。黃色點代表起點,可以看到不同圖像的起始點位置。(a)飛機的左上角,(b)扇形棒球內場的中心,(c)大車左上角。(d)是水平矩形註釋的失敗案例,與(c)相比,重疊過高

為了進行更加具體的註釋,如圖3所示,我們強調了第一個頂點,即x1,y1的重要性,它通常意味著物體的“首部”。對於直升飛機,大型車輛小型車輛,海港,棒球內場,船只,飛機等分類來說,我們選擇與之豐富的潛在用途有關的點作為起始點,而對於足球場,遊泳池,橋梁,緩行線路,籃球場和網球場來說,視覺上沒有線索可以決定它們的起始點,所以我們通常選擇左上的頂點作為起始點。

我們在圖4中展示了DOTA數據集中一些已經註釋過的例子(不是全部的初始圖像)

值得註意的是,Papadopoulos[22]探索了一種可選擇的註釋方法並驗證了它的效率和魯棒性。我們確信,只要有更多精心設計的註釋方法,這種方法可以變得更加準確更具魯棒性。並且,越來越多可選擇的註釋協議也會促進有效圖像註釋眾包活動。

4DOTA數據集中已註釋的一些圖片樣例。我們在每一分類下選擇3個樣例,大型車輛類別下選擇6

3.4 數據集的劃分

為了保證訓練數據和測試數據的分配可以大致匹配,我們隨意選擇1/2的原始圖像作為訓練集,1/6作為驗證集,1/3作為測試集。

我們將公開帶有ground truth的所有圖像,作為訓練集和驗證集。但是沒有測試集。在測試部分,我們已經創建了一個評價的服務器

DOTA數據集的性能

4.1 圖片大小

航拍圖像比起其他自然場景數據集中的圖像來說,在尺寸方面通常更大。我們數據集的圖像原始尺寸範圍大概為800*800-4000*4000之間,但一般常規數據集如PASCAL_VOC和MSCOCO中大部分圖像不會超過1000*1000。我們將原始圖像註釋而不是分區後的圖像,這樣避免了將一個單獨的完整實例分裂成兩部分。

4.2 具有多種方向的實例

就如圖1(f)中所表示的那樣,我們的數據集在不同方向的實例上有一個很好的平衡,這對於學習訓練一個健壯的檢測器來說有至關重要的幫助。進一步來說,我們的數據集通常從各個角度觀察真實世界的物體,這使得它更加接近真實場景。

-

5DOTA數據集中實例的統計。AR表示縱橫比。(a)水平實例邊界框的ARb)定向實例邊界框的AR。(c)每個圖像註釋後實例的數目直方圖

4.3 空間分辨率信息

對於數據集中的每一張圖像我們提供了空間分分辨率,它表示了一個實例的真實大小,並且在航拍圖像物體檢測中具有重要意義。空間分辨率在物體檢測任務中的重要性分為兩個方面:1.它允許模型檢測相同分類下各種各樣不同的物體的時候變得更加有適應性和魯棒性。我們都知道從遠處看一個物體會顯得比較小,同一個物體的不同尺寸將會影響到模型的分類。然而,使用這種方法,模型可以更關註形狀的分辨率信息從而代替物體的尺寸。

2.使用空間分辨率能更好的進行詳細深入的分類。比如說:從一個大的海港中區分清楚每一個小船只。

在我們的數據集中,空間分辨率還可以被用於過濾錯標註的離群值,因為絕大部分分類的內部定點數據大小是有限制的。在一定的空間分辨率範圍內,通過選擇那些尺寸與其他同分類下物體差別很大物體可以找到離群值。

4.4 具有多種像素尺寸的分類

根據[34]所示的慣例。我們通常使用水平的邊界框(又可以簡稱為像素值)作為實例大小的測量方式。我們將數據集中的實例根據它們水平邊界框的寬度劃分三類。小實例(10-50)、中等實例(50-300)、大實例(300+),表3說明了這些實例劃分在不同數據集中所占的百分比。很明顯,PASCAL VOC、NWPU VHR—10和DLR 3K慕尼黑車輛數據集分別由中等實例、中等實例和小實例主導構成。然而,我們的DOTA數據集在小實例和中實例之間取得了良好的平衡。它更類似於真實世界場景,從而在實際應用中有助於更好地捕捉和檢測不同大小的物體。

值得註意的是,像素大小在不同的類別中有所不同。例如,車輛可以小到30,但橋又可以大到1200,這比車輛大40倍。不同類別的實例之間的巨大差異使得檢測任務更具挑戰性,因為模型必須更靈活,從而足夠可處理極小和巨大的物體。

3:航空圖像和自然圖像中一些數據集的實例大小分布的比較。

4.5 具有多種縱橫比的實例

**解釋:在網絡節點定位技術中,根據節點是否已知自身的位置,把傳感器節點分為錨節點(也稱信標節點)和未知節點。

縱橫比是基於錨節點的模型中一個至關重要的因素,模型比如說Faster RCNN [26] 和 YOLOv2 [25]。對於數據集中的所有實例我們計算了兩種類型的橫縱比,為改善模型設計提供參考。1.最低程度受限於水平邊界框的橫縱. 2.原始四邊形邊界框的橫縱比。圖說明了兩種橫縱比在我們數據集中實例的分布。我們可以看到在橫縱比方面實例分布差異很大,而且,數據集中有許多橫縱比較大的實例

4.6 具有多種實例密度的圖像

航拍圖像中常常包括數以千計的實例,它們完全與自然場景圖像不同。例如,IMANEET(6)中的圖像平均包含2個類別和2個實例,MSCCO共有3.5個類別,7.7個實例。我們的DOTA數據集更豐富,每個圖像的實例,可以高達2000。圖5說明了DOTA中的實例數。

在一幅圖像中有如此多的實例,不可避免地會看到很密集的實例聚集在某個區域。在COCO數據集中,實例並不是逐個註釋的,因為圖像中的遮擋使之難以將實例與其相鄰實例區分開來。在這些情況下,實例組被標記為一個屬性名為“crowd”的片段。然而,這種情況不會在航空圖像下出現,因為從航拍視角來看,很少有遮擋物。因此,我們可以在擁擠的實例場景中將實例一個個分別標註。圖4展示了聚集著很多實例的一個例子。在這種情況下檢測物體對現有的檢測方法提出了巨大的挑戰。

評價

我們在DOTA數據集上使用了目前最先進的目標檢測方法來評估。對於水平物體的檢測,我們選擇那些在普通目標檢測表現良好的算法,如選擇Faster-RCNN(26)、R- FCN(4)、YOLV2(25)和SSD(16)作為我們的基準測試算法。對於定向的物體檢測,我們修改原來的Faster R-CNN算法,使其能使用 正確預測定向的邊界框。

值得註意的是,主幹網絡如下:對RFNET-101使用R-FCN和Faster R-CNN,對InceptionV2使用SSD,對YOLVO2使用定制化的GoGoLeNET

5.1評價原型

DOTA的圖像太大,無法直接發送到基於CNN的探測器。因此,我們將原始圖像裁剪為一系列1024*1024的面片,步幅設置為512。註意在裁剪過程中,完整的物體可能會被切成兩部分。為了方便起見,我們將原始對象的面積為 ,劃分部分 的面積為 (i=1,2)然後計算:

最終我們將U<0.7的部分標記為“difficult”,其他的標記和原始註釋一樣。對於那些新生成的部分的頂點我們需要保證它們可以被一個具有4個順時針排列頂點的定向邊界框用一種合適的方法來描述。

在測試階段,我們首先將裁剪後的面片送到一個臨時的結果中,然後將結果合並在一起,來重構原始圖像的檢測,最後我們對預測結果使用NMS(非極大值抑制算法)。我們設置NMS的參數閾值對於水平邊界框(簡稱HBB)將閾值設置為0.3,定向的邊界框閾值設置為0.1。通過使用這種方式,我們在基於CNN的模型上訓練和測試了DOTA數據庫。

對於評價的度量,我們使用和PSASCAL VOC一樣的mAP計算方式

5.2 水平邊界框的Baselines

HBB實驗的ground truth 是通過在原始的已標註的邊界框上計算軸對稱邊界框產生的,為了公平起見,我們將實驗的配置以及超參數設置為與文章[4,16,25,26]一致

在表4中給出了HBB實驗的預測結果,我們註意到SSD上的結果比其他模型低很多。我們懷疑可能是因為SSD數據集數據增長策略中的隨意裁剪操作,這種操作在普通的目標檢測中相當有用,但是在航拍圖像目標檢測的大規模小實例上作用有所降低。實驗結果也進一步表明了航拍圖像和普通目標圖像檢測在實例大小上的巨大差別。

5.3 定向邊界框的Baselines

OBB的預測比較困難,因為最先進的檢測方法並不是為定向的物體設計的。因此,我們將根據精度和高效性選擇Faster R-CNN作為基礎框架,並將其修改使之能夠預測定向的邊界框。

由RPN(候選區域生成網絡)產生的RoIs(興趣區域)是可以被表示為R =( , , , )的矩形,更詳細的解釋為

其中

在R-CNN程序中,每個RoI都附加有一個寫作 的ground truth定向邊界框。然後R-CNN的輸出目標 由以下等式計算,

其中

其余配置和超參數設置和Faster R-CNN[26]中描述的一樣,在表4中給出了實驗數據結果

5.4 實驗分析

當我們分析表4中呈現的數據結果時,小型汽車,大型汽車,船只的分類結果不盡人意,因為它們的尺寸較小,並且在航拍圖像中位置十分密集。作為對比,大型的離散物體如飛機,遊泳池、網球場等,表現出的效果較好

在圖6中我們比較了HBB和OBB兩種檢測方式的結果。在圖6(a)和6(b)中表示的緊密圖像中,HBB實驗的定位精度要比OBB實驗差的多,並且許多結果受到先前工作的限制。所以OBB回歸是定向物體檢測的一個正確方式,並且可以被真正在實際中應用。在圖6(c)中,使用OBB來標註縱橫比較大的物體(比如橋和海港),對於現在的檢測器來說很難做回歸。但是在HBB方法中,這些物體通常有著較為普通的縱橫比,因此結果如圖6(d)看起來比OBB好很多。但是在一些極度擁擠的場景下,比如圖6(e)和6(f),HBB和OBB的結果並不盡如人意,表明了現階段檢測器具有一定的缺陷。

數據集的交叉驗證

交叉數據集泛化是數據集泛化能力的一個評價方式。我們選擇UCAS-AOD數據集來做交叉數據集泛化,因為它與其他航空物體檢測數據集相比有著更大的數據量。因為沒有UCAS-AOD數據集的官方劃分方式,於是我們隨機選擇1110個進行訓練和400個進行測試。選擇YOLOv2

作為所有測試實驗的檢測器,並且將所有的ground truth使用HBB標註。將UCAS-AOD數據集中原始圖片大小改為960*544作為輸入的圖片大小,其余的配置不改變

---

4Baseline模型的數據化結果(AR.確定的分類名稱縮寫有BD-棒球內場,GTF --地面區域軌道,SV -小型車輛,LV -大型車輛,TC-網球場,BC-籃球場,SC –儲油罐,SBF -足球場,RA –環形道路,SP -遊泳池和HC -直升機。 FR-H意味著Faster R-CNN [26]將在水平邊界框上被訓練。FR-O意味著Faster R-CNN [26]將在定向邊界框上被訓練

6:使用訓練好的Faster R-CNN可視化DOTA數據集的測試結果,上下兩行分別說明了在HBBOBB方法上關於方向,大縱橫比,和擁擠場景下的結果

表5給出了結果。在交叉部分兩數據集表現出的不同,分別為YOLOv2-A(35.8)和YOLOv2-D(15.6)。它表明,DOTA極大地覆蓋了UCAS-AOD,甚至有更多的在UCAS-AOD中沒有的模式和特性。YOLOv2-A和YOLOv2-D兩種模式在DOTA上得到低的結果,表明DOTA數據集更具挑戰性。

5:交叉數據集泛化的結果。上半部分:在UCAS-AOD數據集上評估檢測性能下半部分:在DOTA上評估檢測性能。 YOLOv2-AYOLOv2-D都是分別被UCAS-AODDOTA訓練集訓練的。

結論

我們建立了一個大型數據集,用於航拍圖像中進行定向物體檢測,這個數據集比這個領域中所有現有的數據集都要大。 與一般對象檢測基準相反,我們使用定向邊界框標註大量分布良好的定向物體。 我們猜測這個數據集是具有挑戰性的,並且非常類似於自然的航拍場景,更適合實際應用。我們還為航拍圖像物體檢測建立了基準,並展示了通過修改主流檢測算法生成定向邊界框的可行性。

檢測密集聚在一起的小實例和任意方向非常大的實例,在一個大的圖片將是特別有意義和具有挑戰性的。 我們相信DOTA不僅會促進Earth Vision中物體檢測算法的發展,也會在計算機視覺領域的一般物體檢測中提出有趣的問題

論文翻譯 DOTA:A Large-scale Dataset for Object Detection in Aerial Images