計算機視覺標準資料集整理—COCO資料集
阿新 • • 發佈:2019-01-22
COCO資料集由微軟贊助,其對於影象的標註資訊不僅有類別、位置資訊,還有對影象的語義文字描述,COCO資料集的開源使得近兩三年來影象分割語義理解取得了巨大的進展,也幾乎成為了影象語義理解演算法效能評價的“標準”資料集。Google的開源show and tell生成模型就是在此資料集上測試的。
這個資料集以scene understanding為目標,主要從複雜的日常場景中擷取,影象中的目標通過精確的segmentation進行位置的標定。影象包括91類目標,328,000影像和2,500,000個label。
該資料集主要解決3個問題:目標檢測,目標之間的上下文關係,目標的2維上的精確定位。資料集的對比示意圖:
COCO資料集有91類,雖然比ImageNet和SUN類別少,但是每一類的影象多,這有利於獲得更多的每類中位於某種特定場景的能力,對比PASCAL VOC,其有更多類和影象。
COCO資料集分兩部分發布,前部分於2014年釋出,後部分於2015年,2014年版本:82,783 training, 40,504 validation, and 40,775 testing images,有270k的segmented people和886k的segmented object;2015年版本:165,482 train, 81,208 val, and81,434 test images。
職責
目標檢測
- 輸出目標物的邊框即可(using bounding box output),也就是我們常說的目標檢測(object detection)了;
- 要求把目標物從影象中分割出來(object segmentation output),即我們所說的影象語義分割(Semantic image segmentation);