1. 程式人生 > >計算機視覺標準資料集整理—COCO資料集

計算機視覺標準資料集整理—COCO資料集

COCO資料集由微軟贊助,其對於影象的標註資訊不僅有類別、位置資訊,還有對影象的語義文字描述,COCO資料集的開源使得近兩三年來影象分割語義理解取得了巨大的進展,也幾乎成為了影象語義理解演算法效能評價的“標準”資料集。Google的開源show and tell生成模型就是在此資料集上測試的。 

這個資料集以scene understanding為目標,主要從複雜的日常場景中擷取,影象中的目標通過精確的segmentation進行位置的標定。影象包括91類目標,328,000影像和2,500,000個label。 

該資料集主要解決3個問題:目標檢測,目標之間的上下文關係,目標的2維上的精確定位。資料集的對比示意圖:


COCO資料集有91類,雖然比ImageNet和SUN類別少,但是每一類的影象多,這有利於獲得更多的每類中位於某種特定場景的能力,對比PASCAL VOC,其有更多類和影象。

COCO資料集分兩部分發布,前部分於2014年釋出,後部分於2015年,2014年版本:82,783 training, 40,504 validation, and 40,775 testing images,有270k的segmented people和886k的segmented object;2015年版本:165,482 train, 81,208 val, and81,434 test images。


職責

目標檢測

  • 輸出目標物的邊框即可(using bounding box output),也就是我們常說的目標檢測(object detection)了;
  • 要求把目標物從影象中分割出來(object segmentation output),即我們所說的影象語義分割(Semantic image segmentation);
    

影象標註(COCOCaptioning Challenge)

具體說來就是一句話準確描述圖片上的資訊(producingimage captions that are informative and accurate)。那這個怎麼評分呢?目前是靠人工評分。

人體關鍵點檢測(COCOKeypoint Challenge)

比賽要求是找到人在哪,然後定位到人體的一些關鍵點位置(Thekeypoint challenge involves simultaneously detecting people and localizingtheir keypoints)。