1. 程式人生 > >ILSVRC競賽詳細介紹(ImageNet Large Scale Visual Recognition Challenge)

ILSVRC競賽詳細介紹(ImageNet Large Scale Visual Recognition Challenge)

ILSVRC(ImageNet Large Scale Visual Recognition Challenge)是近年來機器視覺領域最受追捧也是最具權威的學術競賽之一,代表了影象領域的最高水平。

ImageNet資料集是ILSVRC競賽使用的是資料集,由斯坦福大學李飛飛教授主導,包含了超過1400萬張全尺寸的有標記圖片。ILSVRC比賽會每年從ImageNet資料集中抽出部分樣本,以2012年為例,比賽的訓練集包含1281167張圖片,驗證集包含50000張圖片,測試集為100000張圖片。

ILSVRC競賽的專案主要包括以下幾個問題:

(1)影象分類與目標定位(CLS-LOC)

影象分類的任務是要判斷圖片中物體在1000個分類中所屬的類別,主要採用top-5錯誤率

的評估方式,即對於每張圖給出5次猜測結果,只要5次中有一次命中真實類別就算正確分類,最後統計沒有命中的錯誤率。

2012年之前,影象分類最好的成績是26%的錯誤率,2012年AlexNet的出現降低了10個百分點,錯誤率降到16%。2016年,公安部第三研究所選派的“搜神”(Trimps-Soushen)代表隊在這一專案中獲得冠軍,將成績提高到僅有2.9%的錯誤率。

目標定位是在分類的基礎上,從圖片中標識出目標物體所在的位置,用方框框定,以錯誤率作為評判標準。目標定位的難度在於影象分類問題可以有5次嘗試機會,而在目標定位問題上,每一次都需要框定的非常準確。

目標定位專案在2015年ResNet從上一年的最好成績25%的錯誤率提高到了9%。2016年,公安部第三研究所選派的“搜神”(Trimps-Soushen)代表隊的錯誤率僅為7%。

(2)目標檢測(DET)

目標檢測是在定位的基礎上更進一步,在圖片中同時檢測並定位多個類別的物體。具體來說,是要在每一張測試圖片中找到屬於200個類別中的所有物體,如人、勺子、水杯等。評判方式是看模型在每一個單獨類別中的識別準確率,在多數類別中都獲得最高準確率的隊伍獲勝。平均檢出率mean AP(mean Average Precision)也是重要指標,一般來說,平均檢出率最高的隊伍也會多數的獨立類別中獲勝,2016年這一成績達到了66.2。

(3)視訊目標檢測(VID)

視訊目標檢測是要檢測出視訊每一幀中包含的多個類別的物體,與圖片目標檢測任務類似。要檢測的目標物體有30個類別,是目標檢測200個類別的子集。此專案的最大難度在於要求演算法的檢測效率非常高。評判方式是在獨立類別識別最準確的隊伍獲勝。

2016年南京資訊工程大學隊伍在這一專案上獲得了冠軍,他們提供的兩個模型分別在10個類別中勝出,並且達到了平均檢出率超過80%的好成績。

(4)場景分類(Scene)

場景分類是識別圖片中的場景,比如森林、劇場、會議室、商店等。也可以說,場景分類要識別影象中的背景。這個專案由MIT Places團隊組織,使用Places2資料集,包括400個場景的超過1000萬張圖片。評判標準與影象分類相同(top-5),5次猜測中有一次命中即可,最後統計錯誤率。

2016年最佳成績的錯誤率僅為9%。

場景分類問題中還有一個子問題是場景分割,是將圖片劃分成不同的區域,比如天空、道路、人、桌子等。該專案由MIT CSAIL視覺組織,使用ADE20K資料集,包含2萬張圖片,150個標註類別,如天空、玻璃、人、車、床等。這個專案會同時評估畫素及準確率和分類IOU(Intersection of Union)