1. 程式人生 > >影象識別及處理相關資料集介紹

影象識別及處理相關資料集介紹

Corel5k

         這是Corel5K影象集,共包含科雷爾(Corel)公司收集整理的5000幅圖片,故名:Corel5K,可以用於科學影象實驗:分類、檢索等。Corel5k資料集是影象實驗的事實標準資料集。請勿用於商業用途。私底下學習交流使用。Corel影象庫涵蓋多個主題,由若干個CD組成,每個CD包含100張大小相等的影象,可以轉換成多種格式。每張CD代表一個語義主題,例如有公共汽車、恐龍、海灘等。Corel5k自從被提出用於影象標註實驗後,已經成為影象實驗的標準資料集,被廣泛應用於標註演算法效能的比較。Corel5k由50張CD組成,包含50個語義主題。

         Corel5k影象庫通常被分成三個部分:4000張影象作為訓練集,500張影象作為驗證集用來估計模型引數,其餘500張作為測試集評價演算法效能。使用驗證集尋找到最優模型引數後4000張訓練集和500張驗證集混合起來組成新的訓練集。

         該影象庫中的每張圖片被標註1~5個標註詞,訓練集中總共有374個標註詞,在測試集中總共使用了263個標註詞。影象如下圖所示,很遺憾本人也未找到官方下載路徑,於是github上傳了一份,下載連結為


CIFARCanada Institude For Advanced Research

      CIFAR是由加拿大先進技術研究院的AlexKrizhevsky, Vinod Nair和Geoffrey Hinton收集而成的80百萬小圖片資料集。包含CIFAR-10和CIFAR-100兩個資料集。 Cifar-10由60000張32*32的RGB彩色圖片構成,共10個分類。50000張訓練,10000張測試(交叉驗證)。這個資料集最大的特點在於將識別遷移到了普適物體,而且應用於多分類。CIFAR-100由60000張影象構成,包含100個類別,每個類別600張影象,其中500張用於訓練,100張用於測試。其中這100個類別又組成了20個大的類別,每個影象包含小類別和大類別兩個標籤。官網提供了Matlab,C,

Python三個版本的資料格式。影象如下圖所示,下載連結為


人臉資料庫:

AFLWAnnotated Facial Landmarks in the Wild

       AFLW人臉資料庫是一個包括多姿態、多視角的大規模人臉資料庫,而且每個人臉都被標註了21個特徵點。此資料庫資訊量非常大,包括了各種姿態、表情、光照、種族等因素影響的圖片。AFLW人臉資料庫大約包括25000萬已手工標註的人臉圖片,其中59%為女性,41%為男性,大部分的圖片都是彩色,只有少部分是灰色圖片。該資料庫非常適合用於人臉識別、人臉測、人臉對齊等方面的究,具有很高的研究價值。影象如下圖所示,需要申請帳號才可以下載,下載連結為

LFWLabeled Faces in the Wild

       LFW是一個用於研究無約束的人臉識別的資料庫。該資料集包含了從網路收集的13000張人臉影象,每張影象都以被拍攝的人名命名。其中,有1680個人有兩個或兩個以上不同的照片。這些資料集唯一的限制就是它們可以被經典的Viola-Jones檢測器檢測到(a hummor)。影象如下圖所示,下載連結為

AFWAnnotated Faces in the Wild

       AFW資料集是使用Flickr(雅虎旗下圖片分享網站)影象建立的人臉影象庫,包含205個影象,其中有473個標記的人臉。對於每一個人臉都包含一個長方形邊界框,6個地標和相關的姿勢角度。資料庫雖然不大,額外的好處是作者給出了其2012 CVPR的論文和程式以及訓練好的模型。影象如下圖所示,下載連結為


FDDBFace Detection Data Set and Benchmark

       FDDB資料集主要用於約束人臉檢測研究,該資料集選取野外環境中拍攝的2845個影象,從中選擇5171個人臉影象。是一個被廣泛使用的權威的人臉檢測平臺。影象如下圖所示,下載連結為

WIDER FACE

   WIDER FACE是香港中文大學的一個提供更廣泛人臉資料的人臉檢測基準資料集,由YangShuo, Luo Ping ,Loy ,Chen Change ,Tang Xiaoou收集。它包含32203個影象和393703個人臉影象,在尺度,姿勢,閉塞,表達,裝扮,關照等方面表現出了大的變化。WIDER FACE是基於61個事件類別組織的,對於每一個事件類別,選取其中的40%作為訓練集,10%用於交叉驗證(cross validation),50%作為測試集。和PASCAL VOC資料集一樣,該資料集也採用相同的指標。和MALF和Caltech資料集一樣,對於測試影象並沒有提供相應的背景邊界框。影象如下圖所示,下載連結為

CMU-MIT

     CMU-MIT是由卡內基梅隆大學和麻省理工學院一起收集的資料集,所有圖片都是黑白的gif格式。裡面包含511個閉合的人臉影象,其中130個是正面的人臉影象。影象如下圖所示,沒有找到官方連結,Github下載連結為

GENKI

         GENKI資料集是由加利福尼亞大學的機器概念實驗室收集。該資料集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三個部分。GENKI-R2009a包含11159個影象,GENKI-4K包含4000個影象,分為“笑”和“不笑”兩種,每個圖片的人臉的尺度大小,姿勢,光照變化,頭的轉動等都不一樣,專門用於做笑臉識別。GENKI-SZSL包含3500個影象,這些影象包括廣泛的背景,光照條件,地理位置,個人身份和種族等。影象如下圖所示,下載連結為,如果進不去可以,同樣可以去下面的github下載,連結

IJB-A (IARPA JanusBenchmark A)

       IJB-A是一個用於人臉檢測和識別的資料庫,包含24327個影象和49759個人臉。影象如下圖所示,需要郵箱申請相應帳號才可以下載,下載連結為

MALF (Multi-Attribute Labelled Faces)

       MALF是為了細粒度的評估野外環境中人臉檢測模型而設計的資料庫。資料主要來源於Internet,包含5250個影象,11931個人臉。每一幅影象包含正方形邊界框,俯仰、蜷縮等姿勢等。該資料集忽略了小於20*20的人臉,大約838個人臉,佔該資料集的7%。同時,該資料集還提供了性別,是否帶眼鏡,是否遮擋,是否是誇張的表情等資訊。影象如下圖所示,需要申請才可以得到官方的下載連結,連結為

MegaFace

    MegaFace資料集包含一百萬張圖片,代表690000個獨特的人。所有資料都是華盛頓大學從Flickr(雅虎旗下圖片分享網站)組織收集的。這是第一個在一百萬規模級別的面部識別演算法測試基準。現有臉部識別系統仍難以準確識別超過百萬的資料量。為了比較現有公開臉部識別演算法的準確度,華盛頓大學在去年年底開展了一個名為“MegaFace Challenge”的公開競賽。這個專案旨在研究當資料庫規模提升數個量級時,現有的臉部識別系統能否維持可靠的準確率。影象如下圖所示,需要郵箱申請才可以下載,下載連結為

300W

       300W資料集是由AFLW,AFW,Helen,IBUG,LFPW,LFW等資料集組成的資料庫。影象如下圖所示,需要郵箱申請才可以下載,下載連結為

IMM Data Sets

       IMM人臉資料庫包括了240張人臉圖片和240個asf格式檔案(可以用UltraEdit開啟,記錄了58個點的地標),共40個人(7女33男),每人6張人臉圖片,每張人臉圖片被標記了58個特徵點。所有人都未戴眼鏡,影象如下圖所示,下載連結為

MUCT Data Sets

         MUCT人臉資料庫由3755個人臉影象組成,每個人臉影象有76個點的地標(landmark),圖片為jpg格式,地標檔案包含csv,rda,shape三種格式。該影象庫在種族、關照、年齡等方面表現出更大的多樣性。具體影象如下圖所示,下載連結為

ORL  (AT&T Dataset)

         ORL資料集是劍橋大學AT&T實驗室收集的一個人臉資料集。包含了從1992.4到1994.4該實驗室的成員。該資料集中影象分為40個不同的主題,每個主題包含10幅影象。對於其中的某些主題,影象是在不同的時間拍攝的。在關照,面部表情(張開眼睛,閉合眼睛,笑,非笑),面部細節(眼鏡)等方面都變現出了差異性。所有影象都是以黑色均勻背景,並且從正面向上方向拍攝。


行人檢測資料庫

INRIA Person Dataset

         Inria資料集是最常使用的行人檢測資料集。其中正樣本(行人)為png格式,負樣本為jpg格式。裡面的圖片分為只有車,只有人,有車有人,無車無人四個類別。圖片畫素為70*134,96*160,64*128等。具體影象如下圖所示,下載連結為

CaltechPedestrian Detection Benchmark

         加州理工學院的步行資料集包含大約包含10個小時640x480 30Hz的視訊。其主要是在一個在行駛在鄉村街道的小車上拍攝。視訊大約250000幀(在137個約分鐘的長段),共有350000個邊界框和2300個獨特的行人進行了註釋。註釋包括包圍盒和詳細的閉塞標籤之間的時間對應關係。更多資訊可在其PAMI 2012 CVPR 2009標杆的論文獲得。具體影象如下圖所示,下載連結為

MIT cbcl (center for biological and computational learning)Pedestrian Data 

         該資料集主要包含2個部分,一部分為128*64的包含924個圖片的ppm格式的圖片,另一部分為從打圖中分別切割而出的小圖,主要包含胳膊,腦袋,腳,腿,頭肩,身體等。具體影象如下圖所示,下載連結為,需要翻牆才可以。

年齡,性別資料庫

Adience

         該資料集來源為Flickr相簿,由使用者使用iPhone5或者其它智慧手機裝置拍攝,同時具有相應的公眾許可。該資料集主要用於進行年齡和性別的未經過濾的面孔估計。同時,裡面還進行了相應的landmark的標註。是做性別年齡估計和人臉對齊的一個數據集。圖片包含2284個類別和26580張圖片。具體影象如下圖所示,下載連結為

車輛資料庫

KITTIKarlsruhe Institute ofTechnology and Toyota Technological Institute

         KITTI包含7481個訓練圖片和7518個測試圖片。所有圖片都是真彩色png格式。該資料集中標註了車輛的型別,是否截斷,遮擋情況,角度值,2維和3維box框,位置,旋轉角度,分數等重要的資訊,絕對是做車載導航的不可多得的資料集。具體影象如下圖所示,下載連結為

字元資料庫

MNISTMixed National Instituteof Standards and Technology

         MNIST是一個大型的手寫數字資料庫,廣泛用於機器學習領域的訓練和測試,由紐約大學的Yann LeCun整理。MNIST包含60000個訓練集,10000個測試集,每張圖都進行了尺度歸一化和數字居中處理,固定尺寸大小為28*28。具體影象如下圖所示,下載連結為