人臉識別系列(四):Webface系列1(CASIA-WebFace)
這篇文章的亮點在於提出一種半自動的方法來收集網路上的人臉影象,最終組成了國內人臉識別屆頗具盛名的人臉訓練集 CASIA-WebFace,同時還提出了一種11層的CNN最終達到了lfw上的state-of-art。
資料集的構建
構建資料集時,從網路上爬影象下來很容易,但是給圖片逐一做標記卻很難。因此作者借用了IMDb網站,通過半自動的方式完成了爬影象和標記。
(IMDb是一個電影、電視和名人內容的展示網站)
在IMDb,每個名人都有一個主頁,類似
然後先把人的名字爬下來,再爬照片,每個人都有一個mainphoto與photo gallery。
下一個難題在於photo gallery中的一些照片中會出現很多的人。
也就是說要區分出現很多人的照片具體誰是誰
用現有的人臉識別方法來提取特徵然後聚類人臉是一種常用的方法,一般的聚類方法需要計算所有樣本之間的相似矩陣,這個矩陣會很大,無法載入入記憶體,因此作者使用了一種更快的聚類方法:
1.通過人臉識別方法提取人臉特徵;
2.使用每個名人的mainphoto作為它的種子(因為mainphoto一般都是正臉,而且不會出現其他人);
3.使用那些只有1個人臉的圖片去增加每個名人的種子的數量;
4.在photo gallery剩下的圖片中,通過與種子的相似度來找到屬於每個名人的其餘照片。
5.裁剪人臉,將同一個名人的臉單獨存入一個路徑內,之後再進行人工糾錯,進一步提高資料集純度。
最終得到了10,575人\494,414照片的資料集 CASIA-WebFace。
作者給出了一些常見的人臉資料集的統計資料以比較,可以看出 CASIA-WebFace是當時人臉資料集中資料量最大的公開資料集,為人臉識別技術的發展做出了很大貢獻。
想要下載CASIA-WebFace可以去官網申請,但是好像挺難的,也可以通過我給的連結下載
官網地址:http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html
下載地址:https://download.csdn.net/my
人臉識別網路
使用了Inception、VGG的網路構築技巧,即更深的卷積層、低維度的特徵表達、多種損失函式、與小的卷積核。
網路結構如下:
一些技巧的解讀:
1.使用多個3x3的卷積核代替大卷積核
2.只使用一個全連線層,減少引數量
3.使用兩種監督訊號
可以看出作者在網路構築上沒有提出新的思想,而是借鑑了Inception以及DeepId網路的優秀結構。
測試結果:
其中與ABCDE對應的特徵提取與驗證演算法如下:
DR表示在CASIA上訓練的上述的卷積神經網路。