本文來自《MobileFaceNets: Efficient CNNs for Accurate Real-Time Face Verification on Mobile Devices》,時間線為2018年4月。是北京交通大學和握奇資料公司的作品。

0 引言


本文作者提出的模型引數都不到1百萬個,且在相同的實驗環境下,MobileFaceNets效果是MobileNetV2的2倍多。通過在提煉過的MS-Celeb-1M資料集上取樣ArcFace 的loss從頭訓練,MobileFaceNets模型size只有4MB,且在LFW上獲得了99.55%的準確度,在MegaFace挑戰1的[email protected]上獲得了92.59%的準確度,這就可以與那些大CNN模型相比較了。注意到現在的許多方法如剪枝[37],low-bit 量化[29],和知識蒸餾[16]都可以用來提升MobileFaceNets的效率。

1 本文主要工作

本部分介紹了本文提出的極端高效的CNN模型,以加速移動裝置上實時人臉驗證,這克服了人臉驗證上常見mobile net的不足。為了讓結果可復現,採用了ArcFace loss去訓練整個人臉驗證模型,涉及的部分引數延用參考文獻[5]。

1.1 常見移動裝置上網路在人臉驗證上的不足

在常見的視覺識別任務中使用的mobile網路都有一個全域性平均池化層(global average pooling layer,GAP),如MobileNetV1,Shufflenet,Mobilenetv2.對於人臉驗證和識別任務,一些研究者[5,14]發現帶有全域性平均池化的CNN準確度要低於不帶有GAP層的網路。不過只是還沒有理論性的分析這一結論。這裡藉助文獻[19]的相關描述來分析這一現象。

通常人臉驗證流程包含:預處理人臉圖片,提取人臉特徵,基於特徵距離相似性對2張人臉進行匹配。通過採用[5,20,21,22]中的預處理方法,並基於MTCNN進行人臉檢測和5個人臉關鍵點標註並進行對齊,得到每個人臉圖片大小112x112,然後通過減去127.5,除以128來進行歸一化。最後,一個人臉特徵embedding CNN 會將每個對齊後的人臉對映到一個特徵向量上,如圖1.

不失一般性,下面採用Mobilenetv2作為人臉特徵embedding CNN的結構。為了讓輸出map和原始網路224x224輸入一樣的size,在第一個卷積層使用stride=1而不是2,因為stride=2會導致準確度較低。所以在全域性平均池化層前面的卷積層輸出(稱為FMap-end)的空間解析度是7x7。雖然理論上FMap-end角上單元的感受也和中心區域單元的感受野大小是一樣的,可是他們處在輸入圖片的不同位置。如[24]所述,中心區域感受野比其他區域在最後輸出上更有影響,且一個感受野內部的這種影響呈現高斯分佈。FMap-end的角單元的感受野上有效的感受野size要小於中心單元上的有效感受野。當輸入影象時一個對齊的人臉,FMap-end的一個角單元攜帶比中心單元更少的人臉資訊。因此FMap-end上不同的單元對於提取一個人臉特徵向量有著不同的重要性。



1.2 全域性逐深度卷積(Global Depthwise Convolution)

為了讓FMap-end中不同的單元有不同的重要性,作者將全域性平均池化替換成全域性逐深度卷積(global depthwise convolution layer, GDConv)。一個GDConv層就是一個逐深度卷積(如文獻[1,25]),其kernel大小等於輸入的size,pad=0,stride=1。全域性逐深度卷積層的輸出為:

這裡F是輸入的feature map,其size為 \(W\times H\times M\);K是逐深度卷積核,其size為 \(W\times H\times M\);G是輸出,其size為 \(1\times 1\times M\)。其中在G的第 \(m\)個通道上只有一個元素 \(G_m\)。其中 \((i,j)\)表示F和K中的空間位置,m表示通道的索引。
\[W\cdot H\cdot M\]
當在MobilenetV2的FMap-end後採用全域性逐深度卷積,其核為7x7x1280,即有1280個通道。計算代價為62720MAdds(即相乘-相加的操作次數,如[3]),和62720個引數。假設MobilenetV2-GDConv表示帶有全域性逐深度的Mobilenetv2。當基於CIASIA-Wefface資料集,Arcface loss訓練MobileNetV2 和 MobileNetV2-GDConv,後者貨得明顯更好的準確度。所以MobilenetFaceNet採用GDConv結構。

1.3 MobileFaceNet 結構




2 實驗及分析

2.1 訓練引數配置和LFW與AgeDB上結果對比

作者採用MobileNetv1,ShuffleNet,MobileNetv2(第一個卷積層stride=1,因為stride=2時候準確度很低)作為baseline模型。所有的MobileFaceNet模型和baseline模型基於CASIA-Webface資料集上從頭開始訓練,採用ArcFace loss。權值衰減超參為0.0005,在全域性操作後的權值衰減超參為0.0004。使用動量為0.9的SGD優化模型,batchsize為512.學習率開始為0.1,然後再36K,52K,58K迭代次數時分別除以10。最終迭代次數為60K次。然後如表2中結果,基於LFW和AgeDB-30進行結果對比。

如之前表2所示,MobileFaceNet獲得明顯更好的結果,且速度更快。96x96輸入的MobileFaceNet速度最快。為了驗證極端效能,MobileFaceNet,MobileFaceNet(112x96),MobileFaceNet(96x96)基於乾淨的MS-Celeb-M訓練集,ArcFace loss進行訓練。結果如表3.

2.2 在MegaFace挑戰上結果

本文中採用Facescrub[36]資料集作為測試集去評估MobileFaceNet在Megaface挑戰1上的結果。表4給出了結果,其中以0.5百萬張圖片作為閾值區分是large protocol還是small protocol。


