1. 程式人生 > >Wasserstein CNN: Learning Invariant Features for NIR-VIS Face Recognition

Wasserstein CNN: Learning Invariant Features for NIR-VIS Face Recognition

表現 ted diff 差異 osi asi nta measure mod

承接上上篇博客,在其基礎上,加入了Wasserstein distancecorrelation prior 。其他相關工作、網絡細節(maxout operator)、訓練方式和數據處理等基本和前文一致。以下是這兩點改進的大概:

  • Wasserstein convolutional neural network(WCNN)的低級層利用容易得到的大量VIS光譜訓練,高級層劃分為3部分:the NIR layer, the VIS layer and the NIR-VIS shared layer。前兩層旨在學習模態明確特征(modality-specific features),最後一層學習模態不變特征子空間(modality-invariant feature subspace)。Wasserstein distance用在最後一層來估量兩種異質圖像特征分布的不相似性
    。即WCNN通過最小化NIR分布與VIS分布之間的
    Wasserstein 距離來得到深度不變表征。
  • 為了避免小規模異質數據的過擬合,一個correlation piori引入到WCNN的全連接層中,最後同之前博客中一樣,交替優化。這個correlation由一個非凸低秩限制來實現(a non-convex low-rank constraint)。當訓練集較小時這個prior尤其重要

文章的四大貢獻:

  • 端到端網絡學習模態不變特征,這個結構自然的結合了不變特征提取和子空間學習。兩個正交子空間分別建模身份光譜信息,(一張人臉圖其實包括了人臉身份信息+人臉光譜信息)。這個網絡用來同時提前NIR和VIS特征。
  • Wasserstein distance引入,度量NIR和VIS模態的分布差異,相比之前的sample-level的度量,這個Wasserstein distance更有效減少兩種模態的分布差異,提高性能。

  • correlation prior引入,減輕在全連接層中小規模數據產生的過擬合問題,這個先驗提高了WCNN在小數據集的表現。
  • 在CASIA NIR-VIS 2.0 人臉數據集上的性能達到了SOTA。

異質人臉識別(驗證)的四大類方法:

  • mage synthesis、
  • Feature representation、
  • Subspace learning、
  • Deep learning

網絡結構

技術分享圖片

Fig 1. An illustration of our proposed Wasserstein CNN architecture. The Wasserstein distance is used to measure the difference between NIR
and VIS distributions in the modality invariant subspace (spanned by matrix W). At the testing time, both NIR and VIS features are exacted from
the shared layer of one single neural network and compared in cosine distance.

網絡解釋如下:

1. Modality Invariant Subspace

減輕NIR-VIS外觀差異,即想辦法移除掉光譜(外觀)差異,那麽只剩下identity信息就容易匹配了。之前的方法都是移除一些principal subspaces,假定這些子空間是包含光譜信息的。受此啟發,這裏引入三個映射矩陣(見上圖):W,PN,PV。W用來將建模 modeling identity invariant information,P用來建模 variant spectrum information。所以輸入兩張圖,得到三個特征:

技術分享圖片

其中WX和PX分別表示共享特征和獨立特征,考慮到子空間中分解特性,限制其互相無關:

技術分享圖片

這個限制可減少參數空間,減輕過擬合。將特征表示和子空間學習兩個獨立步驟和合為一步。

2. The Wasserstein Distance

NIR和VIS圖像的gap是異質圖像識別的主要問題。之前的方法引導sample-level的限制來解決這個gap。比如有contrastive loss和triplet loss等都施加在NIR-VIS sample pairs上。這些方法僅僅考慮NIR-VIS samples的關系而非NIR-VIS 分布的關系。近來Wasserstein distance在GAN中度量模型分布和真實分布扮演了重要的角色。受到Wasserstein GAN和BEGAN的啟發,我們利用Wasserstein distance來測量NIR和VIS數據分布之間的一致性。假定在非線性特征映射後同一subject遵從高斯分布。施加 Wasserstein distance 在同一subject(即同一個體identity)的分布上。具體實現細節見paper,比較好理解。

3. Correlation Prior

過擬合問題。NIR-VIS數據集通常比純VIS數據集小得多。全連接的參數最多。本文將WCNN的全連接層分解為兩個矩陣:FN、FV。分別對應NIR和VIS模態。我們希望M(下式)高度相關,使得M.T*M為一塊對角矩陣。一個相關的M將減少估計的參數空間,減輕過擬合。進一步探索M的核範數。其余細節見paper。

技術分享圖片

4. loss

技術分享圖片

其中第一項為分類損失,第二項為W距離,第三項為proir約束。beta1=beta2=1,beta3=0.001,說明這個prior在這裏不是很重要

5. CONCLUSIONS

Same as before

Wasserstein CNN: Learning Invariant Features for NIR-VIS Face Recognition