1. 程式人生 > >CVPR2018-騰訊AI Lab提出新型損失函式LMCL:可顯著增強人臉識別模型的判別能力

CVPR2018-騰訊AI Lab提出新型損失函式LMCL:可顯著增強人臉識別模型的判別能力

深度卷積神經網路 (CNN) 已經推動人臉識別實現了革命性的進展。人臉識別的核心任務包括人臉驗證和人臉辨識。然而,在傳統意義上的深度卷積神經網路的 softmax 代價函式的監督下,所學習的模型通常缺乏足夠的判別性。為了解決這一問題,近期一系列損失函式被提出來,如 Center Loss、L-Softmax、A-Softmax。所有這些改進演算法都基於一個核心思想: 增強類間差異並且減小類內差異。騰訊 AI Lab 的一篇 CVPR 2018 論文從一個新的角度研究了這個問題,並設計了一個新的損失函式,即增強邊緣餘弦損失函式 (LMCL)。更具體地說,通過對特徵向量和權向量的 L2 歸一化,把 softmax 損失函式轉化為餘弦損失函式,這樣做消除了半徑方向的變化,並在此基礎上引入了一個餘弦邊緣值 m 來進一步最大化所學習的特徵在角度空間的決策邊界。因此,採用這種歸一化和增強餘弦決策邊界的方法,能夠更有效地起到最大化類間差異和最小化類內差異的作用。作者在最權威的人臉公開測試集上進行了實驗評估,這些測試集包括 MegaFace Challenge、YouTube Faces (YTF) 和 Labeled Face in the Wild (LFW),取得了極其優異的表現,表明了新方法的有效性。

深度卷積神經網路(CNN)的近期進展已經顯著提升了多種計算機視覺任務的當前最佳表現,使得深度 CNN 成為了計算機視覺領域主導的機器學習方法。人臉識別是最常見的計算機視覺任務之一,通常包含兩個子任務:人臉驗證和人臉辨識;其中人臉驗證是比較兩張人臉以確定它們是否來自同一主體,而人臉辨識是根據人臉相簿識別人的身份。這兩個任務都涉及到三個階段:人臉檢測、特徵提取、分類。深度 CNN 可以提取整齊乾淨的高層面特徵,這使得其可憑藉相對簡單的分類網路實現優越的表現:通常情況下是後面跟著 softmax 的多層感知器網路。但是,近期的研究發現傳統的 softmax 不足以最大化在分類任務上的判別能力。

為了實現更好的判別表現,研究界已經進行了很多研究。所有這些研究在最大化判別能力上都具有一個共同的思想:最大化類間差異且最小化類內差異。

相比於 [1,11,13] 提出的歐幾里德邊緣(Euclidean margin),角邊緣(angular margin)更好,因為角的餘弦與 softmax 具有固有的一致性。但是,進一步看,似乎直接在兩個不同的類之間引入餘弦邊緣(cosine margin)會更為自然。此外,餘弦的公式與常用於人臉識別的相似度度量是匹配的。從以上角度看,餘弦邊緣提供了一種用於提升餘弦相關的判別資訊的直接方法,要優於歐幾里德邊緣或角邊緣。

在這篇論文中,我們通過對特徵向量和權重向量的 L2 歸一化,把 softmax 損失函式轉化為餘弦損失函式,從而消除了半徑方向上的變化,並在此基礎上引入了一個餘弦邊緣值 m 來進一步最大化所學習的特徵在餘弦角度空間中的決策邊界。具體而言,我們發明了一種巧妙的演算法,稱為增強邊緣餘弦損失函式 (LMCL),其以歸一化後的特徵為輸入,可通過最大化類間餘弦邊緣來學習高度判別性的特徵。

圖 1:我們提出的 CosFace 框架。在訓練階段,使用不同類之間的增強邊緣學習判別性的人臉特徵。在測試階段,首先將測試資料輸入 CosFace 來提取人臉特徵,然後再將這些特徵用於計算餘弦相似度分數以執行人臉驗證和人臉辨識。

基於 LMCL,我們開發了一種精巧的深度模型 CosFace,如圖 1 所示。在訓練階段,LMCL 引導卷積網路使用增強餘弦邊緣來學習特徵。在測試階段,卷積網路提取出人臉特徵,用以執行人臉驗證或人臉辨識。我們的貢獻總結如下:

  1. 我們接受了最大化類間差異和最小化類內差異的思想,提出了一種全新的損失函式 LMCL,可用於為人臉識別學習高度判別性的深度特徵。

  2. 根據 LMCL 所帶來的超球面特徵分佈,我們提供了一個合理的理論分析。

  3. 在 LFW、YTF 和 Megaface 等流行的人臉資料庫上,我們提出的方法在大多數基準上都優於之前的最佳表現。

我們提出的方法

在本章節中,我們將首先詳細介紹我們提出的 LMCL。然後我們將給出 LMCL 與其它損失函式的比較,以表明其優越性。然後我們將描述 LMCL 中所使用的特徵歸一化技術,以闡明其有效性。最後,我們將給出對所提出的 LMCL 的理論分析。

增強邊緣餘弦損失函式 (LMCL)

形式上,LMCL 的定義為:

使其滿足:

與不同損失函式的比較

我們比較了我們的方法(LMCL)與 Softmax、NSL 和 A-Softmax 的決策邊界,如圖 2 所示。

圖 2:在兩個類別上,不同損失函式的決策邊界的比較。虛線表示決策邊際線,灰色區域是決策邊界。

在特徵上的歸一化

在我們提出的 LMCL 中,歸一化方案的目的是推導餘弦損失函式的形式和消除半徑方向上的變化。和 [3] 中僅歸一化權重向量不同,我們的方法是同時歸一化權重向量和特徵向量。因此,其特徵會分佈在一個超球面上,其中縮放參數(scaling parameter)s 控制著半徑大小。

對 LMCL 的理論分析

圖 4:不同損失函式在 8 個帶有 2D 特徵的身份上的簡化實驗。第一行是將 2D 特徵對映到歐幾里德空間上,而第二行是將 2D 特徵投射到角空間上。隨著邊緣值 m 增大,間隙變得越來越明顯。

實驗

圖 5:在 LFW 和 YTF 上,具有不同邊緣引數值 m 的 CosFace 的表現(%)

表 2:我們提出的 LMCL 與人臉識別社群當前最佳的損失函式的比較。這個表格中的所有方法都使用了同樣的訓練資料和同樣的 64 層 CNN 架構。

表 3:在 LFW 和 YTF 資料集上的人臉驗證表現(%)。#Models 表示評估方法中所使用的模型的數量。

表 4:在 Megaface Challenge 1 (MF1) 上的人臉辨識和人臉驗證評估。

表 5:在 Megaface Challenge 2 (MF2) 上的人臉辨識和人臉驗證評估。

論文:CosFace:用於深度人臉識別的增強邊緣餘弦損失(CosFace: Large Margin Cosine Loss for Deep Face Recognition)

論文地址:https://arxiv.org/abs/1801.09414 

在深度卷積神經網路(CNN)的發展的推動下,人臉識別已經取得了革命性的進展。人臉識別的核心任務涵蓋人臉驗證和人臉辨識,都涉及到人臉特徵判別。但是,深度 CNN 的傳統 softmax 損失通常缺乏判別能力。為了解決這個問題,最近有 Center Loss、L-Softmax、A-Softmax 等一些損失函式被提了出來。所有這些改進演算法都基於同一個思想:最大化類間差異並且最小化類內差異。在這篇論文中,我們設計了一種全新的損失函式增強邊緣餘弦損失函式 (LMCL),從不同的角度實現了這一想法。具體而言,我們通過對特徵向量和權向量的 L2 歸一化,把 softmax 損失函式轉化為餘弦損失函式,這樣做消除了半徑方向的變化,並在此基礎上引入了一個餘弦邊緣值 m 來進一步最大化所學習的特徵在角度空間的決策邊界。由此,通過歸一化和餘弦決策邊界的最大化,可實現類間差異的最大化和類內差異的最小化。我們將我們使用 LMCL 訓練得到的模型稱為 CosFace。為了測試我們的方法,我們在 MegaFace Challenge、YouTube Faces (YTF) 和 Labeled Face in the Wild (LFW) 等最流行的公開域人臉識別資料集上進行了大量實驗評估。我們在這些基準實驗上實現了當前最佳的表現,這證明了我們的方法的有效性。