1. 程式人生 > >人臉識別之人臉對齊(五)--ESR演算法

人臉識別之人臉對齊(五)--ESR演算法

轉自:https://blog.csdn.net/app_12062011/article/details/52573024

原文:http://www.thinkface.cn/thread-2911-1-2.html 原文翻譯我看的好蛋疼,完全機器翻譯。甚至懷疑作者是否有通讀過一次。。。。這裡再修改下。

我們提出了一種非常有效、高準確率的人臉對齊方法,將其稱為“顯式形狀迴歸”.和之前的一些基於迴歸的方法不同,通過訓練資料最小化對齊錯誤函式,學習一個向量迴歸函式直接推斷整個面部形狀(一個特徵點集合)。在一個級聯的學習結構中,固有的形狀約束被編譯成一個迴歸向量。對於粗糙的圖片也能得到很好的效果。這個方法不同於之前的方法,沒有使用一個固定的引數形狀模型。

為了使這個迴歸更有效,我們設計了一個二級boosted迴歸,形狀索引特徵和一個基於關聯的特徵選擇方法。這樣組合使我們能在很短的時間內通過大量的訓練資料得到一個精確的模型(2000個訓練圖片使用了20分鐘)。而且這個迴歸在測試階段非常快(對於87個特徵點的形狀使用了15分鐘)。具有挑戰性的實驗資料顯示,我們的方法明顯優於國家的最先進的精度和效率兩個方面。

1.介紹

在人臉識別,人臉跟蹤,人臉動畫和3D人臉建模中,人臉對齊或面部特徵點定位,如眼睛,鼻子,嘴和下巴,是必不可少的任務。隨著個人和網路照片增長,需要一個全自動、高效、強大的人臉對齊方法。目前的做法在無約束的環境中,由於面部美觀,照明和部分遮擋的變化,這樣的需求仍然存在很大的挑戰。
一個臉部形狀包含了個人臉特徵點,給出一張實際的圖片,人臉對齊的目的就是估計一個形狀儘可能地接近真實形狀,即最小化:(論文公式(1))


這個對齊誤差方程(論文公式1)通常用於資料的訓練和人臉的估算。然而,在測試階段,我們不能夠直接最小化該式子,真值是未知的。如何對S進行估算,大部分的對齊方法被分成了兩類。一類是基於優化的,另一類是基於迴歸的。
基於優化的方法是最小化另外的一個誤差函式。這些方法都依賴於誤差函式的選擇。例如,AAM方法[13,16,17,13]使用了一個表現模型重建了整個人臉,通過最小化紋理殘差來估算這個形狀。但是這個模型僅僅限制於位置、表情和光照,對於不可見的圖片效果非常不理想。同時,我們還知道AAM對初始化特別敏感。
基於迴歸的方法是訓練一個迴歸函式,這個函式能夠直接刻畫一個人臉的表面。這些複雜的變數從龐大的訓練資料中獲取,在測試階段是非常有效的。然而,之前的一些方法[6,19,7,16,17]在實現誤差函式最小化中存在著一些缺點。在[7,16,17]中的這些方法依賴了一個引數模型(例如AAM),在訓練過程中使引數錯誤最小。這是一個不直接的方法,因為小的引數誤差不代表小的對齊誤差。在[6,19]中的方法對個體的特徵點進行了迴歸,很高效地使用了式(1)作為他們的誤差函式。然而,由於他們在訓練過程中僅僅地使用了局部的一些特徵點區域,特徵點之間的一些外觀聯絡沒有充分利用,這種迴歸通常非常薄弱,不能夠操作大量的姿態變數。
我們注意到在所有的方法中,形狀約束是必備可少的。僅僅的一些顯著的特徵點(例如眼瞳,嘴角)在一幅圖片的表面是有明確的特徵的。很多其他不顯著的一些特徵點(例如人臉輪廓的這些點)需要在形狀約束的條件下得到,這就是特徵點之間的聯絡。許多之前的一些工作使用了一個引數模型去服從這個約束,例如PCA方法在AAM[3,13]和ASM[4,6]中。
儘管這個引數模型的成功,但是這個方法的靈活性不是很好,此外,使用一個固定形狀模型在對齊迭代過程中有時不會得到理想的結果。例如,初始狀態(形狀遠離目標形狀),要達到快速收斂,得到更好的調整,使用這樣的一個限制模型不是最好的。在之後的階段(這個形狀已經粗約地對齊),我們可以使用一個更靈活的形狀模型和更多靈活的變數來進行微小的調整。我們知道,採用如此的一種形狀模型在文學中很少被採用。
在這篇文章中,我們將呈現一種新穎的基於迴歸的人臉對齊方法,在這個方法中我們沒有采用任何引數形狀模型。通過訓練資料明確地最小化對齊誤差函式來訓練出迴歸量。所有的面部特徵點都以一個向量輸出。我們的迴歸量實現了沒有引數的形狀約束方法:這個迴歸的形狀都是所有訓練圖片形狀的一個線性組合。此外,使用整個面部特徵應用於所有的特徵點中比使用獨立的特徵點小區域更有效。這些能夠使我們訓練出一個靈活的模型。我們稱這種方法為“顯式形狀迴歸”。
在大量的圖片外觀變數下,級聯地迴歸整個面部形狀是具有挑戰的。我們設計了一個boosted迴歸逐步地推斷面部形狀。這早期的迴歸操作大量的形狀變數,保障了魯棒性,在之後操作一些小的象徵變數,確保準確性。因此,這個形狀約束從粗糙到細緻合適地執行,在一個自動的方法。圖片1是一張插圖。在2.2部分有詳細的說明。
在顯式形狀迴歸結構中,我們還設計了一個兩級boosted迴歸,高效的形狀特徵索引和一個快速的基於關聯的特徵選擇方法。以至於(1)我們能夠快速地從大量的訓練資料學習精確的模型(在2000張訓練樣本中使用了20分鐘);(2)這個迴歸結果在測試中非常有效(87個人臉特徵點使用了15ms),我們在幾個挑戰性的人臉資料上得到了驚人的結果。
2.基於迴歸的人臉對齊


在這一部分,我們介紹了基本的形狀迴歸架構和如何去匹配人臉對齊問題。
我們使用了boosted迴歸方法[9,8]用增量方式合併T個弱迴歸器(R1,R2,R3,...RT)。給出一種實際的圖片和一個初始化的人臉形狀,每個迴歸量通過圖片特徵計算出一個形狀增量δS,逐步地更新人臉形狀,如下的級聯方法(論文公式2):


其中第t次弱迴歸量Rt將之前的形狀St-1更新到新的形狀St。
注意到這個迴歸量Rt同時依賴於圖片和之前估算的形狀St-1。我們將會在之後進行詳細說明。我們使用了和之前的形狀有關聯的形狀索引特徵學習每一個Rt。這樣的特徵能夠提高boosted迴歸實現更好的幾何不變性。這個同樣的方法也在[7]中使用。
給出N個訓練樣本,這個迴歸量(R1,R2...RT)連續地被訓練,直到這個訓練誤差不再減小。每一個RT被訓練,通過明確地最小化對齊誤差總和。論文公式3.


其中是Si^t-1上一階段估算的形狀。
2.1二級形狀迴歸
早期的方法使用了一個簡單的弱迴歸量,例如一個樹樁決策樹[6]和fern(類似TLD中的Random fern)在類似的boosted迴歸方法。然而,在我們最近的實驗中,我們發現,這些迴歸量非常弱,在訓練中,收斂特別慢,在測試中,效能比較差。我們推測這是由於這個極端的困難問題:迴歸整個面部形狀(非常多的特徵點)是非常困難的,在很大的圖片外觀變數和粗略的初始形狀。一個簡單的弱迴歸減少得非常慢,不能得到推廣。
學習一個好的弱迴歸量,能夠快速減少錯誤是非常重要的,我們提出了一種方法,通過一個二級boosted迴歸學習每個弱迴歸Rt = (r1,r2,...rk),例如,這個問題類似於(2)(3),但是這個主要的不同是在第二級迴歸中,形狀索引圖片特徵是固定不變的,例如,他們僅僅依賴於St-1,當r學習好以後,這些特徵是不改變的。這是非常重要的,由於每個r相對較弱,允許特徵索引時刻改變的是不穩定的,因此,這個固定的特徵能夠使訓練更快,這個將在之後詳細描述。在我們的實驗中,我們發現使用了一個二級boosted迴歸更加準確。舉例:T=10,K=500比一級的T=5000更好。在表格3中有展現。
在下面,我們將描述如何學習每個弱迴歸量。為了便於記憶,我們稱他為一個原始的迴歸量,索引為k。
2.2原始迴歸
我們使用了一個fern作為我們原始的迴歸量r。這種fern方法第一次在[15]中提出,之後在[7]中被引用。一個fern由F個特徵組成(論文中取5),將特徵空間(所有的訓練樣本)分成了2^f個二值. 每個二值 b與最小化對齊誤差下的輸出增量有關(論文公式4):

 

 

,其中為Si為早期步驟中的估算形狀。這問題(4)的解為平均形狀偏差。論文公式5.


為了克服在組中訓練樣本比較少的情況下過度擬合,引進了一個收縮引數[9,15],論文公式6


其中是一個收縮引數,當這個組有足夠的訓練樣本,將沒有效果,否則,將會降低了估計結果。
無引數的形狀約束

 

 

通過學習一個迴歸向量,明確最小化形狀對齊錯誤函式(式1),形狀之間的關聯被呈現。因為每次個形狀更新是一個增量(式2),每一個形狀增量是一個訓練形狀的線性組合(式5,式6)。很容易看出最終的迴歸形狀是初始形狀加上訓練象徵的線性組合:論文公式7。


因此,只要這個初始化滿足形狀約束,在由所有的訓練形狀構成的線性子空間裡,這個迴歸的形狀總是被約束.實際上,在迴歸中的任何中間形狀都滿足這個約束.和之前的固定形狀模型PCA相比,在學習階段,這個沒有引數的形狀約束更好地被應用。
為了說明自適應形狀的約束,我們對所有儲存的第一級弱歸回量用的形狀增量執行PCA。在圖1中所示,這些形狀空間的本徵維數(通過保留含95%的能量)在學習過程中增加。因此,形狀約束是在歸回中是以粗到細的方式自動編碼的。圖1還示出了第一的三個主要組成部分在第一和所學的形狀的增量(加上一個平均形狀)最後階段。從圖片(c)(d)可以看出,由第一級迴歸量了解到的形狀更新為主萬用字元人毛坯形狀的變化,如偏航,滾動和縮放。相比之下,形狀更新的最後階段迴歸量是占主導地位的微妙變化,如面部輪廓,運動的口,鼻和眼睛。
2.3形狀索引(影象)功能
為了實現高效的迴歸,我們使用簡單的畫素差分特徵,如在影象中的兩個畫素的強度差。這些特徵是非常容易計算而且,在足夠的訓練資料條件下[15,18,7]也很強大。一個畫素的索引相對於原始影象的座標,和相對於估計形狀,後者是更好的。在 [7]中也有類似的想法。這實現了更好的幾何不變性,使迴歸問題更容易,收斂更快。
為了實現特徵對臉尺度和旋轉不變性,我們首先對當前形狀做一個類似變換,使其歸一化到平均形狀(即由最小二乘法擬合的所有面部特徵點估計出的形狀)。以前的文章[6,19,16]需要對圖片做轉換來計算類HAAR特徵。在我們的例子中,我們用變換畫素座標返回到原始影象來計算畫素差分特徵,這是更為有效率的。
在一般的形狀中,都採用了一個簡單的方法來索引畫素,即利用其全域性座標。對於簡單的形狀,例如橢圓,這是很不錯的,但對於非剛性形狀(如臉形)是遠遠不夠的。
因為最有用的特徵是分佈在顯著的特徵點旁邊,如眼睛,鼻子和嘴,特徵點3D/表情/身份。在這項工作中,我們建議使用相對於它最近的特徵點的區域性座標最為他的索引座標。正如圖2所示,例如索引持有對上面提到的變化,使該演算法的魯棒方差。
對於第一級的每個的弱迴歸量,我們隨機抽樣畫素。生成了個畫素差分特徵。現在,新的挑戰是如何快速地選擇有效的特徵,在如此大的一個數據中。
2.4基於相關性的特徵選擇
要形成一個良好的fern迴歸量,我們需要在個特徵中選擇特性。一般隨機生成若干個fern,形成一個fern池,從中選擇出使迴歸誤差(4)中最小的一個 [15,7]作為最終的fern。我們將這種方法表示為n-Best,其中n是池的大小。由於組合爆炸,評價(4)可用於所有的組合物的功能是不可行的。如表4中所示,將n從1增到1024,該錯誤僅輕微降低,訓練時間顯著增長。
為了在更短的時間找到巨大的特徵空間,產生更好的fern。我們利用特徵之間的相關性進行目標迴歸。我們的目標是向量 delta 形狀(真實形狀與當前估計形狀的差異)。我們預計,良好的fern應該滿足兩個特性:(1)在fern中的每個特徵對於目標迴歸應該有高度識別性;(2)特徵之間的相關性應該較低,他們互補。
為了找到滿足這些屬性的特徵,我們提出了一種基於相關性的特徵選擇方法:
1.專案的的迴歸目標(向量三角形形狀),產生一個隨機的方向標。
2.在 P個特性中,選擇功能相關的標量最高。
3.重複步驟1、2。F次迭代獲得F個特徵。
4.構建一個fern,包含了F個特徵和閾值。
隨機投影有兩個目的:它可以保持接近[2],使得相關的功能的投影也有歧視性的三角形狀,在多個投影刮鬍子低的相關性有很高的機率,並有可能選定的功能是互補的。如表4所示,基於相關的方法可以選擇好等特點,在很短的時間,比當時最好的方法要好得多。
更快的相關性計算:我們很容易看出在第二個步驟中,需要分別計算個特徵與隨機投影的相關性,這計算量是非常大的。幸運的是,這個計算複雜度可以從減少到。隨機投影和一個差分特徵之間的關係可以分成三個部分:,,。在第一級迴歸中,所有的形狀畫素索引都已經固定,計算隨機投影與個畫素之間的相關性的複雜度變成。
3.實現細節
我們討論更多的實現細則,包括在訓練和測試中的形狀初始化,引數的設定和執行效能。
訓練資料增強  每個訓練樣本包含了一個訓練影象、一個初始形狀和一個真實形狀。為了達到更好的對齊效能,我們增加了訓練資料,通過隨機抽樣的訓練樣本影象中的多個形狀(在我們的實驗中為20個)作為每個訓練影象的初始形狀。在測試過程中,這對大型姿態變化和粗糙的初始形狀是非常有效的。
測試多個初始化形狀:對於不同的測試影象和多初始化形狀,這個迴歸量都能給出合理的結果。如圖3所示,當多個畫素估計緊緊地聚集,其結果是準確的,反之亦然。在測試中,我們進行了多次實驗,最終以中間結果作為最終估計。每次的初始形狀都是從訓練樣本形狀中隨機選取的。這進一步提高了對齊精確度。
執行時間效能:表1統計了不同特徵點數目的訓練時間(2000個訓練影象)。採用了快速特徵選擇方法使得我們的訓練非常有效。訓練40000個樣本(每個樣本20個初始形狀)僅僅花費了幾分鐘。由於大多數計算畫素的比較,查表和向量相加使得測試過程中形狀迴歸非常有效。對於87個特徵點在測試階段僅花費了15毫秒。
引數設定:我們將F 設定為5,β設定為1000。T = 10,K = 500,P =400。
4.實驗
實驗被分成了兩個部分。第一部分是將我們的方法和之前的方法進行比較。第二部分所提出的方法進行驗證,並提出了一些有趣的討論。
我們簡要地介紹了在實驗室使用的三個人臉資料庫。由於不同的特徵點數目和影象變化,他們呈現了不同的挑戰性。
BioID[11]資料集被廣泛使用在一些之前的方法中。它由1521幅在實驗室環境下拍攝的正面人臉影象,因此具有較小的挑戰性。我們結果表明,在該資料庫上具有較好的效能。
LFPW是在 [1]中建立。這些影象可以從網上下載幷包含了大量的姿態,光照,表情變化,遮蓋物。它的目的是測試在無約束條件下的人臉比對方法。該資料集只是有網路圖片url分享的,但有些URL已經無效了。我們從1100張訓練影象中下載了812張,從300張測試影象中下載了249張。為了獲得足夠的訓練資料,我們以同樣的方式增強訓練影象。
LFW87人臉資料庫是在[12]中建立的。這些影象主來自於LFW資料庫。這是在野生的條件下獲得的,被廣泛應用於人臉識別。此外,它提高了87個註釋的特徵點座標,遠遠超過BioID和LFPW資料庫,因此,演算法的效能更多地依賴其形狀約束。我們使用了和[12]相同的4,002訓練和1,716個測試影象。
5.討論和結論
我們已經提出了基於顯式形狀迴歸的人臉對齊方法。共同迴歸整個面部形狀使對準誤差最小,人臉形狀約束自動被實現。這個方法得到的結果具有很高的精確度,能夠被使用用實時的應用的,例如人臉跟蹤。同時,這個顯式形狀迴歸框架可以應用於其他問題中,例如姿態估計和醫學影象中的解剖結構分割。