1. 程式人生 > >《基於剪下波變換的人臉表情識別》筆記

《基於剪下波變換的人臉表情識別》筆記

【時間】2018.10.16

【題目】《基於剪下波變換的人臉表情識別》筆記

【論文連結】http://www.wanfangdata.com.cn/details/detail.do?_type=degree&id=Y2102266

概述

    本文是閱讀論文《基於剪下波變換的人臉表情識別》後的一些筆記。

 

1 引言

1.1臉表情識別技術的系統框架

    人臉表情識別(Facial Expression Recognition,FER)的方法大致分為兩類:基於靜態影象的識別和基於影象序列或視訊的識別。基於影象序列或視訊的識別能夠較好的提取面部的動態變化,而基於靜態影象的研究多依賴於表情的峰值,很難精確地揭示表情的細微變化。但是,相比較而言基於靜態影象的識別方法速度更快而且更為簡單。無論哪種方法,基本的人臉表情識別系統都包括以下四個步驟:人臉的檢測,影象規範化,特徵提取和表情分類。圖2.1顯示了一個完整的人臉表情識別系統。

    人臉檢測是整個人臉表情識別系統的第一步,這一環節實際上已成為一個獨立的研究方向:接著,對影象或視訊影象序列進行平滑、歸一化、旋轉及尺寸裁剪等影象規範化處理,其目的是減少光照、旋轉和尺寸等對影象的干擾並對人臉達到精確的定位;第三步是從規範化的影象中提取能夠表徵輸入表情本質的有效資訊:最後,將提取到的的表情特徵向量與訓練資料相比,得到分類結果。本文的研究重點放在特徵提取和識別方法方面。

 

1.2表情特徵分析

  表情特徵分析包括表情特徵提取和表情特徵表示。在影象處理或者計算機視覺領域,特徵提取一般是指從影象或視訊影象序列中提取有用資料或資訊的過程,可以說是決定識別系統優劣的關鍵。表情特徵提取的方法很多,圖2.2給出了計算機視覺領域表情特徵提取方法的不同流派。

  先根據面部特徵是基於全域性還是區域性操作可分為基於幾何特徵的特徵提取方法和基於整體的特徵提取方法。無論是基於全域性的還是區域性的方法,表情特徵提取方法還可以根據輸資料是靜態影象還是視訊影象序列分為形變特徵提取法和運動特徵提取法。運動特徵一般提取的是視訊影象序列中幀之間面部細微的動態變化,主要有光流法its]和3D模型法嗣。形變特徵提取的是靜態影象中面部的一些形變資訊,包括紋理形變和幾何形變。而形變特徵提取法中又可細分為基於幾何特徵的方法、基於表觀特徵的方法和基於2D模型的方法等。幾何特徵是使用臉部特定位置的點(例如眼角、嘴角等)問的位置關係來表達表情特徵;外貌特徵則泛指使用一定範圍內所有畫素的特徵提取方式,可以直接使用影象的灰度值作為特徵,也可以使用一組濾波器對影象進行濾波,利用所得的結果作為表情特徵。基於二維模型的方法大多依賴於主動表觀模型(Active Appearance Modd,AAM),AMY使用1 22個基準點和PCA方法生成一個面部形狀變換的統計模型。總而言之,特徵均以向量的形式表示並用於分類操作,稱為特徵向量。

 

1.3表情分類方法(分類器)

   表情分類是表情識別系統的最後環節,目前常用的是各種不同的機器學習演算法有:

(1)高斯混合模型(Gaussian Mixture Model,GMM):高斯混合模型就是用概率密度函式(Probability Density.Function,PDF)來量化事物,將事物分解成若干個高斯概率密度函式形成的模型。

(2)K近鄰分類器(k-nearest Neighbors,k.NN):對於一個輸入向量Y,k-NN演算法找到Y在訓練資料集中最近的k個鄰居(一般都使用歐幾里德距離),根據這k個鄰居的類別進行投票,確定Y相對應的類別。

(3)神經網路分類器(Neural Network,NN):不同於傳統的貝葉斯分類等統計方法,神經網路方法不需要概率分佈知識,通過訓練樣本就可以得到引數、權重和偏差。

(4)Fisher線性分類器(Fisher’s Linear Discriminant Analysis,FLDA):線性判別函式的基本思想是判別函式g(曲是X的線性函式。對於c類別的分類問題,判別函式可表示為,其中wi為投影向量,bi為常數。Fisher線性判別準則要求線性變換後的類間和類內散佈矩陣的行列式值之比最大。

(5)支援向量機(SupportVectorMachine,SVM):其中心思想是通過非線性變換將原始資料的非線性問題轉換為高維特徵空間的線性問題,在高維特徵空間中構造最優超平面實現分類。

(6)Adaboost分類器:Adaboost是一種迭代演算法,其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),然後把這些弱分類器集合起來,構成一個更強的最終分類器(強分類器)。

(7)基於壓縮感知的分類器:基於壓縮感知的分類器,也稱為稀疏表達分類器,該方法利用所有的訓練樣本對測試樣本進行稀疏表示,並利用壓縮感知理論進行此稀疏表示的求解,從而對測試樣本分類。

1.4常用的人臉表情資料庫介紹

本節將簡要的介紹一些公開的表情資料庫:

(1)JAFFE人臉表情資料庫:該資料庫是由日本ART建立的日本女性表情庫,其中的圖片採集於10名女性志願者,每個志願者都表現出7種表情(6種基本表情:高興、悲傷、驚訝、生氣、厭惡、恐懼,以及一種中性狀態)。每人每種表情採集2--4張圖片,共有213張圖片,影象大小為256X256畫素,256灰度級。圖1.1是JAFFE人臉表情資料庫中一個人對應的7種表情。

(2)Cohn.Kanade人臉資料庫:該庫由CMU基於動作單;元(Action Unit)編碼建立,包含了210人的近2000餘副灰度影象序列,每種表情均由一系列的動態影象構成,每幅圖片大小為640X480或者640X490。

(3)CMU PIE人臉資料庫:該庫包含了50位男性18位女性共68個人的41368張樣本影象,包含13種姿態變化,43種光照條件變化,和4種表情,即中性表情、微笑、眨眼、說話。

(4)ORL人臉資料庫:該資料庫是由英國劍橋大學Olivetti實驗室所建立,採集了40個不同年齡、種族、性別的志願者,每人10張圖片共計400幅灰度圖片,圖片大小均為為92×112。

(5)Yale人臉表情資料斟:該資料庫包括15個研究物件,每個研究物件包括3種光照,6種表情,戴眼鏡和不帶眼鏡共11張,共有165幅樣本影象。

(6)加拿大瑞爾森RML人臉表情資料庫:該庫採集了來自6個不同國家、不同文化背景的人在自然狀態下的高興、沮喪、生氣、害怕、驚奇、厭惡和中性等人臉7種基本表情樣本,共計450張人臉表情圖片和500旬左右的語音資訊。

(7)由吳丹等建立的大規模中國人臉表情視訊資料岸,共採集了70位志願者的共計1000段臉部表情視訊,從三個不同的視角記錄表情變化,是目前我國人臉表情識別研究領域較全面的基礎資源資料庫。

(8)東北大學的張慶凱等建立的一個小型的人臉表情視訊資料庫,從三個不同視角採集表情資訊,記錄了7個人的共計100段面部表情視訊。

 

2 基於離散可分離剪下波變換的人臉表情特徵提取

2.1  剪下波的定義及離散演算法

      Shearlet【48】是一類新的多尺度幾何分析方法,該方法通過對基本函式的縮放、剪下和平移等仿射變換來構造,體現了函式的幾何和數學特性,如近幾年來許多領域的研究學者所強調的函式的方向性、尺度和振盪等。Shearlet 可以和多解析度分析關聯起來,這樣就可以獲得像小波-樣的迭代演算法,並推廣到經典的級聯演算法(49。因此Shearlet變換作為一種新型的多尺度幾何分析工具為影象處理領域的研究人員所廣泛接受。

 

 2.1.1  Shear let變換的定義和性質

   連續剪下波變換解決了波前集問題,其平移引數可檢測到所有奇異點的位置,而剪下引數則可顯示出奇異曲線的方向。

 

2.1.2.ShearIet變換的離散化

 

 

2.2離散可分離剪下波變換及其數值計算

2.2.1 離散可分離剪下波變換(DSST)

    Wang.Q Lim[481在2010年提出了離散可分離剪下波變換(Discrete Shearlet Transform,DSST).

    離散可分離剪下波變換(DSST)的計算方法可通過如下步驟表示:

 

2.3影象的剪下波分解

          離散剪下變換通過剪下矩陣將原始影象對映到不同的方向上。方向性的實現通常有兩種方法:旋轉和剪下。在某種意義上,旋轉是一個非常方便的工具,它保留了重要的幾何資訊,如長度、角度和並行性。然而,這種方法不保留整數格,對於數字化有一定的困難。與此相反,剪下矩陣最不但能夠提供方向性,當剪下引數k是整數時,還保留了整數格。圖2.4顯示了一副標準影象“zoneplate"(256X256)經過剪下變換後的結果,有L=6個方向。

     在圖2.4中,上行為在水平錐cn內的三個方向,下行為在垂直錐cl內的三個方向。輸入原始影象尺寸為256×256,由圖可知剪下變換後各個方向分量尺寸仍為256×256。由圖2.4可以看出,剪下波具有很強的方向敏感性。

    各向異性小波變換將影象分解為低頻子帶和高頻子帶。在各向異性小波變換中,沿水平和垂直方向的變換個數是不相等的,也就是說在同一尺度上,沿水平方向上的變換,l-和垂直方向上的變換%並不需要相等【49】。

  將剪下變換得到的各方向子帶進行各向異性離散小波變換完成多解析度分解,即實現剪下波變換。圖2.6顯示了標準影象“zoneplate’’經過三尺度6方向剪下波變換後的剪下波係數。

                 

2.4 ShearIet域的影象特徵分析

2.4.1 影象在Shear Iet域的能量分佈

     影象經過某種離散變換後的能量分佈體現了影象的變換特徵,從無失真壓縮的角度考慮,變換的目的是希望影象經離散變換後能量儘可能的集中在少量的幾個係數中,即具有能量聚集性,由此可得到較高的壓縮比。影象經過Shearlet變換後,能量的分佈會隨著變換尺度n的變化呈現出一定的規律。本節通過模擬分析了影象在Shearlet域的能量分佈。為了體現結論的普遍性,模擬影象選用標準“lena’’(512X512)灰度影象,如圖(2.7)所示,並給出了其在Shearlet域能量峰值最分解尺度變化的曲線。圖2.8(a)--2.8(e)給出了“lena’’影象在分解尺度n=l,3,5,7,9時的Shearlet係數的能量分佈。

 

從圖2.8(a)~(e)可以清楚的看出:對於的影象,對其進行11尺度二維離散Shearlet變換時,能量主要集中在的區

域內,即低頻分量部分;隨著分解尺度的增大,影象在Shearlet域的能量分佈趨於二維座標平面的原點。此對於的影象,Shearlet變換的係數為

,定義能量比p為:

 

  圖2.9分別給出了“lena”影象的Shearlet域能量比值P隨尺度變化的過程。由圖2.9可以看出,隨著分解尺度的增大,低頻區域包含的總能量卻在慢慢減少,儘管如此,在六尺度Shearlet分解時,Shearlet域的能量在此區域內的聚焦度依然達到了90%以上。由以上分析可知,影象的Shearlet變換具有良好的聚焦性。所以當我們利用Shearlct變換提取表情特徵時,低頻分量應該作為識別的重要特徵。

 

2.4.2影象在ShearIet域的低頻與高頻特徵

     

(1)由圖2.10(a)~圖2.14(a)可以看出,Shearlet變換後的低頻分量主要體現了影象的輪廓資訊。在表情識別中,體現的主要是表情的概貌。當分解尺度由小變大時,低頻分量含有的資訊越來越少,僅由低頻部分重構的影象越來越模糊。當分解尺度較少時,相當於經歷了截止頻率較高的低通濾波器,高頻成分浮現出來,還能清晰的看到影象的邊緣,如圖2.10(a)所示。分解尺度較大時,相當於截止頻率較低的低通濾波器,如圖2.14(a)所示。

(2)由圖2.10(b)~圖2.14(b)可以看出,由高頻部分重構的影象可以很明顯的觀察到“lena"的邊緣資訊。影象的邊緣和紋理資訊主要包含在含有高頻部分的資訊中,隨著分解尺度的增大,邊緣和紋理資訊越來越明顯,而在表情識別中,人臉面部的邊緣和紋理資訊在識別過程中發揮著重要的作用。當對影象進行完全分解時,對應於截止頻率非常低的高通濾波器,只有小部分低頻分量被濾除出,僅由高頻資訊重構的影象接近原影象,如圖2.14(b)所示。

(3)當分解尺度適中時,由低頻和高頻所重構的影象均既包含了原影象的輪廓資訊,也包含了原影象的邊緣資訊,如圖2.1l(a)和2.12(b)所示,這對於表情識別是非常重要的。

 

2.4.3影象在ShearIet域的各尺度高頻特徵

    高頻部分主要體現了影象的邊緣和紋理資訊,那麼對於刀尺度Shearlet變換來說,研究各尺度高頻分量之間的有何區別,又有何相關的性質的有必要的。對影象進行完全分解,分別使用各尺度高頻係數做二維離散Shearlet反變換,得到分別由各尺度高頻Shearlet係數重構出的影象。

    選用“lena’’(512X512)影象進行模擬,在完全分解尺度,腳下的模擬結果如圖2.15(a)~(i)所示,方向數目均為6。

   

     

  

 

    由圖2.15(a)~(i)可以看出,隨著尺度的逐漸增大,影象在Shearlct域的各尺度高頻資訊經過逆變換所得到的影象的邊緣經歷了一個由模糊到清晰再到模糊的過程,圖2.15(b)~(d)重構邊緣效果比較好,而且在圖2.15(g)一(i)中,邊緣資訊越來越模糊。因此在本文的識別系統中,並不將表情影象的Shearlet係數全部用做特徵,而考慮將低頻分量與某一尺度體現邊緣效果好的高頻分量融合作為表情特徵進行提取。

2.5 Shearlet域人臉表情影象特徵提取

2.5.1 表情影象的預處理

    本文將採用形態學和幾何規範學的方法對檢測到的面部區域進行歸一化處理,具體流程如圖2.16所示。

  需要說明,可分離剪下波的數值計算要求圖片的大小必須為,而待處理的影象大小不能滿足此要求,因此必須對待處理的影象進行降維預處理。常用的降維方法包括主成分分析法,線性混合模型法和神經網路法等。本文采用最近鄰插值法對影象進行降維處理.

    經過上述預處理後的影象如圖2.17所示,每張影象的大小為64×64。

 

2.5.2Shearlet域人臉表情特徵提取

在本文中將低頻分量與某一尺度高頻分量融合作為表情識別過程中所需要提取的特徵,既壓縮了資料量,又體現了表情的本質特徵。

圖2.18顯示了一副人臉表情影象經過Sharlet分解後的結果,方向數目為6,尺度數目為3。

3基於DSST—SVM的人臉表情識別系統

3.1 系統描述

    Shearlet變換的低頻係數集中了原始影象的大部分能量,反應表情的紋理資訊,因此在進行表情特徵提取時,低頻分量應該被選取。同時,高頻係數則反應表情的邊緣、輪廓等細節資訊,所以選取部分高頻係數與低頻係數進行特徵融合,更能體現表情的本質特徵,進一步提高識別率。本章提出的基於DSST-SVM的人臉表情識別系統框圖如圖3.1所示。系統演算法描述如下:

(1)為減小運算量並滿足DSST對輸入影象大小的要求,先對原始影象進行預處理;

(2)對訓練樣本如進行玎(擰=l,2,3,4,5)尺度的剪下波變換,方向數目L=6。選取所有方向的低頻分量磚作為表情特徵。

(3)對測試樣本以。,重複如上操作,根據實驗結果選擇識別率最好的尺度。

(4)在此尺度下分析各尺度高頻分量碟的識別效果,選取識別率最高的高頻分量。

(5)對訓練樣本k和測試樣本如,將低頻分量與識別效果最好的高頻分量融合作為表情特徵。

(6)最後採用“一對一"SVM分類機制進行分類識別。

 

4 基於DSST一可分性分析的人臉表情識別系統

4.1系統描述

   針對Shearlet變換中的尺度與方向選擇問題,本章提出了基於DSST-可分性分析的人臉表情識別系統。在此係統中,通過Shearlet變換,提取各尺度各方向的高頻分量,然後通過可分性分析來評價尺度和每個方向所提取特徵在分類方面的優劣,以此來選擇那些具有最大可分性的尺度和方向,最後利用SVM分類進行分類。本章提出的基於DSST-可分性分析的人臉表情識別系統框圖如圖4.1所示。系統演算法描述如下:

(1)為減小運算量並滿足DSST對輸入影象大小的要求,先對原始影象進行預處理;

(2)對訓練樣本k進行5。尺度的剪下波變換,方向數目L-18。提取各尺度各方向的高頻分量砝。

(3)利用可分性判決函式計算各尺度各方向高頻分量的可分性指標,按照可分性指標確定剪下波變換的分解尺度及所提取高頻分量的尺度。

(4)在確定的尺度上,將高頻分量各方向的可分性指標從大到小排序,然後使用具有最佳可分性的前k個方向的低頻部分與該尺度高頻分量作為提取的表情特徵

(5)對測試樣本k提取同樣的表情特徵,最後採用“一對一’’SVM分類機制進行分類識別。

 

---------------------------------------------------------------------未完待續-------------------------------------------------------------------------