人臉表情識別概述(一)
二、1971年,心理學家Ekman與Friesen的研究最早提出人類有六種主要情感,每種情感以唯一的表情來反映人的一種獨特的心理活動。這六種情感被稱為基本情感,由憤怒(anger)、高興(happiness)、悲傷 (sadness)、驚訝(surprise)、厭惡(disgust)和恐懼(fear)組成
人臉面部表情運動的描述方法---人臉運動編碼系統FACS (Facial
Action Coding System),根據面部肌肉的型別和運動特徵定義了基本形變單元AU(Action Unit
FACS有兩個主要弱點:1.運動單元是純粹的區域性化的空間模板;2.沒有時間描述資訊,只是一個啟發式資訊
三、人臉表情識別的過程和方法
1、表情庫的建立
目前,研究中比較常用的表情庫主要有:
美國CMU機器人研究所和心理學系共同建立的Cohn-Kanade AU-Coded Facial Expression Image Database(簡稱CKACFEID)人臉表情資料庫;
日本ATR建立的日本女性表情資料庫(JAFFE),它是研究亞洲人表情的重要測試庫
fer2013人臉資料集,可以從kaggle網站上下載
更多庫---> 參考連結
2、表情識別:
(1)影象獲取:通過攝像頭等影象捕捉工具獲取靜態影象或動態影象序列。
(2)影象預處理:影象的大小和灰度的歸一化,頭部姿態的矯正,影象分割等。
目的:改善影象質量,消除噪聲,統一影象灰度值及尺寸,為後序特徵提取和分類識別打好基礎
主要工作:人臉表情識別子區域的分割以及表情影象的歸一化處理(尺度歸一和灰度歸一)
(3)特徵提取:將點陣轉化成更高級別影象表述—如形狀、運動、顏色、紋理、空間結構等, 在儘可能保證穩定性和識別率的前提下,對龐大的影象資料進行降維處理。
特徵提取的主要方法有:提取幾何特徵、統計特徵、頻率域特徵和運動特徵等
1)採用幾何特徵進行特徵提取主要是對人臉表情的顯著特徵,如眼睛、眉毛、嘴巴等的位置變化進行定位、測量,確定其大小、距離、形狀及相互比例等特徵,進行表情識別
優點:減少了輸入資料量
缺點:丟失了一些重要的識別和分類資訊,結果的精確性不高
2)基於整體統計特徵的方法主要強調儘可能多的保留原始人臉表情影象中的資訊,並允許分類器發現表情影象中相關特徵,通過對整幅人臉表情影象進行變換,獲取特徵進行識別。
主要方法:PCA(主成分分析)和ICA(獨立主元分析)
PCA用一個正交維數空間來說明資料變化的主要方向 優點:具有較好的可重建性 缺點:可分性較差
ICA可以獲取資料的獨立成份,具有很好的可分性
基於影象整體統計特徵的提取方法缺點:外來因素的干擾(光照、角度、複雜背景等)將導致識別率下降
3)基於頻率域特徵提取: 是將影象從空間域轉換到頻率域提取其特徵(較低層次的特徵)
主要方法:Gabor小波變換
小波變換能夠通過定義不同的核頻率、頻寬和方向對影象進行多解析度分析,能有效提取不同方向不同細節程度的影象特徵並相對穩定,但作為低層次的特徵,不易直接用於匹配和識別,常與ANN 或SVM 分類器結合使用,提高表情識別的準確率。
4)基於運動特徵的提取:提取動態影象序列的運動特徵(今後研究的重點)
主要方法:光流法
光流是指亮度模式引起的表觀運動,是景物中可見點的三維速度向量在成像平面上的投影,它表示景物表面上的點在影象中位置的瞬時變化,同時光流場攜帶了有關運動和結構的豐富資訊
光流模型是處理運動影象的有效方法,其基本思想是將運動影象函式f(x, y,t)作為基本函式,根據影象強度守恆原理建立光流約束方程,通過求解約束方程,計算運動引數。
優點:反映了表情變化的實質,受光照不均性影響較小
缺點:計算量大
5)分類判別:包括設計和分類決策
在表情識別的分類器設計和選擇階段,主要有以下方法:用線性分類器、神經網路分類器、支援向量機、隱馬爾可夫模型等分類識別方法
5.1)線性分類器:假設不同類別的模式空間線性可分,引起可分的主要原因是不同表情之間的差異。
5.2)神經網路分類器:人工神經網路(Artificial Neural Network,ANN)是一種模擬人腦神經元細胞的網路結構,它是由大量簡單的基本元件—神經元,相互連線成的自適應非線性動態系統。將人臉特徵的座標位置和其相應的灰度值作為神經網路的輸入,ANN可以提供很難想象的複雜的類間分介面。
神經網路分類器主要有:多層感知器、BP網、RBF網
缺點:需要大量的訓練樣本和訓練時間,不能滿足實時處理要求
5.3)支援向量機(SVM)分類演算法:泛化能力很強、解決小樣本、非線性及高維模式識別問題方面表、新的研究熱點
基本思想:對於非線性可分樣本,首先通過非線性變換將輸入空間變換到一個高維空間,然後在這個新空間中求取最優線性分介面。這種非線性變換通過定義適當的內積函式實現,常用的三種內積函式為:多項式內積函式、徑向基內積函式、Sigmoid內積函式
5.4)隱馬爾可夫模型(Hidden Markov Models, HMM):特點:統計模型、健壯的數學結構,適用於動態過程時間序列建模,具有強大的模式分類能力,理論上可處理任意長度的時序,應用範圍非常廣泛。
優點:運用HMM方法能夠比較精確的描繪表情的變化本質和動態效能
5.5)其他方法:
基於人臉物理模型的識別方法,將人臉影象建模為可變形的3D網格表面,把空間和灰度放在一個3D空間中同時考慮。
基於模型影象編碼的方法是使用遺傳演算法來編碼、識別與合成各種不同的表情
四、研究展望
(1)魯棒性有待提高:
外界因素(主要是頭部偏轉及光線變化的干擾)
採用多攝像頭技術、色彩補償技術予以解決,有一定效果,但並不理想
(2)表情識別計算量有待降低è確保實時性的要求
(3)加強多資訊科技的融合
面部表情不是唯一的情感表現方式,綜合語音語調、脈搏、體溫等多方面資訊來更準確地推測人的內心情感,將是表情識別技術需要考慮的問題
附現階段具體的人臉表情識別方法
人臉表情識別方法 |
方法簡單描述 |
優點 |
缺點 |
稀疏表示 |
用稀疏表示法對樣本庫進行描述,建立超完備子空間,重構並觀察殘差,最後通過稀疏係數進行分類 |
操作簡單,可以做前期的基礎實驗,有一定的魯棒性 |
描述物件必須要是稀疏的,降低了實際應用價值,對於樣本要求也比較高 |
Gabor變換 |
通過定義不同的核頻率、頻寬和方向對影象進行多解析度分析,能有效提取不同方向不同細節程度的影象特徵並相對穩定, 常與ANN 或SVM 分類器結合使用,提高表情識別的準確率 |
在頻域和空間域都有較好的分辨能力,有明顯的方向選擇性和頻率選擇特性 |
作為低層次的特徵,不易直接用於匹配和識別,識別準確率也不是很高,樣本較少的條件下識別準確率也較低 |
主成分分析和線性判別 |
儘可能多的保留原始人臉表情影象中的資訊,並允許分類器發現表情影象中相關特徵,通過對整幅人臉表情影象進行變換,獲取特徵進行識別 |
具有較好的可重建性 缺點:可分性較差 |
外來因素的干擾(光照、角度、複雜背景等)將導致識別率下降 |
支援向量機 |
作為分類器做人臉識別,在表情識別時一般和Gabor濾波器一起使用作為分類器 |
在小樣本下的識別效果較為理想,可以做實時性的表情識別 |
樣本較大時,計算量和儲存量都很大,識別器的學習也很複雜 |
光流法對運動特徵提取 |
是將運動影象函式f (x,y,t)作為基本函式,根據影象強度守恆原理建立光流約束方程,通過求解約束方程,計算運動引數 |
反映了人臉表情變化的實際規律,受外界環境的影響較小,比如光照條件變化時,識別率不會有太大變化 |
識別模型和演算法較複雜,計算量大 |
影象匹配法 |
通過使用彈性圖匹配的方法將標記圖和輸入人臉影象進行匹配 |
允許人臉旋轉,和能夠實時處理 |
會受到其他部位特徵的影響,如眼鏡,頭髮等 |
隱馬爾可夫模型 |
由觀察的面部表情序列及模型去計算觀察面部表情序列的概率,選用最佳準則來決定狀態的轉移;據觀察的面部表情序列計算給定的模型引數 |
識別準確率較高,平均在97%以上 |
對前期的面部表情序列模型要求較高,這對錶情識別演算法的準確率影響也較大 |
其他方法如:矩陣分解法 |
以NMF為例,分解後的基影象矩陣和係數矩陣中的元素均是非負的。將表徵人臉各部分的基影象進行線性組合從而表徵整個表情影象。 |
需要的樣本較少,在無遮擋時識別準確率90%以上 |
受外界環境影響較大,識別準確率在嘴巴受到遮擋時,準確率只有80%左右 |