1. 程式人生 > >《Look at Boundary: A Boundary-Aware Face Alignment Algorithm 》閱讀筆記

《Look at Boundary: A Boundary-Aware Face Alignment Algorithm 》閱讀筆記

摘要

本文提出了一種新的邊界感知人臉對齊演算法,演算法通過利用邊界線作為人臉幾何框架實現人臉 landmark 的定位。與傳統的基於熱力圖或基於迴歸的方法不同,本文的方法從邊界線處提取人臉 landmarks,消除了定義 landmark 的歧義。本文探討並回答了以下三個問題:

1. 為什麼使用邊界? 2. 如何使用邊界? 3. 邊界估計與 landmark 座標之間有什麼關係?

該演算法的效果遠遠超過了當前最優的演算法。在 300-W Fullset 上的平均誤差為 3.49%,該演算法還可以整合其他資料集的資訊,通過使用資料集 300-W 的邊界資訊,該演算法在資料集 COFW 上的平均誤差和錯誤率分別為 3.92%,0.39%;在資料集 AFLW-Full 上的平均誤差為 1.25%。為了統一不同因素(包括姿態、表情、光照、化妝、遮擋以及模糊)下的訓練和測試,作者提出了一個新的資料集 WFLW。

一、前言

人臉對齊也就是人臉特徵點定位是許多人臉應用中的關鍵步驟,例如人臉識別、人臉驗證以及 face frontalisation 等。

研究問題

設計出一種高效的適用於多個數據集、多種標記方式的人臉對齊演算法,該演算法可以處理無約束的人臉姿態變換以及遮擋條件下的人臉對齊問題。

解決辦法

利用人臉邊界作為人臉幾何結構對 landmark 進行迴歸預測。

與人臉檢測和人臉識別不同,人臉對齊(識別人臉幾何模型)可以看作對高度結構化的輸出進行建模。每個面部 landmark 與某個明確的面部邊界線高度相關,例如眼眶和鼻樑。

Q1:為什麼使用邊界?

  1. 與邊界相比,面部 landmarks 並不是那麼好定義。在較大姿態變化以及遮擋的情況下,除了一些邊緣點以外,面部 landmarks 幾乎不可能保持在同一位置;
  2. 現有資料集的不同標記方式導致各資料集的 landmark 數量有所差異,而且很難對未來人臉對齊資料集的標記方式進行預測,但邊界是對結構進行詳盡和明確的描述,因此在不同的頭部姿勢以及不同的資料集間是一致的;
  3. 人臉 landmarks 與人臉邊界高度相關,因為大多數 landmarks 都落在邊界線上;
  4. 在第二部分的訊息傳遞機制中,在邊界之間傳遞訊息比在 landmark 之間傳遞訊息的開銷小。

作者認為一個唯一的面部框架對人臉 landmarks 的定位至關重要,因為人臉是沒有歧義的(比如鼻子不可能在眼睛上面)。

因此作者選用明確的面部邊界作為人臉的幾何結構。在大的姿態變換以及遮擋情況下,人臉邊界的確定比人臉 landmark 的確定更為容易。本文中,我們使用了 13 條邊界線作為面部框架。

每條面部邊界線可以通過對多個數據集上足夠多的面部 landmark 進行插值得到,而且不會受不同標記方式的影響。

邊界感知人臉演算法包括兩個階段:

首先對面部邊界熱力圖進行預測; 然後利用邊界熱力圖對人臉 landmarks 進行迴歸。

Q3:邊界估計與 landmark 座標之間有什麼關係?

為了探索麵部邊界與 landmarks 之間的關係,作者提出了基於 landmark 邊界有效性判別器的對抗學習思想。實驗證明,邊界預測的質量越好,landmark 座標的精確度越高。

對抗學習 採用對抗學習進一步提高嚴重遮擋條件下的人臉位姿估計精度。

本文演算法由三個部分組成:

1. 邊界熱力圖預測器 2. landmark 迴歸器 3. 邊界有效性判別器

作者使用堆疊沙漏結構對邊界熱力圖進行預測,為了增強遮擋狀態下的魯棒性,作者使用訊息傳遞機制對人臉邊界間的關係進行建模。人臉邊界熱力圖生成之後,下一步就是利用邊界得到人臉 landmarks。為了充分利用結構資訊,作者在 landmark 迴歸網路中的多個階段使用邊界熱力圖,實驗結果表明,應用階段越多,landmark 預測效果越好。

堆疊沙漏網路 堆疊沙漏網路因為其自下而上、自上而下的設計使得網路可以獲取多尺度資訊從而取得了不錯的精確度。

訊息傳遞機制 訊息傳遞機制在人體關節結構建模中的效果很好。

2. 相關工作

在人臉對齊的文獻中,除了經典的演算法,例如 ASMs,AAMs,CLMs 以及級聯迴歸方法以外,最近,DCNNs(深度卷積神經網路)取得了很好的效果,基於深度卷積神經網路的方法主要分為兩類,座標迴歸模型熱力圖迴歸模型

座標迴歸模型

直接學習輸入影象與 landmark 座標向量間的關係。儘管座標迴歸模型可以不經過預處理就可以明確推斷出 landmark 的座標,但它的效果還是不如熱力圖迴歸模型。

熱力圖迴歸模型

為每個 landmark 單獨的生成可能的熱力圖。該方法最近在人臉對齊領域取得了不錯的效果。

3. 邊界感知人臉對齊演算法

邊界感知人臉對齊演算法整體框架 在這裡插入圖片描述 正如上文所說,該演算法由三個部分組成:

3.1 邊界感知 landmark 迴歸器 結合邊界資訊以級聯的方式預測 landmark 的座標; 3.2 邊界熱力圖預測器 生成邊界熱力圖作為人臉幾何結構; 3.3 基於 landmark 的邊界有效性判別器 因為邊界熱力圖對最後的 landmark 迴歸至關重要,因此作者通過引入基於對抗學習思想的邊界有效性判別器,輔助邊界熱力圖預測器,以進一步提高邊界熱力圖的質量從而得到更精確的 landmark 座標預測。

3.1 邊界感知 landmark 迴歸器

為了將邊界線融合到特徵學習中,作者將 landmarks 轉換為邊界熱力圖,邊界熱力圖中的每個畫素點的反應(是亮還是暗)都由它到相應邊界線的距離決定。

邊界熱力圖的定義如下:

  1. 給定一張人臉圖片,給出人臉的 L 個 landmark 的真實標註,S = {sls_{l} }l=1L^{L}_{l=1}
  2. 將 S 劃分成 K 個子集,每個子集代表相應邊界線上的 landmarks,例如左上眼瞼和鼻樑;
  3. 對於每個子集 sis_{i} 進行插值以得到密集的邊界線;
  4. 遍歷圖片中的每個畫素點,若在邊界線上,則標記為 1,否則為 0,最終得到一個二值邊界圖 BiB_{i}(大小與輸入影象相同的 0 1 矩陣);
  5. 基於 BiB_{i} 計算距離變換得到距離圖 DiD_{i},然後用標準差為 σ 高斯表示式將 DiD_{i} 轉換成真實邊界熱力圖MiM_{i},公式如下: 在這裡插入圖片描述

其中 3σ 用於過濾 DiD_{i} 使邊界熱力圖更聚集在邊界區域,實際上,為了計算效率真實邊界熱力圖的長是輸入影象的 1/4。

為了更好的利用邊界熱力圖中包含的大量資訊,作者提出了多層邊界熱力圖融合方案。 本演算法以一個 4 階段 18 層的網路結構為基礎網路,在輸入層和每個階段上執行邊界熱力圖融合。實驗結果表明在基礎網路上執行的如何次數越多,得到的效果越好。

輸入影象與邊界熱力圖的融合

融合之後的輸入 H 定義如下: 在這裡插入圖片描述 上述設計使得融合輸入僅關注邊界周圍的細節紋理,忽略了大多數背景和無紋理的面部區域,這極大地增強了輸入的有效性。原始輸入影象也與融合之後的結果相連線以保持其他有用的資訊。

邊界熱力圖 M 與特徵圖 F 的融合 在這裡插入圖片描述 融合之後的特徵圖 H 定義如下: 在這裡插入圖片描述 因為 M 的通道數與之前定義的邊界數相同,是不可變的,因此需要一個轉換矩陣 T,作者選用沙漏結構子網路作為轉換函式 T 以保證特徵圖尺寸。下采樣與上取樣是對稱的,多尺度的資訊結合通過跳躍式傳遞完成。然後啟用層的 sigmoid 函式將輸出歸一化到 [0,1] 之間。

因為邊界熱力圖在 landmark 座標迴歸中被大量使用,因此邊界熱力圖的質量對預測精度至關重要。所以接下來系那個介紹幾種方法來提高得到的邊界熱力圖的質量。

3.2 邊界熱力圖估計

與之前的人臉對齊和人體姿勢的研究方法一樣,作者也採用堆疊沙漏通過最小化生成邊界熱力圖與真實邊界熱力圖之間的均方誤差對邊界熱力圖進行預測,但是,正如下圖所示,當人臉被嚴重遮擋時,生成的熱圖總是受到噪聲和多模響應的影響。

為了緩解遮擋帶來的影響,作者採用了訊息傳遞機制來傳遞邊界間的資訊,過程如下圖所示: 在這裡插入圖片描述 在遮擋條件下,根據人臉結構,沒有被遮擋的邊界可以為被遮擋的邊界提供幫助。

內部訊息傳遞 在每個 stack 的結尾使用,用於傳遞不同邊界熱力圖間的資訊,所以資訊可以從沒有被遮擋的邊界傳遞到被遮擋的邊界。

層間訊息傳遞 因為沙漏的不同 stack 聚集不同的人臉資訊,因此在堆疊更多的沙漏子網路的情況下,通過層間訊息傳遞將低層資訊傳遞給高層來保證邊界熱力圖的質量。

在訊息傳遞機制的實施過程中,特徵圖在每個 stack 的最後都要被劃分成 K 個部分,K 就是邊界的數量,每個部分代表一種邊界特徵圖。這也顯示出邊界熱力圖與 landmark 熱力圖相比的優勢所在, K 的值更小而且是不變的。由於不必再 68 個 或者 194 個 landmark 之間傳遞訊息,因此邊界間訊息傳遞的計算和引數開銷較小。

3.3 邊界有效性評估器

如果邊界熱力圖得到精確的 landmark 座標估計,則說明邊界熱力圖的質量較好。因此,作者使用一個基於 landmark 的邊界有效性評判器來判別生成的邊界熱力圖的有效性。對於一張生成的熱力圖 M^\hat{M},將其對應生成的 landmark 座標記為 S^\hat{S}S,真實的距離矩陣圖記為 Dist,決定生成邊界熱力圖是否有效的評判器 D 的真實結果 dfaked_{fake} 的定義如下: 在這裡插入圖片描述 與參考文獻 [9,10] 的做法一樣,作者引入對抗學習思想來輔助邊界有效性判別器 D 和邊界熱力圖估計器 G,D 的損失函式如下: 在這裡插入圖片描述 ……………………

3.4 跨資料集人臉對齊

近年來,隨著人臉對齊演算法取得不錯的進步,各種資料集也隨之釋出。但是,由於各資料集之間的標記方式不一,因此各資料集幾乎不能被聯合使用,在某個特定資料集上訓練的模型在別的資料集上的表現往往很差。

針對這個問題,制定一個標記轉換方法又會帶來新的問題。從一個新的角度思考,可以將面部邊界作為通用的中間面部幾何表示。人臉邊界自然地使不同 landmark 標記方式得到了統一。而且它可以被用於任何標記方式的 landmark 迴歸的訓練中。跨資料集這個功能是將邊界作為人臉幾何結構得到的意外收穫。