人臉專集(一):級聯卷積神經網路用於人臉檢測
時光,在物轉星移中漸行漸遠,春花一夢,流水無痕,經歷太多薄涼的日子。
從今天開始,溫度開始回升,我們科研的熱情也開始高漲起來,接下來我們會開始一段目標檢測識別(人臉)的學習,希望大家持續關注!

01
簡 要
說到人臉檢測,應該是近幾年不老的話題了,如果要將這技術真的落實到現在產品,其實還有很長的路,不知道大家有沒有發現,很多無人超市開始走下坡路,也許不僅僅是技術的原因之一吧,但是我們只針對技術來說,其實還是有很多不足需要去解決,這也是之後我們人臉這個專集和大家要說的,那我們就開始吧!
級聯演算法在人臉檢測中得到了廣泛的應用,其中首先可以使用計算量小的分類器來縮小大部分背景,同時保持召回。
今天說的這個技術就是提出了一種由兩個主要步驟組成的級聯卷積神經網路方法。第一階段採用低畫素候選視窗作為輸入,使淺層卷積神經網路快速提取候選視窗;在第二階段,調整來自前一階段的視窗的大小,並將其分別用作對應網路層的輸入。在訓練期間,對hard-樣本進行聯合線上訓練,並採用soft非極大抑制演算法對資料集進行測試。整個網路在FDDB上實現了更好的效能。
開始詳細講解,先和大家回憶經典網路
02
Fully Convolution Network
如上圖所示,不知道細心的同學有發現 差別 所在不???
差別:全連線結構和完全卷積結構之間的區別表現在每一層的影象大小上。
經過兩次卷積和池化運算後,原始影象的解析度由227×227變為55×55,第二次池化後圖像大小為27×27,輸出到第五層,影象大小減小到13×13。然而,在FCN中,以H×W大小的影象為輸入,經過兩次卷積和池化運算後,影象質量下降到原來影象的四分之一。然後,在每個池化層之後,影象的長度和寬度減少一半。
因此,卷積特徵是原來尺寸輸出的第五層的十六分之一。最後,將特徵縮小到原來大小的三十二分之一。結果表明,經過多次卷積和池化運算後,影象大小明顯減小。上面提到的最後一層可以得到最小尺寸的熱圖。它可以看作是重要的高維特徵圖。隨後,對影象進行上取樣並將其放大到原始影象大小,所述位置的畫素結果與分類結果相對應。由於無條件影象大小的顯著優勢,在三個多解析度網路中分別採用全卷積層,使得輸入影象大小不再受限。
03
Spatial Pyramid Pooling
SPP-Net只在整個影象上執行一次CNN模型。然後,將通過選擇性搜尋得到的候選區域對映到特徵對映。利用空間金字塔池化和支援向量機對候選目標進行分類。通過不固定尺寸的輸入影象可以獲得任意大小的卷積特徵,只需保證輸入到全連線層的大小是固定的。
使用FCN結構,這樣就不能再限制輸入影象的大小了。它將產生一個固定大小的輸出。因此,總體結構不同於RCNN。下圖給出了空間金字塔池層結構的流程圖。
04
Cascade Structure
級聯結構在人臉檢測中得到了廣泛的應用,首先可以利用計算量小的分類器來去除大部分背景,同時保持召回。
級聯分類器在多個AdaBoost弱分類器或強分類器上對不同的特徵進行順序處理。 級聯 結構如下圖所示。該流程圖不僅通過對多個弱分類器的組合,生成了一個強級聯分類器,而且提高了分類器的速度。然而,以往方法的每個階段都是獨立訓練的。因此,不同CNN的優化是相互獨立的。

接下來開始今天技術的詳解
結構設計
在這一部分中,我們將描述一個級聯CNN的人臉檢測使用三種不同解析度的輸入影象(12×12,24×24和48×48)。將輸入影象調整到不同的尺度,形成影象金字塔。
首先,通過微網路(全卷積候選網路,FCPN)消除大量的非人臉視窗;然後,將候選視窗的其餘部分輸入到第二階段(多尺度網路,MSN)。MSN-24表示輸入大小為24×24的分支,而MSN-48表示輸入大小為48×48的分支。將MSN-24第五層的卷積特徵(即概率分佈資訊)與MSN-48融合。對不同級聯階段進行hard-樣本挖掘和聯合訓練,完成人臉分類和邊界框迴歸兩項任務。
在工作中,輸入影象被調整到不同尺度,以建立一個影象金字塔。檢測過程分為兩個階段。第一階段是全卷積候選網路(FCPN),它採用低解析度淺卷積神經網路結構,快速有效地消除大量背景視窗,如下圖所示。
第二階段是多尺度網路(MSN),它結合了加權閾值兩種高解析度卷積神經網路的特點,進一步濾除hard-樣本,細化邊界框。結構如下圖。這兩個階段詳細說明見“ 計算機視覺協會 ”知識星球。
接下來詳細說說難樣本挖掘!
與傳統分類器訓練中的難樣本挖掘不同,在訓練過程中自適應地選擇難樣本。在每一批中,計算候選區域的損失函式,並根據損失值對它們進行排序。選取損失值最高70%的目標區域作為難樣本,忽略其餘30%的簡單樣本。
為了評估該方法的有效性,訓練了兩種不同的比較模型(w/和w/o難樣本的線上訓練),並對測試集的效能進行了評估。下圖給出了兩個不同的結果。實線顯示了難樣品的挖掘效能。虛線顯示不使用此方法的效果。實驗結果表明,難樣本的線上訓練有助於提高檢測效能,在FDDB上提供1.5%的效能增益。
Soft極大抑制也會”計算機視覺協會“知識星球詳細講解,為啥會有如此高的效能提升!
圖 在Pascal Faces資料集上的結果
圖 在FDDB人臉資料集上 discROC 的結果
圖 在FDDB人臉資料集上 contROC 的結果

Best Paper: https://link.springer.com/journal/11042
如果想加入我們“ 計算機視覺戰隊 ”,請掃二維碼加入學習群。 計算機視覺戰隊 主要涉及 機器學習、深度學習 等領域,由來自於各校的碩博研究生組成的團隊,主要致力於 人臉檢測、人臉識別,多目標檢測、目標跟蹤、影象分割等 研究方向。
