1. 程式人生 > >Finding Tiny Faces 解讀

Finding Tiny Faces 解讀

提出三個部分針對影象中小臉的尋找:1。尺度不變性,2影象解析度,3上下文推理。

提出了尺度在預訓練深度網路中的作用,提供一種調整網路的方法將有限的尺度推廣到極端的尺度, 論證出在大規模的基準人臉資料集上(FDDB和WIDER FACE)上均有較好的結果。

尺度不變性幾乎是所有當前識別和物體檢測系統的基本屬性。 但從實際的角度來看,尺度不變性不適用於有限解析度的感測器:識別300px高臉的線索無疑與識別3px高臉的線索不同。

尺度的多工建模:物件檢測的許多近期工作都使用了尺度標準化分類器。

當將區域大小調整為規範的模板大小時,我們會問一個簡單的問題 - 模板的大小應該是多少? 一方面,我們想要一個可以檢測小臉的小模板; 另一方面,我們需要一個可以利用詳細功能(例如,特殊部分)的大型模板來提高準確性。我們不是採用“一刀切”的方法,而是針對不同尺度(和縱橫比)調整單獨的探測器。訓練大量特定尺度的探測器可能會因缺乏單個尺度的訓練資料而受到影響,並且在測試時執行大量探測器會導致效率低下。 為了解決這兩個問題,我們以多工方式訓練和執行特定尺度的探測器:它們利用在單個(深)特徵層次結構的多層上定義的特徵。 雖然這種策略可以為大型物體提供高精度的探測器,但找到小東西仍然具有挑戰性。

如何概括預訓練網路? 我們提供了兩個關於尋找小物體問題的關鍵見解。

第一部分是如何最好地從預訓練的深層網路中提取尺度不變特徵。 我們提出現有網路針對特徵尺寸的物件進行了調整(在預訓練資料集中遇到過,如ImageNet)。為了將從這些網路中微調的特徵擴充套件到新穎尺寸的物件,我們採用了一種簡單的策略:通過插值和抽取在測試時調整影象大小。雖然許多識別系統通過處理影象金字塔以“多解析度”方式應用,但我們發現插入金字塔的最低層對於尋找小物體尤其重要[5]。 因此,我們的最終方法(圖2)是尺度特定探測器的精細混合物,其以尺度不變的方式使用(通過處理影象金字塔以捕獲大規模變化)。

如何最好地編碼上下文?

尋找小物件具有根本性的挑戰性,因為物件上幾乎沒有訊號可以利用。

因此,我們認為必須使用超出物件範圍的影象證據。 這經常被稱為“背景”。 在圖3中,我們提出了一個簡單的人體實驗,使用者試圖對真實和假陽性面部進行分類(由我們的探測器給出)。很明顯,人類需要背景來準確地分類小臉。 雖然這種觀察在計算機視覺中是非常直觀和廣泛應用[16,21],但眾所周知難以量化地證明語境在識別中的好處[4,6,22]。其中一個挑戰似乎是如何有效地編碼大影象區域。我們證明從多個層提取的卷積深度特徵(也稱為“超列”特徵[8,14])是有效的“中心凹”描述符,它們同時捕獲高 -  大型感受野的解析度細節和粗糙的低解析度線索(圖2(e))。 我們表明,我們的中心凹描述符的高解析度成分(從較低的卷積層中提取)對於圖5中的這種精確定位至關重要。

我們的貢獻:我們提供了對影象解析度,物件比例和空間背景的深入分析,以便找到小面孔。 我們在大規模基準面部資料集(FDDB和WIDER FACE)上展示了最先進的結果。 特別地,當與WIDER FACE上的現有技術相比時,我們的結果將誤差減少了2倍(我們的模型產生的AP為81%,而現有技術的範圍為29-64%)。

多尺度表示:多尺度表示已被證明對許多識別任務有用。 [8,14,1]表明深度多尺度描述符(稱為“超級列”)對語義分割很有用。 [2,13]證明了這種物件檢測模型的改進。 [27]彙集了多尺度的投資回報率特徵。 我們的模型使用“超列”特徵,指出精細尺度特徵對於定位小物體最有用(第3.1節和圖5)。

RPN:我們的模型表面上類似於為特定物件類而不是一般“物件”提議生成器[18]訓練的區域提議網路(RPN)。 重要的區別在於我們使用中心凹描述符(通過多尺度特徵實現),我們通過交叉驗證選擇一系列物件大小和方面,我們的模型利用影象金字塔來找到極端尺度。 特別是,我們尋找小物體的方法利用針對插值影象調整的特定尺度的探測器。 如果沒有這些修改,小臉上的表現會急劇下降超過10%(表1)。

尺度不變性:絕大多數識別都集中在尺度不變表示上,可追溯到SIFT [15]。 目前的檢測方法,如更快的RCNN [18]也贊同這一理念,通過ROI池或影象金字塔提取尺度不變的特徵[19]。 我們提供了對尺度變數模板的深入探索,這些模板以前曾被提出用於行人檢測[17],有時在速度提高的背景下[3]。 SSD [13]是最近基於深度特徵的技術,它利用了尺度變數模板。 我們的工作在探索微小物體檢測的背景方面有所不同。

上下文:上下文是查詢多個識別任務中顯示的小例項的關鍵。 在物體檢測中,[2]在感興趣區域之外堆疊空間RNN(IRNN [11])模型上下文,並顯示對小物體檢測的改進。 在行人檢測中,[17]使用地平面估計作為上下文特徵,並改進了對小例項的檢測。 在人臉檢測中,[27]同時彙集面部和身體周圍的ROI特徵以進行評分檢測,從而顯著提高整體效能。 我們提出的工作以尺度變數的方式利用大的區域性上下文(而不是全域性上下文描述符[2,17])(與[27]相對)。 我們證明了上下文對於尋找低解析度的面部非常有用。

在本節中,我們將對正在發揮作用的問題進行探索性分析,以便為我們的最終模型提供資訊。 為了構思討論,我們提出以下簡單問題:找到固定大小(25x20)的小臉的最佳方法是什麼? 通過明確地根據期望的輸出分解出尺度變化,我們可以探索上下文和規範模板大小的作用。 直觀地說,背景對於尋找小面孔至關重要。 規範模板大小可能看起來像一個奇怪的維度 - 考慮到我們想要找到大小為25x20的面,為什麼要定義除25x20之外的任何大小的模板? 我們的分析給出了一個驚人的答案,說明何時以及為什麼要這樣做。 為了更好地理解我們的分析的含義,我們還要問一個大物件大小的類似問題:找到固定大小(250x200)的大面積的最佳方法是什麼?

設定:我們探索了為固定尺寸(例如,25x20)面構建掃描視窗檢測器的不同策略。 我們將固定大小的物件檢測視為二元熱圖預測問題,其中畫素位置(x,y)處的預測熱圖指定以(x,y)為中心的固定大小檢測的置信度。 我們使用在最先進的架構ResNet [9]上定義的完全卷積網路(FCN)[14]來訓練熱圖預測器。 我們探索從ResNet-50的最後一層提取的多尺度特徵,即(res2cx,res3dx,res4fx,res5cx)。 我們今後將這些稱為(res2,res3,res4,res5)特徵。 我們將在第5節討論我們培訓管道的其餘細節。

圖4給出了上下文影響的分析,由用於進行熱圖預測的感受野(RF)的大小給出。 回想一下,對於固定大小的檢測視窗,我們可以選擇使用與此視窗相比具有任意更小或更大的感受域的特徵進行預測。 因為較高層的卷積特徵傾向於具有較大的感受野(例如,res4特徵跨越291×291畫素),較小的感受野需要使用較低層特徵。

我們看到了一些總體趨勢。 新增上下文幾乎總是有幫助,但最終微小面孔(超過300x300畫素)的額外上下文會受到傷害。 我們證實這是由於過度擬合(通過檢查培訓和測試效能)。 有趣的是,較小的感覺區域對於小臉更好,因為整個臉部是可見的 - 如果只尋找鼻尖,很難找到大臉。 更重要的是,我們通過比較“緊密”RF(限於物件範圍)與具有額外背景的最佳得分“鬆散”RF的效能來分析上下文的影響。 小面孔的準確度提高了18.9%,而大面積的準確度提高了1.5%,與我們的人體實驗一致(這表明背景對於小例項最有用)。

我們的結果表明,我們可以為具有相同感受野(大小為291x291)的不同大小的探測器構建多工模板,這很容易實現為多通道熱圖預測問題(其中每個特定尺度的通道和畫素位置) 有自己的二進位制損失)。 在圖5中,我們比較了有無黃斑結構的描述符,這表明我們的黃斑中心描述符的高解析度成分對於小例項的準確檢測至關重要。