1. 程式人生 > >Joint Deep Learning For Pedestrian Detection(論文筆記-深度學習:行人檢測)

Joint Deep Learning For Pedestrian Detection(論文筆記-深度學習:行人檢測)

      一、摘要:

      行人檢測主要分為四部分:特徵提取、形變處理、遮擋處理和分類。現存方法都是四個部分獨立進行,本文聯合深度學習將四個部分結合在一起,最大化其能力。

      二、引言:

    (1)首先,特徵提取的應該是行人最有判別力的特徵,比較有名的特徵描述子有:Haar-like、SIFT、HOG等等;

    (2)其次,可變形模型應該可以處理人體的各個部分,如:軀幹、頭、退等等。最有名的DPM(可變形部件模型)使得各部 件具有連線性約束。

    (3)遮擋處理,如:檢測Blocks或Parts的得分以及採用線索:影象分割、深度圖等;

    (4)分類器:決定候選窗選中的為一個行人,如:SVM、boosted classifiers、隨機森林等等。在這些方法中,分類器是由訓練資料來調整的,但是特徵是手工設計的。如果有用的資訊在特徵提取階段遺漏了,那麼在分類階段不可能在恢復。實際上,應該是分類器應該引導特徵的學習。

      這幾個部分之間的聯合通常都是採用手工引數設計實現的。本文的目的是正如作者所述“The motivation of this paper is toestablish automatic interaction in learning these key components. We hope thatjointly learned components, like members with team spirit, can create synergythrough close interaction, and generate performance that is greater thanindividually learned components

.”本文將這幾個關鍵部分整合到一個統一的深度學習框架中:“The deep model is especiallyappropriate for this task because it can organize these components intodifferent layers and jointly optimize them through back-propagation.”如下圖1。


圖1

三、本文的方法:

      

圖2

一)總體概述:
      1)Fitered data maps的獲取
:由第一卷積層獲取,即對3通道的輸入影象使用9x9x3的濾波器進行卷積,輸出64個maps,激勵函式為|tan h(x)|。
      2)Features maps的獲取:

由池化層獲取,即對64個maps採用4x4的boxcar filters(矩形波過濾器)進行一個4x4的下采樣。
      3)Part detection maps的獲取:由第二卷積層獲取,採用20個不同大小的part filters(部件濾波器)對features maps進行卷積,輸出20個Part detection maps。(詳細分析見下文)
      4)Part scores獲取:對20個Part detection maps使用一個deformation handling layer(變形處理層)來進行處理,輸出20個Part scores.
      5)20個Parts的視覺化:用於評估檢測物體的標籤。

      注意:在訓練階段,所有的引數優化都是通過Back-propagation(反向傳播)。

  二)詳細分析:        1)輸入資料的預處理:       輸入影象大小為84x28,包含三個通道:(1)通道1:經過YUV顏色空間變換後的Y通道影象;(2)通道2:YUV空間的三通道42x14影象串聯,空白處填零構成84x28的影象作為第二通道輸入,即第二個map被均分為四個block,行優先時,分別是U通道,V通道,Y通道和全0;(3)通道3:第三個map是sobel運算元計算的第二個map各個Block的邊緣,不同的是第四個block是前面三個block的邊緣的最大值。       注意:通過這種方式不同解析度下的畫素值資訊和原始的邊緣資訊都被利用。為了處理光照變化的影響,每個通道的map都要被歸一到零均值-單位方差的分佈。       2)Part detection maps的產生:
     一般來說一個卷積層的濾波器大小是固定的。由於行人的各個部分大小不同,因此本文在第二卷積層中的濾波器大小各不同。本文設計了三層不同尺寸的濾波器,共20個,如下圖 3所示,上層的濾波器包含下層濾波器的部分,頂層的parts是有可能存在的遮擋情況,灰色表示可能的遮擋。其他兩層為身體的Parts。


圖3.a

       注意:圖中Level 3和Level 2中head-shoulder part出現了兩次,一次代表遮擋情況,一個代表Part.


      這樣做帶來的HOG提取效果,明顯優於單獨的HOG。如圖3.b。

圖3.b       3)The deformation layer:
      該層是為了處理不同Part之間的形變約束。定義第p個Part detection map為Mp,對於第p個Part的第n種Deformation map,定義為Dn,p,變形權重為cn,p,N為Deformation maps的總數。

      輸出的第P個 part scores為Bp的全域性最大池化,即:


  

      在本專案的工作中採用的是Example 3中的deformation layer這種情況,該層的詳細分析如下圖4.a。

    

圖4.a

       原理圖如下4.b:


圖4.b

      4)Visibility reasoning and classification:       該部分的推導及反向傳播(BP)模型如下:       (1)Visibility reasoning:              (2)Jointly learned:       本文主要是通過反向傳播,為了學習兩個卷積層和變形層的引數,預測誤差是通過S進行反向傳播,實現Joint learned。
                                                                                                                                                                                                    ——By SS_米西                                                                                                                                                                                                               2016.11.1