1. 程式人生 > >目標檢測隨筆1——目標檢測簡要綜述

目標檢測隨筆1——目標檢測簡要綜述

對於目標類別檢測,相關研究工作一直是計算機視覺的研究熱點.特殊類別的目標檢測,例如人臉和行人,檢測技術已經較為成熟.Viola[21]提出基於AdaBoost演算法框架,使用Haar-like小波特徵分類,然後採用滑動視窗搜尋策略實現準確有效地定位.它是第一種能實時處理並給出很好檢測率的物體類別檢測演算法,主要應用於人臉檢測.Dalal[22] 提出使用影象區域性梯度方向直方圖(HOG)作為特徵,利用支援向量機(SVM)作為分類器進行行人檢測.更為普遍的目標檢測工作關注自然影象中一般類別的檢測.自然界的大部分物體具有運動能力,會發生非剛體形變,為此Felzenszwalb[23]提出了目標類別檢測最具影響力的方法之一多尺度形變部件模型(DPM),繼承了使用HOG特徵和SVM分類器的優點.DPM目標檢測器由一個根濾波器和一些部件濾波器組成,元件間的形變通過隱變數進行推理.由於目標模板解析度固定,演算法採用滑動視窗策略在不同尺度和寬高比影象上搜索目標.後續工作採用不同策略加速了DPM的窮盡搜尋策略.
Malisiewicz[24]提出一種簡單高效的整合學習演算法用於目標類別檢測,該方法分別為每個正樣本訓練一個使用HOG特徵的線性SVM,通過整合每個樣本的線性SVM結果達到優良的泛化效能.Ren[25]認為先前基於HOG特徵的檢測方法中HOG特徵是人為設計的,判別能力弱且不直觀,為此提出一種基於稀疏表達學習理論的稀疏編碼直方圖特徵(HSC),並用HSC代替DPM目標檢測演算法中HOG特徵,檢測準確率高於原方法.Wang[26]為去除DPM模型需要人為指定元件個數及元件間關係和窮盡搜尋的限制,提出了一種新的特徵表達方式Regionlets,採用選擇性搜尋策略對每個候選檢測包圍盒進行多種區域特徵的整合級聯式分類.Regionlets保留了目標的空間結構關係,靈活地描述目標,包括髮生形變的目標.2012年前,目標檢測中分類任務的框架就是使用人為設計的特徵訓練淺層分類器完成分類任務,最佳演算法是基於DPM框架的各種改進演算法.2012年,
Krizhevsky[27]提出基於深度學習理論的深度卷積神經網(DCNN)的影象分類演算法,使影象分類的準確率大幅提升,同時也帶動了目標檢測準確率的提升.Szegedy[28]將目標檢測問題看做目標mask的迴歸問題,使用DCNN作為迴歸器預測輸入影象中目標的mask.Erhan[29]使用DCNN對目標的包圍盒進行迴歸預測,並給出每個包圍盒包含類別無關物件的置信度.Sermanet[30]提出一種DCNN框架OverFeat,集成了識別、定位和檢測任務,為分類訓練一個CNN,為每個類訓練一個定位用CNN.OverFeat對輸入影象採用滑動視窗策略用分類模型確定每個視窗中目標的類別,然後使用對應類別的的定位模型預測目標的包圍盒,根據分類分數為每個類選出候選包圍盒進行合併,得到最終的檢測結果.與OverFeat不同,
R-CNN[31]採用選擇性搜尋策略而不是滑動視窗來提高檢測效率.R-CNN利用選擇性搜尋方法在輸入影象上選擇若干候選包圍盒,對每個包圍盒利用CNN提取特徵,輸入到為每個類訓練好的SVM分類器,得到包圍盒屬於每個類的分數.最後,R-CNN使用非極大值抑制方法(NMS)捨棄部分包圍盒,得到檢測結果.上述方法使用的DCNN結構基本源自Krizhevsky的7層網路結構設計,為了提高DCNN的分類和檢測準確率,Simonyan[32]和Szegedy[33]設計了層數22層的深度卷積神經網路,採用的檢測框架都類似R-CNN.目前,深度卷積神經網路是多個目標類別檢測資料集上的state of the art.