1. 程式人生 > >【計算機視覺】行人檢測資源彙總

【計算機視覺】行人檢測資源彙總

行人檢測資源(上)綜述文獻 http://www.cvrobot.net/pedestrian-detection-resource-1-summary-review-survey/

行人檢測資源(下)程式碼資料 http://www.cvrobot.net/pedestrian-detection-resource-2-code-and-dataset/

pedestrian-detection-resource-1-summary-review-survey-1

        行人檢測具有極其廣泛的應用:智慧輔助駕駛,智慧監控,行人分析以及智慧機器人等領域。從2005年以來行人檢測進入了一個快速的發展階段,但是也存在很多問題還有待解決,主要還是在效能和速度方面還不能達到一個權衡。近年,以谷歌為首的自動駕駛技術的研發正如火如荼的進行,這也迫切需要能對行人進行快速有效的檢測,以保證自動駕駛期間對行人的安全不會產生威脅。

1   行人檢測的現狀

        大概可以分為兩類

1.1    基於背景建模

        利用背景建模方法,提取出前景運動的目標,在目標區域內進行特徵提取,然後利用分類器進行分類,判斷是否包含行人;背景建模目前主要存在的問題:

        1)必須適應環境的變化(比如光照的變化造成影象色度的變化);

        2)相機抖動引起畫面的抖動(比如手持相機拍照時候的移動);

        3)影象中密集出現的物體(比如樹葉或樹幹等密集出現的物體,要正確的檢測出來);

        4)必須能夠正確的檢測出背景物體的改變(比如新停下的車必須及時的歸為背景物體,而有靜止開始移動的物體也需要及時的檢測出來)。

        5)物體檢測中往往會出現Ghost區域,Ghost區域也就是指當一個原本靜止的物體開始運動,背靜差檢測演算法可能會將原來該物體所覆蓋的區域錯誤的檢測為運動的,這塊區域就成為Ghost,當然原來運動的物體變為靜止的也會引入Ghost區域,Ghost區域在檢測中必須被儘快的消除。

1.2    基於統計學習的方法

        這也是目前行人檢測最常用的方法,根據大量的樣本構建行人檢測分類器。提取的特徵主要有目標的灰度、邊緣、紋理、顏色、梯度直方圖等資訊。分類器主要包括神經網路、SVM、adaboost以及現在被計算機視覺視為寵兒的深度學習。

        統計學習目前存在的難點:

        1)行人的姿態、服飾各不相同、複雜的背景、不同的行人尺度以及不同的光照環境。

        2)提取的特徵在特徵空間中的分佈不夠緊湊;

        3)分類器的效能受訓練樣本的影響較大;

        4)離線訓練時的負樣本無法涵蓋所有真實應用場景的情況;

        為了解決速度問題可以採用背景差分法的統計學習行人檢測,前提是背景建模的方法足夠有效(即效果好速度快),目前獲得比較好的檢測效果的方法通常採用多特徵融合的方法以及級聯分類器。(常用的特徵有Harry-like、Hog特徵、LBP特徵、Edgelet特徵、CSS特徵、COV特徵、積分通道特徵以及CENTRIST特徵)。

2    綜述類的文章

2.1    行人檢測十年回顧

        Ten Years of Pedestrian Detection, What Have We Learned?

        一篇2014年ECCV的文章,是對pedestrian detectiond過去十年發展的回顧,從dataset,main approaches的角度分析了近10年的40多篇論文提出的方法,並對提高feature複雜度的影響進行了評估

2.2    P.Dollar  PAMI 2012上的綜述

        P.Dollar, C. Wojek,B. Schiele, et al. Pedestrian detection: an evaluation of the state of the art [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(4): 743-761.

        2012年PAMI上發表的一篇關於行人檢測的綜述性文章,PDF格式,共20頁,對常見的16種行人檢測演算法進行了簡單描述,並在6個公開測試庫上進行測試,給出了各種方法的優缺點及適用情況。另外,指出了未來行人檢測的發展方向和趨勢。

2.3    CVPR2010 HOF和CSS

        New Features and Insights for Pedestrian Detection

        文中使用改進的HOG,即HOF和CSS(color self similarity)特徵,使用HIK SVM分類器。 本文的作者是德國人:Stefen Walk。目前Stefan Walk在蘇黎世聯邦理工大學任教。

2.4    Integral Channel Features

        加州理工學院2009年行人檢測的文章:Integral Channel Features(積分通道特徵)

        這篇文章與2012年PAMI綜述文章是同一作者。作者:Piotr Dollar

2.5    The Fastest Pedestrian Detector in the West

        Dollar 在 2010 年 BMVC 的 《The fastest pedestrian detector in the west》 一文中提出了一種新的思想,這種思想只需要訓練一個標準 model,檢測 N/K(K ≈10) 然後其餘的 N-N/K 種大小的圖片的特徵不需要再進行這種複雜的計算,而是跟據這 N/K 次的結果, 由另外一種簡單的演算法給估計出來,這種思想實現的 基礎是大小相近的影象的特徵可以被足夠精確的估計出來

2.6    DPM演算法做目標檢測

        CVPR2008:A Discriminatively Trained, Multiscale, Deformable Part Model

        PAMI2010:Object Detection with Discriminatively Trained Part Based Models

        CVPR2010:Cascade Object Detection with Deformable Part Models

        以上三篇文章,都是作者研究DPM演算法做目標檢測的文章,有原始碼可以下載。

2.7    利用DPM模型,檢測粘連

        Detection and Tracking of Occluded People

        IJCV2014年的文章,利用DPM模型,檢測粘連情況很嚴重的行人,效果很好。

2.8    UDN演算法

        ICCV2013:

        1)Joint Deep Learning for Pedestrian Detection

        2)Multi-Stage Contextual Deep Learning for Pedestrian Detection

        簡 稱UDN演算法,從文中描述的檢測效果來看,該方法是所有方法中最好的,並且,效果遠超過其他方法。經過對論文和該演算法原始碼的研究,該演算法是與作者另外一篇 論文的方法 ,另外的論文演算法做圖片掃描,得到矩形框,然後用該方法對矩形框進行進一步確認,以及降低誤警率和漏警率。另外的論文是:Multi-Stage Contextual Deep Learning for Pedestrian Detection。

        這篇文章是用深度學習的CNN做candidate window的確認。而主要的行人檢測的演算法還是HOG+CSS+adaboost。

2.9    Monocular pedestrian detection

         Enzweiler, and D.Gavrila. Monocular pedestrian detection: survey and experiments [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009,  31(12): 2179-2195.

2.10       Survey of pedestrian detection for advanced driver assistance systems

        Geronimo, A. M.Lopez and A. D. Sappa, et al. Survey of pedestrian detection for advanced driver assistance systems [J].  IEEE Transactionson Pattern Analysis and Machine Intelligence,  2010, 32(7): 1239-1258.

2.11       Vision-based Pedestrian Protection Systems for Intelligent Vehicles

        Geronimo, and A. M.Lopez. Vision-based Pedestrian Protection Systems for Intelligent Vehicles, BOOK, 2014.

2.12       行人檢測技術綜述

        蘇鬆志, 李紹滋, 陳淑媛等. 行人檢測技術綜述[J]. 電子學報, 2012, 40(4): 814-820.

2.13       車輛輔助駕駛系統中基於計算機視覺的行人檢測研究綜述

        賈慧星, 章毓晉.車輛輔助駕駛系統中基於計算機視覺的行人檢測研究綜述[J], 自動化學報, 2007, 33(1): 84-90.

2.14       行人檢測系統研究新進展及關鍵技術展望

        許言午, 曹先彬,喬紅. 行人檢測系統研究新進展及關鍵技術展望[J], 電子學報, 2008, 36(5): 368-376.

2.15       基於視覺的人的運動識別綜述

        杜友田; 陳峰;徐文立; 李永彬;基於視覺的人的運動識別綜述, 電子學報,  2007. 35(1): 84-90.

2.16       基於機器學習的行人檢測關鍵技術研究

        朱文佳. 基於機器學習的行人檢測關鍵技術研究[D]. 第一章, 碩士學位論文, 上海交通大學. 2008. 指導教師: 戚飛虎.


        這是行人檢測相關資源的第二部分:原始碼和資料集。考慮到實際應用的實時性要求,原始碼主要是C/C++的。原始碼和資料集的網址,經過測試都可訪問,並註明了這些網址最後更新的日期,供學習和研究進行參考。(歡迎補充更多的資源)

1        Source Code

1.1    INRIA Object Detection and Localization Toolkit

Dalal於2005年提出了基於HOG特徵的行人檢測方法,行人檢測領域中的經典文章之一。HOG特徵目前也被用在其他的目標檢測與識別、影象檢索和跟蹤等領域中。

更新:2008

1.2    Real-time Pedestrian Detection.

Jianxin Wu實現的快速行人檢測方法。

Real-Time Human Detection Using Contour Cues:

更新:2012

1.3    霍夫變換實現的多目標檢測

Olga Barinova, CVPR 2010 Paper: On detection of multiple object instances using Hough Transforms

原始碼:C++

更新:2010

1.4    HIKSVM

Classification Using Intersection Kernel SVMs is efficient

HOG+LBP+HIKSVM, 行人檢測的經典方法.

原始碼:C/C++

更新:2012

1.5    GroundHOG

GPU-based Object Detection with Geometric Constraints, In: ICVS, 2011.  CUDA版本的HOG+SVM,

原始碼:C/C++

更新:2011

1.6    doppia code

這是一個程式碼集合,包含如下:

Pedestrian detection at 100 frames per second, R. Benenson.  CVPR, 2012. 實時的

Stixels estimation without depth map computation

Fast stixels estimation for fast pedestrian detection

Seeking the strongest rigid detector

Ten years of pedestrian detection, what have we learned?

Face detection without bells and whistles

原始碼:C/C++

更新:2015

1.7    Multiple camera pedestrian detection.

POM: Occupancy map estimation for people detection

原始碼:?

更新:2014

1.8    Pitor Dollar Detector.

Piotr’s Computer Vision Matlab Toolbox

The toolbox is divided into 7 parts, arranged by directory:

channels Robust image features, including HOG, for fast object detection.

classify Fast clustering, random ferns, RBF functions, PCA, etc.

detector Aggregate Channel Features (ACF) object detection code.

filters Routines for filtering images.

images Routines for manipulating and displaying images.

matlab General Matlab functions that should have been a part of Matlab.

videos Routines for annotating and displaying videos.

原始碼:matlab

更新:2014

2        DataSets

2.1    MIT資料庫

介紹:該資料庫為較早公開的行人資料庫,共924張行人圖片(ppm格式,寬高為64×128),肩到腳的距離約80象素。該資料庫只含正面和背面兩個視角,無負樣本,未區分訓練集和測試集。Dalal等採用“HOG+SVM”,在該資料庫上的檢測準確率接近100%。

更新:2000

2.2    INRIA Person Dataset

介紹:該資料庫是“HOG+SVM”的作者Dalal建立的,該資料庫是目前使用最多的靜態行人檢測資料庫,提供原始圖片及相應的標註檔案。訓練集有正樣本614張(包含2416個行人),負樣本1218張;測試集有正樣本288張(包含1126個行人),負樣本453張。圖片中人體大部分為站立姿勢且高度大於100個象素,部分標註可能不正確。圖片主要來源於GRAZ-01、個人照片及google,因此圖片的清晰度較高。在XP作業系統下部分訓練或者測試圖片無法看清楚,但可用OpenCV正常讀取和顯示。

更新:2005

2.3    Daimler行人資料庫

該資料庫採用車載攝像機獲取,分為檢測和分類兩個資料集。檢測資料集的訓練樣本集有正樣本大小為18×36和48×96的圖片各15560(3915×4)張,行人的最小高度為72個象素;負樣本6744張(大小為640×480或360×288)。測試集為一段27分鐘左右的視訊(解析度為640×480),共21790張圖片,包含56492個行人。分類資料庫有三個訓練集和兩個測試集,每個資料集有4800張行人圖片,5000張非行人圖片,大小均為18×36,另外還有3個輔助的非行人圖片集,各1200張圖片。

更新:2009?

2.4    Caltech Pedestrian Detection

該資料庫是目前規模較大的行人資料庫,採用車載攝像頭拍攝,約10個小時左右,視訊的解析度為640×480,30幀/秒。標註了約250,000幀(約137分鐘),350000個矩形框,2300個行人,另外還對矩形框之間的時間對應關係及其遮擋的情況進行標註。資料集分為set00~set10,其中set00~set05為訓練集,set06~set10為測試集(標註資訊尚未公開)。效能評估方法有以下三種:(1)用外部資料進行訓練,在set06~set10進行測試;(2)6-fold交叉驗證,選擇其中的5個做訓練,另外一個做測試,調整引數,最後給出訓練集上的效能;(3)用set00~set05訓練,set06~set10做測試。由於測試集的標註資訊沒有公開,需要提交給Pitor Dollar。結果提交方法為每30幀做一個測試,將結果儲存在txt文件中(檔案的命名方式為I00029.txt I00059.txt ……),每個txt檔案中的每行表示檢測到一個行人,格式為“[left, top,width, height, score]”。如果沒有檢測到任何行人,則txt文件為空。該資料庫還提供了相應的Matlab工具包,包括視訊標註資訊的讀取、畫ROC(Receiver Operatingcharacteristic Curve)曲線圖和非極大值抑制等工具。

更新:2014

2.5    TUD行人資料庫

介紹:TUD行人資料庫為評估運動資訊在行人檢測中的作用,提供影象對以便計算光流資訊。訓練集的正樣本為1092對影象(圖片大小為720×576,包含1776個行人);負樣本為192對非行人影象(手持攝像機85對,車載攝像機107對);另外還提供26對車載攝像機拍攝的影象(包含183個行人)作為附加訓練集。測試集有508對影象(影象對的時間間隔為1秒,解析度為640×480),共有1326個行人。Andriluka等也構建了一個資料庫用於驗證他們提出的檢測與跟蹤相結合的行人檢測技術。該資料集的訓練集提供了行人的矩形框資訊、分割掩膜及其各部位(腳、小腿、大腿、軀幹和頭部)的大小和位置資訊。測試集為250張圖片(包含311個完全可見的行人)用於測試檢測器的效能,2個視訊序列(TUD-Campus和TUD-Crossing)用於評估跟蹤器的效能。

更新:2010

2.6    NICTA行人資料庫

該資料庫是目前規模較大的靜態影象行人資料庫,25551張含單人的圖片,5207張高解析度非行人圖片,資料庫中已分好訓練集和測試集,方便不同分類器的比較。Overett等用“RealBoost+Haar”評估訓練樣本的平移、旋轉和寬高比等各種因素對分類效能的影響:(1)行人高度至少要大於40個象素;(2)在低解析度下,對於Haar特徵來說,增加樣本寬度的效能好於增加樣本高度的效能;(3)訓練圖片的大小要大於行人的實際大小,即背景資訊有助於提高效能;(4)對訓練樣本進行平移提高檢測效能,旋轉對效能的提高影響不大。以上的結論對於構建行人資料庫具有很好的指導意義。

更新:2008

2.7    ETHZ行人資料庫

Robust Multi-Person Tracking from Mobile Platforms

Ess等構建了基於雙目視覺的行人資料庫用於多人的行人檢測與跟蹤研究。該資料庫採用一對車載的AVT Marlins F033C攝像頭進行拍攝,解析度為640×480,幀率13-14fps,給出標定資訊和行人標註資訊,深度資訊採用置信度傳播方法獲取。

更新:2010

2.8    CVC行人資料庫

該資料庫目前包含三個資料集(CVC-01、CVC-02和CVC-Virtual),主要用於車輛輔助駕駛中的行人檢測研究。CVC-01[Geronimo,2007]有1000個行人樣本,6175個非行人樣本(來自於圖片中公路區域中的非行人圖片,不像有的行人資料庫非行人樣本為天空、沙灘和樹木等自然影象)。CVC-02包含三個子資料集(CVC-02-CG、CVC-02-Classification和CVC-02-System),分別針對行人檢測的三個不同任務:感興趣區域的產生、分類和系統性能評估。影象的採集採用Bumblebee2立體彩色視覺系統,解析度640×480,焦距6mm,對距離攝像頭0~50m的行人進行標註,最小的行人圖片為12×24。CVC-02-CG主要針對候選區域的產生,有100張彩色影象,包含深度和3D點資訊;CVC-02-Classification主要針對行人分類,訓練集有1016張正樣本,7650張負樣本,測試集分為基於切割視窗的分類(570張行人,7500張非行人)和整張圖片的檢測(250張包含行人的圖片,共587個行人);CVC-02-System主要用於系統的效能評估,包含15個視訊序列(4364幀),7983個行人。CVC-Virtual是通過Half-Life 2影象引擎產生的虛擬行人資料集,共包含1678虛擬行人,2048個非行人圖片用於測試。

更新:2015,目前已經更新到CVC-08了。

2.9    USC行人資料庫

該資料庫包含三組資料集(USC-A、USC-B和USC-C),以XML格式提供標註資訊。USC-A[Wu, 2005]的圖片來自於網路,共205張圖片,313個站立的行人,行人間不存在相互遮擋,拍攝角度為正面或者背面;USC-B的圖片主要來自於CAVIAR視訊庫,包括各種視角的行人,行人之間有的相互遮擋,共54張圖片,271個行人;USC-C有100張圖片來自網路的圖片,232個行人(多角度),行人之間無相互遮擋。

更新:2007

3        其他資料

1:Video:Pedestrian Detection: The State of the Art

A video talk byPitor Dollar. Pitor Dollar做了很多關於行人檢測方法的研究,他們研究小組的Caltech Pedestrian Dataset也很出名。