1. 程式人生 > >基於卷積神經網路的近紅外夜間道路行人識別

基於卷積神經網路的近紅外夜間道路行人識別

near infrared nighttime road pedestrians recognition based on convolutional neural network

題目:基於卷積神經網路的近紅外夜間道路行人識別

摘要:在行人預測系統中,行人識別是行人檢測的核心技術。這篇文章對比和分析了可見光和紅外圖片,這些圖片通過可見光譜,近紅外,短波紅外,長波紅外相機獲得。結果顯示當裝置投入和行人圖片質量綜合考慮的時候,近紅外相機對於夜間行人預測是最好的選擇。這篇文章介紹了首例使用自學習softmax分類器搭建的的9層卷積神經網路來識別近紅外夜間行人。267000個近紅外圖片樣本用來優化CNN識別模型。收集來的近紅外夜間圖片分成三類:背景,行人和騎自行車的人或騎摩托車的人。這些圖片對所有研究者開源。測試結果表明,使用自學習softmax分類器優化的CNN模型有更具競爭性的準確率和實時性的潛力。

1.介紹:車輛給生活帶來方便,但是也帶來了嚴重的交通安全問題。交通安全問題隨著車輛數量的增加而增加,列舉了2015年全球交通安全報告的內容,說明了在交通系統中行人,騎自行車的人,騎摩托車的人處於弱勢地位。尤其是在夜間交通事故中,行人預測系統為的是提高行人的安全保障。近年來,人們對使用計算機視覺檢查的行人預測系統越來越感興趣。

行人預測系統可以預測車輛周圍靜止和移動的行人,以便及時制動或採取避免傷害措施。行人識別是行人預測系統的核心技術。夜間行人識別依靠高質量資料獲得裝置和魯棒性強並且高效的檢測演算法。

資料獲取裝置:可見光譜,雷達,近紅外,短波紅外,長波紅外,多光譜融合。分析各種裝置的優劣:

可見光

夜間效果不好

短波紅外

容易被潮溼的表面吸收

雷達

解釋性差(可視性差)且造價高

長波紅外

依靠目標本身熱輻射成像,不能穿透透明物體(如擋風玻璃)成像,不能被安裝在車輛內部,且對車窗的汙染和損傷敏感,造價相對高,解析度低,對運動的物體成像模糊,對不同季節的成像差異大。

多光譜融合

檢測速度慢,造價相對高。

近紅外

波長範圍在可見光和短波紅外之間,可以提高低成本,高質量圖片,補光可以很好的實現圖片質量的提升,且不會影響其他道路燈光使用者。

分析了造成夜間行人識別複雜的幾個原因:

①行人本身身體和衣著的差異

②不斷地改變視角,距離和背景

③形態的不同

④實時準確率的挑戰

早期目標檢測演算法採取手動的提取統計特徵,然後將這些特徵進行識別依靠高階分類器,如支援向量機和人工神經網路等等。介紹了Alexnet 的發展史,有人應用CNN進行了近紅外夜間行人檢測的研究,但是沒有考慮騎自行車的人和騎摩托車的人。這篇文章的損失率為24%,在我們的研究中,一個基於候選框的兩步CNN檢測演算法被使用,兩步法在目標檢測中有極好的優勢。

由於重要的圖片特徵的差異,基於可見光和長波紅外的行人識別演算法直接應用於近紅外圖片很難獲得滿意的結果。這篇文章專注於近紅外夜間圖片系統,結合高效的,可信的和快速的行人識別演算法。提出了一種自學習的softmax分類器應用於9層CNN網路模型。252000訓練樣本和15000測試樣本用來優化CNN識別模型引數來適應夜間行人識別。測試集從複雜場景中抽取,CNN識別模型測試準確率達到94.49%。使用普通GPU,單個樣本識別時間只有0.07毫秒。

  1. 近紅外行人識別系統

近紅外行人檢測系統結構:

 

 

 

 

 

 

 

 

 

車載近紅外相機獲得的高質量圖片是行人檢測的基礎,對圖片質量,攝影速度,可見光,近紅外,短波紅外和長波紅外進行了對比。近紅外夜間圖片是廉價的,並且具有高解析度和幀頻率。通常情況下城市和郊區道路車輛行駛速度和制動距離也被考慮其中。目標檢測距離限制在15-50米之間。將幾種夜間道路圖片在20米左右的圖片結果進行了對比,近紅外攝像機的圖片結果更令人滿意,為近紅外攝影系統提供全光可以提升夜間行人圖片質量。安裝了一個可選濾波器來將700納米以下的可見光過濾。全光的波長範圍在700納米到900納米之間,這個範圍內僅僅可見人物但不會影響其他道路光使用者。近紅外輔助和可見光濾波使得近紅外行人圖片質量得到提升。營造的這個環境模擬了車輛迎面駛來的場景。新增可見光濾波和近紅外輔助的近紅外相機是夜間行人檢測系統最經濟並且圖片質量最高的選擇。

預處理:對近紅外夜間圖片進行最大灰度限制和灰度對比度拉伸來增強圖片對比度。這就提高了樣本資訊提取。在圖片邊緣進行補零操作,這樣根據最大截距框尺度限制去確定行人使得在邊緣可以很好的擷取和檢測。

區域建議是一種在整張圖片上提取興趣區域的方法。常用的區域建議方法有:DPM;R-CNN;FPN;Fast R-CNN;Faster R-CNN;Mask R-CNN。這些演算法各有優劣。快速並準確提取興趣區域的區域建議演算法是未來研究的最終目標。

CNN是近紅外行人檢測系統的核心。近紅外圖片是灰度圖片,圖片中有兩到三個待分類的目標。提出了一種使用自學習softmax分類器構建的9層CNN夜間行人識別模型。CNN訓練需要大量的樣本。在研究中,在60000個預處理近紅外圖片中選取252000個訓練樣本和15000測試樣本來優化CNN網路。

基於CNN模型的自學習softmax分類器

CNN模型:該模型包括一個80*32的輸入層,兩個步幅是1的卷積層(在第二和第四層的位置)。卷積核的大小分別設定為7*7和3*3,兩個步幅為2的平均池化層,三個全連線隱藏層,一個節點數分別為為540,86,10和分類數量的輸出層。使用第二和第四層兩層卷積層表現了卷積模型的特點。舉個例子,CNN模型第二和第四層分別提取了圖片特徵。除了池化層和輸入層的每一層都使用了relu作為啟用函式。自學習softmax分類器作為輸出層得到概率顯示。

自學習softmax:輸出層經過啟用函式relu後,CNN模型得到一個非負的輸出。這個輸出經過softmax分類器處理。發現預測分類概率總是距離標籤有一定距離。這是因為在進行無限次權重更正。在研究過程中,使用自學習softmax分類器可以減輕這種無限權重更正的現象。

主要改進:

 

 

 

 

這個並沒有改進

 

 

 

這些因為涉及到zj,所以順勢進行改進

 

 

 

 

 

 

 

 

 

 

 

 

實驗

樣本獲取:本研究的檢測目標包括行人,騎自行車的人和騎摩托車的人。1024*1280的60000近紅外圖片來自城市和郊區的道路,照片拍攝使用的是加可見光濾波器的車載近紅外相機並進行了近紅外補光。根據圖片分析,從60000預處理近紅外圖片中選擇擷取樣本,這些樣本是寬度為104到336畫素均勻放置並且高度寬度比例為2.5的11個框。這個寬度是根據15到50米光線檢測距離計算的。

首先,手動擷取11900張背景,34000張行人,19300張騎車的人或騎摩托車的人樣本。樣本資料調整為80*32大小,經過5度的順時針和逆時針旋轉增加了三倍的樣本數量。用擴增樣本預訓練的CNN模型採用划動視窗的方法去預測600000預處理近紅外圖片中的目標。任何預測結果誤差都有一個交併比值,這個值門限小於0.3,認為是背景樣本,經過這一處理,我們獲得一個新的樣本資料集。這個背景樣本增加到135700.新的樣本資料同樣進行尺度調整和三倍擴增。最終我們獲得267000張擴增樣本。它們將作為最終資料優化CNN模型。需要注意的是,測試資料通過計算機自動的從新資料集中隨機選取。2000張背景樣本,1000張行人,2000張騎自行車的人或騎摩托車的人選作測試樣本,其餘作為訓練樣本。

執行:演算法用python實現,實現環境:core i7-8700;3.2GHz.處理器為12核CPU;一個GPU:NVIDIAGeForce GTX1060 6GB;16GB記憶體。批次,初始學習率,動量和隨機下降梯度分別設定為50,0.003,0.9,0.00003.

訓練和測試結果:

①對比了2分類和3分類識別情況:3分類是背景,行人,騎自行車和騎摩托車的人,通過誤差分析,行人和騎車的人經常混淆,然後說明了可以把行人和騎車的人合併在一起的理由,進行了2分類測試,效果顯然比三分類好。

②卷積通道調整:在測試識別過程中發現了一些頑固的反例,這些樣本是由燈光反射或車輛燈光系統造成的。在訓練和測試中為了減輕這些反例的影響,應用均值減去法對樣本資料進行預處理。此外,為防止梯度爆炸,在訓練過程中當測試損失率連續3代不再提高的時候將學習率減半。

對比了卷積層濾波器個數為30-18,25-15,20-12時的2分類結果。得到個數為25-15時2分類結果最佳,測試準確率93.22%,訓練損失率為1.07%。

③使用自學習softmax分類器微調:準確率由93.22%上升到94.49%,平均識別時間為0.07毫秒。

5.結論:近紅外相機經濟實惠,圖片上質量高,可靠性高,實時性好,這些特點可以更好地進行商業應用。又說了一通結果和識別效果,然後說識別是本次研究的基礎,未來努力的方向是在優化區域目標獲取來減小交併比。