1. 程式人生 > >【深度學習論文筆記】Deep Neural Networks for Object Detection

【深度學習論文筆記】Deep Neural Networks for Object Detection



      論文:<<Deep Neural Networks for Object Detection>>
      作者
:Christian Szegedy Alexander Toshev Dumitru Erhan

來源: Google
是否開放程式碼: 否
主要思想:利用DNN來做目標檢測,因為現在的CNN等深度學習在識別上面做的還挺好,但是在目標檢測上面,好像沒有特別突出的結果。目標檢測 = 目標識別 +目標定位;
本文中作者把目標檢測看做一個迴歸問題,迴歸目標視窗(
BoundingBox)的位置,尋找一張圖片當中目標類別和目標出現的位置。
當前的目標檢測方法效果比較好的是

DPM(可變形部分模型)模型,建立在目標表示和目標可分解為由多個Part組成的模型,它是一種圖模型,利用判別性學習這種圖模型在目標檢測中取得了不錯的結果。

目標檢測最重要的問題:1.大小(解析度) 2.如何不滑動視窗來做(滑動視窗實在是太慢了)。
文章說明了:
1. 基於DNN的迴歸不但可以學習有利於分類的特徵,同時它也能夠捕獲到目標的幾何資訊;

主要內容
通過設計基於
DNN的迴歸,它的輸出為二值化mask(掩碼?反正就是來表示目標的位置資訊),並且實現了從掩碼中提取檢測到的目標視窗,利用DNN的掩碼迴歸問題中,即考慮到了完整影象的多尺度問題,同時也考慮到了一些小數量的影象裁剪塊,然後以此精化;

在實現中,作者基於NIPS2012ImageNet那篇,直接把最後一層替換為迴歸層。

其它的基於DNN的檢測方法或多或少是基於區域性或者半區域性分類器來做的,這這篇文章中採用的是利用整幅影象作為輸入,然後通過位置迴歸來做的,這樣的方法顯然比滑動視窗的方法來說更加的高效;
 

對於存在的三個問題:1 .單個掩碼可能區分開那些相互靠近的目標,2.由於輸出大小的限制,產生的掩碼會比原始影象小很多,所以這樣就不能夠精確的定位,3.因為輸入是整張影象,一些小的圖片能夠影響到的輸入神經元很少,所以將導致不易識別;

1.為了解決第一個問題:目標相互靠近的情況:
作者生成多個掩碼,每個掩碼錶示著對應的完整的目標或者部分目標,他們使用一個網路來預測目標視窗掩碼,使用

4個附加的網路來檢測4個半部分視窗,上下左右。這5個預測的結果是過完全的,但是可以減少不確定性和一些掩碼錯誤。這樣當有兩個相同物件靠近出現在影象中時,產生的5個掩碼至少有兩個是不會合並在一起的,這樣就可以區分開不同的目標;

==========================================

未完~~