尺度不變網路提升人群計數效能
(歡迎關注“我愛計算機視覺”公眾號,一個有價值有深度的公眾號~)
人群計數是通過計算機視覺計算人群數量,在公共安全和城市規劃中有非常重要的應用。今天分享的文章通過改進網路對該任務的尺度不變性,顯著提高了人群計數演算法效能。
文章來自幾天前arXiv新上論文《Stacked Pooling: Improving Crowd Counting by Boosting Scale Invariance》,作者資訊:

在計算機視覺中尺度不變是經常被討論的話題,與其相關最著名的演算法就是大名鼎鼎的SIFT(尺度不變特徵變換)了。該論文作者通過觀察發現,在人群計數這一領域,影象不同區域通過resize到相同大小,在尺度上具有高度的視覺相似性。請看下面這幅圖:
來自同一幅影象和不同的影象經過resize,子圖內的人物大小、人群密度、層疊關係視覺上很相似。
由於神經網路中池化層直接關係到網路的尺度變化,所以本文作者希望改進池化層,提高人群計數的演算法效能。
作者在vanilla pooling基礎上發明了兩種池化層變種,multi-kernel pooling 和 stacked pooling。
multi-kernel pooling圖示:
stacked pooling圖示:
為驗證所提的池化層的有效性,作者們使用VGG-13網路的各種變形來進行人群計數。網路的變化包括卷積核大小,網路寬度、深度等,如下圖所示:
作者在ShanghaiTech-A資料集上驗證multi-kernel pooling在高密度組比vanilla pooling要好,而在整個ShanghaiTech-B資料集上multi-kernel pooling都是更好的。
使用stacked pooling方法的各種網路變種都在ShanghaiTech資料集上比vanilla pooling好,且具有明顯的效能提升。
在WorldExpo’10資料集上大部分場景也取得了更好的效果。
程式碼主頁:
https://github.com/siyuhuang/crowdcount-stackpool
更多精彩推薦:
ofollow,noindex">NVIDIA ECCV18論文:超畫素取樣網路助力語義分割與光流估計(程式碼將開源)
OpenCV深度學習文字檢測示例程式(EAST text detector)
MaskFusion:驚豔的結合例項感知、語義分割、動態追蹤的SLAM系統
(歡迎關注“我愛計算機視覺”公眾號,一個有價值有深度的公眾號~)
Line"/>