1. 程式人生 > >計算機視覺: 物體分類,場景分類,事件分類

計算機視覺: 物體分類,場景分類,事件分類

主要總結一下最近看的幾篇場景分類文獻,順便總結場景、物體和事件分類的關係。
[1] ILSVRC 2015 Scene Classication Challenge.冠軍,主要貢獻是Relay Backpropagation和Class-aware Sampling。比賽結果如下圖:
這裡寫圖片描述

[2] 16年場景分類的冠軍海康威視。比較有特色的地方是Supervised Data Augmentation,label smoothing (LS) via prior label distribution,Train and Test in Harmony。比賽結果如下:
這裡寫圖片描述

[3]senet, ILSVRC 2017 classification冠軍。在比賽中使用了label smoothing,且在最後幾次訓練中凍結了BN層。不多說了,在places365的結果如下:
這裡寫圖片描述

之前一直從細粒度影象分類[15]的角度思考場景的類間相似性和類內差異性。而且針對影象細粒度分類的技術確實在場景分類上觀察到了效果的提升,如bilinear[12-13],有理由相信進化版kernel pooling[14]也應該有效,雖然原文沒有做這方面的實驗。具體可參考之前的博文。但是實際上細粒度影象分類和場景分類既有聯絡又有區別,比如我們可以嘗試思考細粒度物體分類和細粒度場景分類這樣的概念。在場景分類中,場景是物體,空間佈局,背景和它們之間的關聯關係綜合而成,是十分抽象的概念。另外場景的類間相似性和類內差異性也不等同於細粒度中的情形,其中可能涉及到空間佈局,尺度和物體的種類等等。而且場景還存在標籤的主觀性和歧義性

。幸運的是已經有人針對這些問題進行了探索,下面主要看針對場景分類這些難點的一些工作。

[4] 這篇文章很有意思,指出ImageNet-CNNs和Places-CNNs有不同的適用scale。在場景資料集和物體資料集中物體的大小分佈和數量分佈都有顯著的差別,見下圖:
這裡寫圖片描述
可見物體分類資料集中物體尺寸較大,且數量很少。ImageNet-CNNs和Places-CNNs在不同尺度的表現如下:
這裡寫圖片描述
文章提出的多尺度架構如下:
這裡寫圖片描述

[5-9] [5-6]分別是[7-9]這三篇系列工作的中英文概述,整個系列非常有啟發性。整個動機作者在[5]解釋的很清楚,這裡不班門弄斧了。

[10] 同樣來自上述課題組,將物體和場景分類中學習到的特徵遷移到事件分類上。文章指出相比於物體和場景,事件更為抽象。

[11] 這篇文章還是關注場景中的物體資訊,尤其是不同場景中存在的同樣物體,主要是希望增強影象表示的區分能力。通過統計物體在場景資料集中的共現規律來選擇區分性強的物體而丟棄區分性差的物體。

references

  1. Shen L, Lin Z, Huang Q. Relay backpropagation for effective learning of deep convolutional neural networks[C]//European conference on computer vision. Springer International Publishing, 2016: 467-482.
  2. Towards Good Practices for Recognition & Detection - ImageNet
  3. Hu J, Shen L, Sun G. Squeeze-and-Excitation Networks[J]. arXiv preprint arXiv:1709.01507, 2017.
  4. Herranz L, Jiang S, Li X. Scene recognition with CNNs: objects, scales and dataset bias[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 571-579.
  5. Good Practice on Deep Scene Classification
  6. Guo S, Huang W, Wang L, et al. Locally supervised deep hybrid model for scene recognition[J]. IEEE Transactions on Image Processing, 2017, 26(2): 808-820.
  7. Wang Z, Wang L, Wang Y, et al. Weakly supervised patchnets: Describing and aggregating local patches for scene recognition[J]. IEEE Transactions on Image Processing, 2017, 26(4): 2028-2041.
  8. Wang L, Guo S, Huang W, et al. Knowledge guided disambiguation for large-scale scene classification with multi-resolution CNNs[J]. IEEE Transactions on Image Processing, 2017, 26(4): 2055-2068.
  9. Wang L, Wang Z, Qiao Y, et al. Transferring Deep Object and Scene Representations for Event Recognition in Still Images[J]. International Journal of Computer Vision, 2017: 1-20.
  10. Cheng X, Lu J, Feng J, et al. Scene recognition with objectness[J]. Pattern Recognition, 2018, 74: 474-487.
  11. Bilinear CNNs for Fine-grained Visual Recognition
  12. Gao Y, Beijbom O, Zhang N, et al. Compact bilinear pooling[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 317-326.
  13. Cui Y, Zhou F, Wang J, et al. Kernel pooling for convolutional neural networks[C]//Computer Vision and Pattern Recognition (CVPR). 2017.
  14. Fully Convolutional Attention Networks for Fine-Grained Recognition