1. 程式人生 > >論文筆記:Is object localization for free?

論文筆記:Is object localization for free?

Is object localization for free? Weakly-supervised learning with convolutional neural networks

摘要

提出一個弱監督卷積神經網路for 分類。主要貢獻有:1. 輸出正確的分類結果(image-level)2. 預測合理的位置3. 對比跟bounding box

這裡寫圖片描述

引言

本文利用的圖片只有圖片包含的物體列表資訊,並不包含這些物體的位置資訊。
本文利用卷及神經網路來進行改進。5個卷積層+4個fc層。

  1. 最後一層fc網路看做卷積網路,這樣輸入圖片的大小就可以是任意形狀
  2. 在輸出時引進global max-pooling層,猜測圖片中物體的可能位置。
  3. 更改代價函式

模型結構

這裡寫圖片描述

固定輸入224*224,輸出1*1*K向量,K 是類別個數。這裡通過滑動視窗將輸出拓展成m*n*K 。 我們把fc看作是kernel跟輸入大小一樣的卷積層。這裡的輸入限定大小是224*224,但是圖片是256*256,所以我們設定的stride是32.這樣每張圖片就可以生成2*2*K 個輸出。關於如何實現,請看後文。 這個就比較好玩了,我不喜歡caffe自帶的crop,因為只能crop四個角,還有中心區域,這樣的話就可以自己設定crop的大小個位置

max-pooling用於物體 的明確搜尋


對於每張圖,我們要輸出一個image-level的標籤。因為有m*n個不同位置的評分。這樣可以用來多例項檢測。
多尺度滑動視窗
用0擴充套件邊界到500*500,resized 0.7-1.4倍。這個挺不錯。但是不能應用在atypia scoring中,因為這裡,大小規模不一樣,評分標準不一樣。而分類物體是大小規模不一樣,但是分類結果要一樣。

分類實驗

主要預測物體是否存在。
這裡寫圖片描述

這篇論文應該就是死路應該來源於Network in Network. 主要就是利用global average pooling。
其次就是多尺度圖片。

Emma
SIAT
2017.03.02