論文提出偽監督目標定位方法(PSOL)來解決目前弱監督目標定位方法的問題，該方法將定位與分類分開成兩個獨立的網路，然後在訓練集上使用Deep descriptor transformation(DDT)生成偽GT進行訓練，整體效果達到SOTA，論文化繁為簡，值得學習

來源：曉飛的演算法工程筆記公眾號

論文: Rethinking the Route Towards Weakly Supervised Object Localization

論文地址：https://arxiv.org/abs/2002.11359

Introduction

由於訓練資料難以大量標註，一些研究如何使用弱監督的方法來學習，弱監督的訓練資料一般只包含image-level標籤，無具體目標的定位標籤/語義標籤。在弱監督演算法中，弱監督目標定位(WSOL)是最實際的任務，只需要定位給定標籤的物件位置即可

經過實驗，論文認為WSOL中的定位部分應該為類不可知的，與分類無關。基於這個觀察，將WSOL分為類不可知目標定位以及目標分類兩部分，如圖1所示，命名為偽監督目標定位(Pseudo Supervised Object Localization, PSOL)。演算法首先生成通過Deep descriptor transformation(DDT)生成偽監督GT bbox，然後對這些bbox進行迴歸，去掉了WSOL中僅能有一層全連線的限制(當作卷積的channel-wise權重)以及定位與分類耦合導致的取捨問題
論文貢獻主要如下：

弱監督目標定位應該分為類不可知目標定位和目標分類兩個獨立的部分，提出PSOL演算法

儘管生成的bbox有偏差，論文仍然認為應該直接優化他們而不需要類標籤，最終達到SOTA
在不同的資料集上，PSOL演算法不需要fine-tuning也能有很好的定位遷移能力

這裡需要說明一下，弱監督目標定位(WSOL)與弱監督目標檢測(WSOD)是不一樣的，WSOL假設圖片中只有一個目標，而WSOD則沒有這種假設，所以WSOD一般需要額外的方法去生成region proposal

Methodology

A paradigm shift from WSOL to PSOL

當前WSOL能夠生成生成帶類別標籤的bbox，但主要有以下幾個問題：

學習目標不明確，導致定位任務效能下降。獨立的CNN不能同時進行定位和分類任務，因為定位需要目標的全域性特徵，而分類只需要目標的區域性特徵

CAM(Class Activation Mapping)儲存一個三維特徵圖用於計算類別的heatmap，再用閾值過濾，但是一般閾值十分難確定

受selective search和Faster-RCNN的類不可知過程的啟發，將WSOL分成兩個子任務，類不可知的目標定位任務和目標分類任務，提出PSOL，直接通過偽GT bbox進行模型更新，不需要直接生成bbox，能夠顯著解決前面提到的問題

The PSOL Method

Bounding Box Generation

PSOL與WSOL的區別在於給無標籤的訓練圖片產生偽bbox，Detection是最好的選擇，能夠直接提供bbox和類別。但是最大的檢測訓練集才80類，不能提供通用的目標檢測，而且目前的detector大都需要大量的計算資源和輸入尺寸，導致不能在大規模資料集上使用。除了detection模型，可以嘗試定位方法來直接產生訓練圖上的bbox

WSOL methods

首先通過預訓練網路$F$得到輸入圖片$I$的最後卷積的特徵圖$G \in \mathbb{R}^{h\times w\times d}=F(I)$，然後通過全域性池化和最終的全連線層得到最後的標籤$L_{pred}$。根據$L_{pred}$或$L_{gt}$，得到特定類別在最終全連線中的權重$W\in \mathbb{R}^d$，對$G$中的空間位置進行channel-wise的加權並求和得到特定類別的heatmap $H, H_{i,j}={\sum}{k=1}^d G{i,j,k}W_k$，將$H$上取樣到原來的大小，使用閾值過濾在產生最終的bbox

DDT recap

協同監督方法在定位任務中有較好的表現，DDT是其中表現好且計算量最少的。對於$n$張相同標籤圖的集合$S$，使用預訓練模型$F$得到最終的特徵圖$G\in \mathbb{R}^{h\times w\times d}=\mathbb{R}^{hw\times d}=F(I)$，將這些特徵圖集合到一起得到大特徵集$G_{all}\in \mathbb{R}^{n\times hw\times d}$。在深度上使用主成分分析(PCA)，得到特徵值最大的特徵向量$P$，然後對$G$進行channel-wise的加權並求和得到最終的heatmap $H, H_{i,j}={\sum}{k=1}^d G{i,j,k}P_k$，將$H$上取樣到原來的大小，然後進行零過濾以及最大連通區域分析得到bbox

Localization Methods

在生成bbox後，使用bbox迴歸進行精調，這裡使用單類別迴歸(single-class regression, SCR)。假設bbox為$(x,y,w,h)$，$(x,y)$為左上角座標，$(w,h)$為寬高，首先將值進行轉換$x^=\frac{x}{w_i}$, $y^=\frac{y}{h_i}$, $w^=\frac{w}{w_i}$, $h^=\frac{h}{h_i}$，其中$w_i$和$h_i$為輸入圖片的寬和高。使用兩個全連線層以及對應ReLU的子網來回歸，最終的輸出進行sigmoid啟用，訓練使用最小平方差

Experiments

Experimental Setups

Datasets，使用ImageNet-1k和CUB-200，測試資料的bbox是準確標註的，而訓練集上的bbox則通過前面提到的方法進行生成
Metrics，驗證3個指標：知道GT類別的定位準確率(GT-known Loc)，當預測與GT的$IOU > 50%$時正確；Top-1定位準確率(Top-1 Loc)，Top-1的分類正確且GT-known Loc正確；Top-5定位準確率(Top-5 Loc)，Top-5結果中存在分類正確且GT-known Loc正確
Base Models，有VGG16/Inception V3/ResNet50/DenseNet161，沒有增大圖片輸入，一些WSOL方法要用到類別資訊的權重(單層全連線)來生成heatmap，而PSOL不用。為了公平起見，增加VGG-GAP，將所有全連線層換成單層全連線，而對於迴歸模型，仍然使用雙層全連線層加對應的ReLU
Joint and Separate Optimization，對於聯合優化模型(-Joint)，在原來的基礎上加入bbox迴歸分枝，然後同時訓練模型的分類和定位。對於獨立優化模型(-Sep)，單獨訓練兩個模型

Results and Analyses

Ablation Studies on How to Generate Pseudo Bounding Boxes

在驗證集上對比了不同演算法生成偽GT框的準確率，DDT-VGG16效能最優

Comparison with State-of-the-art Methods

與SOTA對比並視覺化結果後發現：

DDT本身就已經比WSOL方法要好，說明類不可知是有用的，WSOL應該分為兩個獨立的模型
所有PSOL方法分開訓練都比聯合訓練要好，說明定位和分類學習到的內容不一樣
POSL在CUB-200上都具有較大的優勢，由於類別相似度較大，類別標籤不一定能幫助定位，反而協同定位的DDT更佔優
CNN有能力去處理有噪聲的資料並且得到更高的準確率，PSOL模型的GT-Known Loc基本都比DDT-VGG16高
WSOL裡的一些約束沒有帶到PSOL中，例如只允許單層全連線層以及更大的輸出特徵圖，去掉常見的三層全連線層會影響準確率，VGG-Full比VGG-GAP要好。還有WSOL方法在複雜的網路上效果不好，如DenseNet，主要由於DenseNet使用多層進行分類，不僅僅是最後一層，最後一層的語義不如VGG等明確，而PSOL-DenseNet則避免了這個問題，達到最高準確率

Transfer Ability on Localization

PSOL不需要任何監督資訊就很好的從ImageNet遷移到CUB-200，甚至比fine-tune的WSOL方法都好，證明目標定位與類別關聯是沒必要的

Combining with State-of-the-art Classification

將分類部分的網路改為SOTA分類網路結合進行實驗，PSOL效能依然比WSOL要好

Comparison with fully supervised methods

對比監督方法，這裡論文的描述不是很清楚，表中有監督的分類網路應該都是使用WSOL方法+定位LOSS。從結果來看，從ILSVRC直接遷移過來的Faster-RCNN-ensemble精度最高，region proposal網路不需要fine-tuning就具有更好的處理不同類別的通用能力，說明定位與分類是分開的

CONCLUSION

論文提出偽監督目標定位方法(PSOL)來解決目前弱監督目標定位方法存在的問題，該方法將定位與分類分開成兩個獨立的網路，然後在訓練集上使用Deep descriptor transformation(DDT)生成偽GT進行訓練，整體效果達到SOTA，論文化繁為簡，值得學習

如果本文對你有幫助，麻煩點個贊或在看唄～
更多內容請關注微信公眾號【曉飛的演算法工程筆記】

化繁為簡，弱監督目標定位領域的新SOTA - 偽監督目標定位方法(PSOL) | CVPR 2020

Introduction