1. 程式人生 > >化繁為簡,弱監督目標定位領域的新SOTA - 偽監督目標定位方法(PSOL) | CVPR 2020

化繁為簡,弱監督目標定位領域的新SOTA - 偽監督目標定位方法(PSOL) | CVPR 2020

論文提出偽監督目標定位方法(PSOL)來解決目前弱監督目標定位方法的問題,該方法將定位與分類分開成兩個獨立的網路,然後在訓練集上使用Deep descriptor transformation(DDT)生成偽GT進行訓練,整體效果達到SOTA,論文化繁為簡,值得學習

來源:曉飛的演算法工程筆記 公眾號

論文: Rethinking the Route Towards Weakly Supervised Object Localization

  • 論文地址:https://arxiv.org/abs/2002.11359

Introduction


  由於訓練資料難以大量標註,一些研究如何使用弱監督的方法來學習,弱監督的訓練資料一般只包含image-level標籤,無具體目標的定位標籤/語義標籤。在弱監督演算法中,弱監督目標定位(WSOL)是最實際的任務,只需要定位給定標籤的物件位置即可

  經過實驗,論文認為WSOL中的定位部分應該為類不可知的,與分類無關。基於這個觀察,將WSOL分為類不可知目標定位以及目標分類兩部分,如圖1所示,命名為偽監督目標定位(Pseudo Supervised Object Localization, PSOL)。演算法首先生成通過Deep descriptor transformation(DDT)生成偽監督GT bbox,然後對這些bbox進行迴歸,去掉了WSOL中僅能有一層全連線的限制(當作卷積的channel-wise權重)以及定位與分類耦合導致的取捨問題
  論文貢獻主要如下:

  • 弱監督目標定位應該分為類不可知目標定位和目標分類兩個獨立的部分,提出PSOL演算法
  • 儘管生成的bbox有偏差,論文仍然認為應該直接優化他們而不需要類標籤,最終達到SOTA
  • 在不同的資料集上,PSOL演算法不需要fine-tuning也能有很好的定位遷移能力

Related Works


  這裡需要說明一下,弱監督目標定位(WSOL)與弱監督目標檢測(WSOD)是不一樣的,WSOL假設圖片中只有一個目標,而WSOD則沒有這種假設,所以WSOD一般需要額外的方法去生成region proposal

Methodology


A paradigm shift from WSOL to PSOL

  當前WSOL能夠生成生成帶類別標籤的bbox,但主要有以下幾個問題:

  • 學習目標不明確,導致定位任務效能下降。獨立的CNN不能同時進行定位和分類任務,因為定位需要目標的全域性特徵,而分類只需要目標的區域性特徵
  • CAM(Class Activation Mapping)儲存一個三維特徵圖用於計算類別的heatmap,再用閾值過濾,但是一般閾值十分難確定

  受selective search和Faster-RCNN的類不可知過程的啟發,將WSOL分成兩個子任務,類不可知的目標定位任務和目標分類任務,提出PSOL,直接通過偽GT bbox進行模型更新,不需要直接生成bbox,能夠顯著解決前面提到的問題

The PSOL Method

  • Bounding Box Generation

  PSOL與WSOL的區別在於給無標籤的訓練圖片產生偽bbox,Detection是最好的選擇,能夠直接提供bbox和類別。但是最大的檢測訓練集才80類,不能提供通用的目標檢測,而且目前的detector大都需要大量的計算資源和輸入尺寸,導致不能在大規模資料集上使用。除了detection模型,可以嘗試定位方法來直接產生訓練圖上的bbox

  1. WSOL methods

  首先通過預訓練網路$F$得到輸入圖片$I$的最後卷積的特徵圖$G \in \mathbb{R}^{h\times w\times d}=F(I)$,然後通過全域性池化和最終的全連線層得到最後的標籤$L_{pred}$。根據$L_{pred}$或$L_{gt}$,得到特定類別在最終全連線中的權重$W\in \mathbb{R}^d$,對$G$中的空間位置進行channel-wise的加權並求和得到特定類別的heatmap $H, H_{i,j}={\sum}{k=1}^d G{i,j,k}W_k$,將$H$上取樣到原來的大小,使用閾值過濾在產生最終的bbox

  1. DDT recap

  協同監督方法在定位任務中有較好的表現,DDT是其中表現好且計算量最少的。對於$n$張相同標籤圖的集合$S$,使用預訓練模型$F$得到最終的特徵圖$G\in \mathbb{R}^{h\times w\times d}=\mathbb{R}^{hw\times d}=F(I)$,將這些特徵圖集合到一起得到大特徵集$G_{all}\in \mathbb{R}^{n\times hw\times d}$。在深度上使用主成分分析(PCA),得到特徵值最大的特徵向量$P$,然後對$G$進行channel-wise的加權並求和得到最終的heatmap $H, H_{i,j}={\sum}{k=1}^d G{i,j,k}P_k$,將$H$上取樣到原來的大小,然後進行零過濾以及最大連通區域分析得到bbox

  • Localization Methods

  在生成bbox後,使用bbox迴歸進行精調,這裡使用單類別迴歸(single-class regression, SCR)。假設bbox為$(x,y,w,h)$,$(x,y)$為左上角座標,$(w,h)$為寬高,首先將值進行轉換$x^=\frac{x}{w_i}$, $y^=\frac{y}{h_i}$, $w^=\frac{w}{w_i}$, $h^=\frac{h}{h_i}$,其中$w_i$和$h_i$為輸入圖片的寬和高。使用兩個全連線層以及對應ReLU的子網來回歸,最終的輸出進行sigmoid啟用,訓練使用最小平方差

Experiments


Experimental Setups

  • Datasets,使用ImageNet-1k和CUB-200,測試資料的bbox是準確標註的,而訓練集上的bbox則通過前面提到的方法進行生成
  • Metrics,驗證3個指標:知道GT類別的定位準確率(GT-known Loc),當預測與GT的$IOU > 50%$時正確;Top-1定位準確率(Top-1 Loc),Top-1的分類正確且GT-known Loc正確;Top-5定位準確率(Top-5 Loc),Top-5結果中存在分類正確且GT-known Loc正確
  • Base Models,有VGG16/Inception V3/ResNet50/DenseNet161,沒有增大圖片輸入,一些WSOL方法要用到類別資訊的權重(單層全連線)來生成heatmap,而PSOL不用。為了公平起見,增加VGG-GAP,將所有全連線層換成單層全連線,而對於迴歸模型,仍然使用雙層全連線層加對應的ReLU
  • Joint and Separate Optimization,對於聯合優化模型(-Joint),在原來的基礎上加入bbox迴歸分枝,然後同時訓練模型的分類和定位。對於獨立優化模型(-Sep),單獨訓練兩個模型

Results and Analyses


Ablation Studies on How to Generate Pseudo Bounding Boxes

  在驗證集上對比了不同演算法生成偽GT框的準確率,DDT-VGG16效能最優

Comparison with State-of-the-art Methods

  與SOTA對比並視覺化結果後發現:

  • DDT本身就已經比WSOL方法要好,說明類不可知是有用的,WSOL應該分為兩個獨立的模型
  • 所有PSOL方法分開訓練都比聯合訓練要好,說明定位和分類學習到的內容不一樣
  • POSL在CUB-200上都具有較大的優勢,由於類別相似度較大,類別標籤不一定能幫助定位,反而協同定位的DDT更佔優
  • CNN有能力去處理有噪聲的資料並且得到更高的準確率,PSOL模型的GT-Known Loc基本都比DDT-VGG16高
  • WSOL裡的一些約束沒有帶到PSOL中,例如只允許單層全連線層以及更大的輸出特徵圖,去掉常見的三層全連線層會影響準確率,VGG-Full比VGG-GAP要好。還有WSOL方法在複雜的網路上效果不好,如DenseNet,主要由於DenseNet使用多層進行分類,不僅僅是最後一層,最後一層的語義不如VGG等明確,而PSOL-DenseNet則避免了這個問題,達到最高準確率

Transfer Ability on Localization

  PSOL不需要任何監督資訊就很好的從ImageNet遷移到CUB-200,甚至比fine-tune的WSOL方法都好,證明目標定位與類別關聯是沒必要的

Combining with State-of-the-art Classification

  將分類部分的網路改為SOTA分類網路結合進行實驗,PSOL效能依然比WSOL要好

Comparison with fully supervised methods

  對比監督方法,這裡論文的描述不是很清楚,表中有監督的分類網路應該都是使用WSOL方法+定位LOSS。從結果來看,從ILSVRC直接遷移過來的Faster-RCNN-ensemble精度最高,region proposal網路不需要fine-tuning就具有更好的處理不同類別的通用能力,說明定位與分類是分開的

CONCLUSION


  論文提出偽監督目標定位方法(PSOL)來解決目前弱監督目標定位方法存在的問題,該方法將定位與分類分開成兩個獨立的網路,然後在訓練集上使用Deep descriptor transformation(DDT)生成偽GT進行訓練,整體效果達到SOTA,論文化繁為簡,值得學習



如果本文對你有幫助,麻煩點個贊或在看唄~
更多內容請關注 微信公眾號【曉飛的演算法工程筆記】

相關推薦

監督目標定位領域SOTA - 監督目標定位方法(PSOL) | CVPR 2020

論文提出偽監督目標定位方法(PSOL)來解決目前弱監督目標定位方法的問題,該方法將定位與分類分開成兩個獨立的網路,然後在訓練集上使用Deep descriptor transformation(DDT)生成偽GT進行訓練,整體效果達到SOTA,論文化繁為簡,值得學習   來源:曉飛的演算法工程筆記 公眾號

|華天軟體引數將軸承設計變為數與數的組合

我國軸承企業雖然數量眾多,但由於受到資金、技術、人力資源、研發力量等方面的限制,企業規模普遍比較小,市場競爭也主要體現在中低端產品市場層面。同時,與世界軸承工業強國相比,我國軸承行業還存在不小的差距,主要表現為高精度、高技術含量、高附加值、長壽命產品的比例普遍偏低、產品的穩定性和創新性有待進一步改進等方面。

|華天軟件參數將軸承設計變為數與數的組合

企業 存在 自定義 品種 col mark 市場 東方 同時 我國軸承企業雖然數量眾多,但由於受到資金、技術、人力資源、研發力量等方面的限制,企業規模普遍比較小,市場競爭也主要體現在中低端產品市場層面。同時,與世界軸承工業強國相比,我國軸承行業還存在不小的差距,主要表現為高

Hadoop-從安裝Linux到搭建集群環境

開始 協調 利用 html isa 同學 防火墻 右鍵 $path 簡介與環境準備   hadoop的核心是分布式文件系統HDFS以及批處理計算MapReduce。近年,隨著大數據、雲計算、物聯網的興起,也極大的吸引了我的興趣,看了網上很多文章,感覺還是雲裏霧裏,很多不必

Hadoop—hdfs的核心剖析

數據 blog args mis javaapi 區別 原理 site 公鑰 層層遞進-解開hdfs的面紗   1、hdfs是什麽?它與普通服務器的文件系統有什麽區別?它的特性有什麽?   2、hdfs的工作原理是怎樣的?   3、每臺機器都單獨啟動有什麽弊端?假設有

!文件存儲&傳輸形式的革命

企業網盤 雲宏知庫 文件傳輸 文件儲存 過往,我們在工作中幾乎天天都會遇到這樣的事情——我想分享一個文件給同事,請他們給我反饋讓我進行修改,並且每個修改版本都需要存檔以便於後續比對校驗、反復討論修正。最普遍的方式,應該是使用電子郵件群發文檔,將收集來的不同版本存在本地電腦裏,對吧?然而當我的文

媒體視角 | 的IaaS和容器

tro cti dev 存儲 領域 原生 建立 集群 ESS 2018年6月28日,Container Day 2018 (即Rancher Kubernetes企業用戶大會)如期召開,Rancher Labs CEO及聯合創始人梁勝深入解讀了容器技術現狀及發展趨勢,為整場

的lombok

加鎖 ins 化繁為簡 getname 階段 ron hashcode 發現 生存 眾所周知,Java語言是啰嗦的,寫久了就會發現很多地方的代碼看著就很冗余。lombok提供了一種簡化Java代碼的解決方案,通過註解的方式,來生成模板化的代碼。最典型的就是生成類的構造函數,

ChainDesk:自行搭建你的Fabric網路-不可或缺的配置檔案

      作者:ChainDesk韓小東,ChainDesk區塊鏈行業分析師, ChainDesk區塊鏈工程師   目標     1.理解 configtx.yaml 配置檔案中的各項含義

讓天下沒有難用的資料庫 »

下面的一段對話取自於和使用者的一段旺旺聊天記錄,在徵得使用者的同意後,放到我的blog中,希望更多的人能夠看見,分享是一件快樂的事情;同時也想借此來說明一些問題,有時候試圖用一條sql完成所有的業務邏輯可能會遇到麻煩,需要對複雜的sql進行一些拆分,可能會得到更好的效果,好吧,廢話少說,進入正題:

專注力:的驚人力量

  你有沒有這樣的同事,他們花了你80%的時間卻只給了你不到20%的回報(不論你怎樣定)? 是時候重新分配他們接近你的機會了,把更多的時間放在那些能帶來更多回報的人身上。   看到這本書我覺得很適合我這型別性格的人看。按照最新的性格色彩來說我屬於綠色和藍色 性格。並不像紅色性

1024 科學計數法 (20)(20 分)教你如何

1024 科學計數法 (20)(20 分) 科學計數法是科學家用來表示很大或很小的數字的一種方便的方法,其滿足正則表示式[+-][1-9]"."[0-9]+E[+-][0-9]+,即數字的整數部分只有1位,小數部分至少有1位,該數字及其指數部分的正負號即使對正數也必定明

mac畫圖工具 OmniGraffle (四)

OmniGraffle 在內容組織上有頁面和圖層這兩個層級,稍有點遺憾的是目前的版本還沒有資料夾的管理層級,希望後續的版本能加上。頁面、圖層、共享圖層實現對內容的組織和共享。另外,OmniGraffle 還能像Keynote一樣進行演示,頁面以及圖層之間可以通過「動作」的設定進行跳轉或者開啟指定的檔案,這

首度揭秘阿裏雲飛天洛神系統

調度 管理平臺 基礎架構 全球 效率 網絡拓撲 ima img 部署 摘要: 洛神是阿裏雲飛天中負責虛擬網絡的系統,她為阿裏雲客戶提供了豐富的網絡產品,如VPC、SLB等。同時,她也是ECS,RDS,OSS,NAS等100多個雲產品的網絡基礎設施。她還支撐了阿裏巴巴集團和螞

機房管理化-新款KVM使用教程

產品簡介 控制平臺 是一個集成了多埠KVM切換功能於1U高度空間的控制平臺,它通過一組裝置(包含顯示器、鍵盤、滑鼠)實現對多臺計算機的操作。從而節省了為每臺計算機單獨配置鍵盤、滑鼠、監視器的費用以及它們所佔用的空間。 安裝快速簡單,只需要將電纜連線到正確的埠上,而無須軟

Cloud 2.0時代的華讓產業互聯網跨越摩爾定律

處理 打通 根據 優勢 業務 彌補 開發 智能化 更強 根據中國信通院的《互聯網發展趨勢報告2017-2018》:互聯網已成為全球經濟增長主要驅動力,中國互聯網產業也正處於新的歷史拐點。從互聯網發展周期看,移動互聯網浪潮已消退,全面進入穩定增長階段,業務生態持續創新拓展,“

監督學習監督學習監督學習監督學習

什麼是機器學習? 機器學習的定義有很多種,而且到目前為止也沒有一個公認的定義,想要了解更多可以參考一下知乎https://www.zhihu.com/question/33892253的解答,有客觀的回答,有深刻的幽默。 在這裡我

oracle筆記:資料庫初始打不開程序0解決方案

用PL登入提示初始化打不開,程序為0,一方面原因為資料檔案有丟失情況或者誤刪除; 另一方面為控制檔案有誤,總之就是缺失或者錯誤造成的。 下面是一次解決此方案的過程: 啟動時報這個錯誤 ORA-01157: 無法標識/鎖定資料檔案 5 - 請參閱 DBWR 跟蹤檔案 ORA-