1. 程式人生 > >Mask-guided Contrastive Attention Model for Person Re-Identification 詳解

Mask-guided Contrastive Attention Model for Person Re-Identification 詳解

最近在看Re-ID相關的東西,現在把這篇paper記錄一下。程式碼地址

一、概述

首先二元體掩碼可以在兩個方面為Re-ID做出貢獻。1、掩模可以幫助消除畫素級的背景雜波,這可以極大地提高ReID模型在各種背景條件下的魯棒性。2、面具包含可被視為重要步態特徵的體形資訊。
如果直接掩蓋掉影象中的背景,會使得效能變差,具體的實驗結果可以在作者文章4.3節見到,如下:
在這裡插入圖片描述

二、網路結構:

為了解決這個問題,作者利用二元掩碼來減少特徵級別中的背景中的噪聲,並提出了一種對比注意模型(MGCAM)來從身體和背景區域對比學習特徵。如下圖:
在這裡插入圖片描述
在特徵空間中,從body區域和完整影象學習的特徵應該是相似的,而從背景和完整影象學習的特徵應該是不同的。為此,提出的MGCAM首先在二元體掩模的指導下產生一對對比注意力圖。然後將對比注意力圖新增到CNN特徵中以分別生成身體感知和背景感知特徵。
There are two main components, the contrastive attention
sub-net and the region-level triplet loss for contrastive
feature learning. The first part can generate a pair of inverse
attention masks which are used to the body-aware
and background-aware feature learning. Whereas the second
part restrains the distances between features from the
full-stream, the body-stream and the background-stream.
對於三個stream,full stream學習整個image的feature;body stream學習body-attention map;background stream學習background-attention map。雖然這三個stream都是學習的同一張圖,但是他們是有些差別的,對於background-stream從background 學習到的特徵對於Re-ID這個任務來說是完全沒有用的,並且應該提出背景對於前景的影響,所以作者使用triplet loss,正樣本是body feature而負樣本是bkgd loss。作者希望通過這個函式,使得body feature提供大部分資訊,並且同時希望減少背景對於最終結果的影響。

三、Loss

3.1 Mask-guided Contrastive Attention Sub-net

在這裡插入圖片描述
已知這前景和背景的attention map兩個操作是互補的,所以肯定會存在這樣一個條件:對於feature map上每一個點(i,j):
在這裡插入圖片描述

之後的body feature以及bkgd feature的獲得則是利用 f s t

a g e 2 f_{stage_2} 與這兩個值進行內積操作:
在這裡插入圖片描述

3.2 Region-Level Triplet Loss for Contrastive Feature

Learning
作者通過一個損失函式來生成獨立的body feature以及background feature。損失函式如下所示:
在這裡插入圖片描述
作者使用了triplet loss。這個目標樣本自然就是full feature,正樣本是body feature而負樣本是bkgd loss。這個很容易理解,希望通過這個函式,使得body feature提供大部分資訊,並且同時希望減少背景對於最終結果的影響。
在這裡插入圖片描述
Note:其中m為超引數,根據經驗設定為10

3.3 Objective Function

前面提到了這麼多都是為了Re-ID這個目標服務,總體的框架為:
在這裡插入圖片描述
這個網路框架類似於孿生網路,對於兩個待對比的人,我們經過MGCAM網路提取到最後的特徵分別為h§和h(g),最後通過如下函式對比其相似度:
在這裡插入圖片描述
Note:m同上,為經驗值10

整個函式訓練過程中使用的目標函式式表達為:
在這裡插入圖片描述
Note:where λ, α and β are the hypermeters, which are respectively
set to 0.01, 0.01 and 0.1 in our experiments

四、總結

本文作者提出的思路可以總結如下:
1、為了減少帶有蒙版的人物影象背景雜亂,設計了一個由二元蒙版引導的對比注意模型。它可以生成一對身體感知和背景感知的注意力圖,可用於生成身體和背景的特徵。

1、作者進一步提出從完整影象,身體和背景的特徵區域級三聯體損失。它可以強制模型學習的特徵對背景雜亂不變。

3、作者探索將身體蒙版作為附加輸入並伴隨RGB影象來增強ReID特徵學習。二元掩模有兩個主要優點:1)它可以幫助減少背景雜亂,2)它包含身份相關的功能,如身體形狀資訊。