1. 程式人生 > >Multi-attribute Learning for Pedestrian Attribute Recognition in Surveillance Scenarios

Multi-attribute Learning for Pedestrian Attribute Recognition in Surveillance Scenarios

1 簡介

自然場景下的屬性識別,如人臉識別、目標識別,已經取得了良好的識別效果。但是,監控場景下影象解析度小、模糊,包含大的姿勢和光線變化,識別效果並不理想。

作者提出使用CNN模型進行行人屬性識別。

核心點:

  • 使用卷積神經網路(CNN)進行特徵提取;
  • 設計DeepSAR網路進行單個屬性的識別;
  • 設計DeepMAR網路多屬性的聯合識別,如長頭髮的行人性別更可能是女;
  • 設計了加權sigmoid交叉熵損失解決屬性標籤的不均衡。

2 核心思想

在這裡插入圖片描述

2.1 符號表示

N幅影象,表示成 x

i , i 1 ,   , N
x_i,i \in 1,\cdots,N

每幅影象L個屬性;
影象 x i x_i 的標籤向量是 y i
y_i
,可以表示成 y i l l 1 ,   , L y_{il},l \in 1,\cdots,L y i l { 0 , 1 } y_{il} \in \{0,1\} 。如果 y i l = 1 y_{il} = 1 ,則表示第 i i 幅影象具有第 l l 個屬性。

2.2 DeepSAR

網路結構如Fig2(a)所示,其中卷積網路如Fig2©所示。

輸入為影象,輸出為二分類任務,表示輸入影象具有某個屬性的概率。

使用softmax loss。

輸入影象的第 l l 個屬性的損失為:
在這裡插入圖片描述

l l 個屬性的softmax輸出概率為:
在這裡插入圖片描述

2.3 DeepMAR

網路結構如Fig2(b)所示,其中卷積網路如Fig2©所示。

多個屬性聯合訓練,利用屬性之間的關聯關係。

輸入為影象,輸出為屬性向量。

損失函式使用sigmoid交叉熵損失。

在這裡插入圖片描述
p ^ i l \hat{p}_{il} 是樣本 x i x_i 具有第 l l 個屬性的概率。 y i l { 0 , 1 } y_{il} \in \{0,1\} ,表示樣本 x i x_i 是否具有第 l l 個屬性。

由於在監控視訊中,往往存在極端的屬性分佈不一致的情況。比如,有大量的樣本具有“is male”的標籤,但是隻有很少樣本具有“has no hair”的標籤。因此,作者對上面的損失函式進行了改進,改進後的損失函式為:
在這裡插入圖片描述
就是對每一個屬性的損失添加了一個權重係數 w l w_l p l p_l 為訓練樣本集中第 l l 個屬性為正的樣本所佔的比例。 σ \sigma 為超引數,在論文的實驗中設定為1。

3 實驗

3.1 PETA資料集

監控視訊中,19000個行人的影象;每個行人標註了61個二值的和4個多類別的屬性。PETA的影象包含了大的背景、光線和視角的變化。

PETA的驗證標準是計算每一個屬性的平均識別準確率。

應用PETA時一般將資料集分為三部分,9500個行人目標用於訓練,1900個用於驗證,7600個用於測試。

3.2 實驗詳情

DeepSAR模型是用caffenet微調來的,只調整了最後一個全連線層的引數。
對樣本進行隨機的複製以保證正負訓練樣本集的均衡。影象先縮放到256256,然後再映象和隨機裁剪成227227。

DeepMAR也是在caffenet的基礎上微調得到的。所有的層全部進行了調整。初始學習率0.001,權重衰減0.005。

在這裡插入圖片描述
在這裡插入圖片描述
對比演算法MRFr2是基於手動設計的特徵進行行人屬性識別。
對於訓練樣本集中出現機率較小的屬性,DeepSAR提升較大,這主要是由於CNN自動學習特徵。DeepMAR平均識別準確率最高。