1. 程式人生 > >Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)

Person Re-identification by Local Maximal Occurrence Representation and Metric Learning(LOMO+XQDA)

2015年,學術界主流都在使用深度學習,而這篇文章卻用傳統方法達到了遠超state of the art的結果:

Retinex transform預處理:

為了解決不同攝像頭下光照條件變化很大:作者在特徵提取前進行了預處理,使用的是multiscale Retinex algorithm(這個演算法之前做影象增強的時候接觸過) ,Retinex algorithm能夠增強光照陰影區域的色彩資訊,有利於重識別。

可以看到,經過Retinex變換處理後的圖片由於光照條件變化引起色彩的變化得到了改善。

LOMO特徵:

在之前的工作中,有論文把一張行人圖片劃分成6個水平長條,每個長條(stripe)提取一個single histogram,作者認為這樣做會丟失空間細節資訊,於是採取了劃窗、在每個patch提取HSV、SILTP特徵的方式、水平patchs特徵間每個元素取最大值的方式(這就是LOMO的含義:Local Maximal Occurrence Feature)

下面詳細介紹:

HSV:描述顏色特徵。提取8*8*8bin的直方圖,不是常用的8+6+6,文中稱為joint HSV histogram

SILTP:LBP的改進版本,描述紋理特徵。提取了兩個尺度,SILTP0.3 4,3和SILTP0.3 4,5,其中N=4,所以是3^4 bin

對於HSV和SILTP,每個直方圖的bin表示該種模式出現的概率

對於一張48x128的,10x10的視窗,stride為5,掃描出24個horizontal groups ((128-10)/5 ),文中還進行了multi-scale處理,對圖片縮放了兩次,得到24*64、12*32圖片,他們可以掃描出11 ((64-10)/5=11)、5 ((32-10)/5=5)個groups。

每個group包含多個patch,每個patch能夠提取HSV、SILTP特徵,連線在一起形成一個特徵向量。然後對同一個group中的patchs向量在元素上選最大值,作為整個group的特徵。

所有的group特徵向量連線在一起即是這張圖片的LOMO特徵。

所以一張行人樣本的LOMO特徵維度是(8*8*8+(3^4)*2)*(24+11+5) = 26960維

最後使用了log函式來壓縮大的值,然後歸一化HSV、SILTP特徵到單位長度

XQDA度量學習:

1)    背景知識:Bayesian Face and KISSME Revisit

 

2)XQDA