2014 CVPR-DeepReID Deep Filter Pairing Neural Network for Person Re-Identification

阿新 • • 發佈：2018-12-31

論文地址

第一篇用深度學習來做Re-ID的工作，介紹了很多基礎性的概念
model部分對CNN的設計思路講的很詳細，有些細節還沒有完全搞懂，回頭會繼續理解總結~

Motivation

傳統的re-ID的流程如下圖：

現在的re-ID工作要麼是分開優化流程中的幾個模組，要麼是順序優化，這種做法如果有用的資訊在之前的步驟中丟失就難以在恢復了，影響整個系統的效能。
那麼有沒有辦法來建立一個不同模組之間可以自動互動的系統呢？
- 端到端的深度學習
- 本文這裡主要是針對後三個模組

Contribution

使用了深度學習方法，提出了filter pairing neural network(FPNN)
- 可以端到端聯合處理對齊、光照與幾何變化、遮擋、背景混雜的問題
- 不再需要手工提取特徵，讓網路從資料中來自動學習re-ID所需要的最優的特徵，對於不同的攝像機視角，使用了two paired filters來編碼光照變化
- 能夠建模混合的複雜變化
一些訓練網路的策略來應對檢測演算法造成的不對齊、過擬合、資料集中正負樣本對不平衡問題
- dropout
- data augmengtation
- data balancing
- bootstrapping
建立了一個大規模的re-ID資料集-CUHK03，如下圖：
- 13164張影象對應於1360個人
- 同時提供自動檢測以及人工裁剪的行人框，可以來評估檢測演算法帶來的不對齊問題，更加接近實際應用

1.Introduction

Re-ID定義：跨攝像頭（不重疊）檢索行人。本文是用視覺特徵，如今也有結合時間資訊的
挑戰：不同攝像頭下的行人的各種變化：光照、姿勢、視角、解析度、背景等等
具體流程以及本文貢獻見上文。

2.Related Work

以前的工作都是分開改進各個模組：
- 特徵模組：手工提取特徵
  - 全域性特徵：用顏色以及紋理分佈構成的視覺詞彙直方圖，能具有一些不變性，但是缺少空間資訊，判別能力較弱
  - 分塊的區域性特徵：比較兩個影象對應的塊來計算相似性，問題在於如何處理不同攝像頭視角下的不對齊問題
  - 手工特徵很難實現判別能力與魯棒性的平衡，文中舉了特徵設計與光照與幾何形變的關係；以及特徵選取不好對後面模組有很大影響
  - 本文通過深度學習結合各個模組從資料中自動學習特徵能夠克服上述問題
- 光照、幾何轉換模組：
  - 之前的工作都是將變化看作單模態來建模，從訓練樣本中學習模型引數
  - 我們的FPNN能夠建模混合的複雜變化：
    - filter pairs and a maxout grouping layer來學習光照轉換
    - a patch matching layer學習幾何轉換
- 相似性度量：通過學習適當的距離/相似性度量可以進一步減弱跨攝像頭的變化、遮擋以及背景混雜。
相比於其他的視覺任務，我們設計了特殊的層來直接處理re-ID中跨攝像頭帶來的種種問題，整個過程都是整體一起優化的

3.Model

整體結構如下圖：6層FPNN

3.1.Feature extraction

第一層：convolutional and max-pooling layer
- 輸入為：兩個在不同攝像機下圖的影象對 $I$ 與 $J$ `
- 卷積層：對光照變化建模，使用了兩種不同的卷積核 $(W_k, V_k)$ 分別對兩張影象進行操作，定義卷積函式如下： $f, g:\mathbb{R}^{H_{im} \times W_{im} \times 3} \to \mathbb{R}^{H_0 \times W_0 \times K_1}$
  $f^k_{ij} = \sigma((W_k * I)_{ij} + b^I_k) \\ g^k_{ij} = \sigma((V_k * J)_{ij} + b^J_k)$
本文使用了 $K_1$ 對不同的卷積核
- maxpooling：使卷積得到的特徵對local misalignment更加魯棒，輸出得到 $H_1 \times W_1 \times K_1$ feature map.

3.2 Patch matching

第二層：patch matching layer：匹配不同視角下區域性塊的卷積核響應
- 將第一層的輸出劃分成M個水平條，每個水平條有 $W_1$ 個patches，相同的patch進行匹配
- 該層的輸出具有 $K_1MW_1 \times W_1$ 個patch displacement matrices：
  $S^k_{(i,j)(i^\prime,j^\prime)} = f^k_{ij}g^k_{i^\prime,j^\prime}$
位移矩陣用來編碼不同特徵下的塊匹配空間模式：當 $S^k_{(i,j)(i^\prime,j^\prime)}$ 具有較高值時，patches $(i, j)$ 與 $(i^\prime,j^\prime)$ 同時對filter pair $(W_k, V_k)$ 編碼的特定特徵有較高的響應
下圖感覺左右兩個人的框應該是個 $W_1 \times W_1$ 的矩陣，對應向量作外積後得到了中間圖，因為有兩對不同的卷積核，所以有兩個patch displacement matrices

3.3 Modeling mixture of photometric transforms

第三層:maxout-grouping layer:提高patch matchting的魯棒性
- 把 $K_1$ 個channel劃分為T組，每組中只有最大的啟用值傳到下一層。這樣每一個特徵被多個冗餘的通道所表示
- 在反向傳播過程中，只有有最大響應的filter pair通過梯度得到更新，這樣使在同一個組的filter pair競爭梯度，最終只有一個filter有對訓練樣本的最大響應
- 通過上面的方法影象塊通過學習到的filter pairs將得到稀疏響應：sparsity is a property to eliminate noise and redundancy.
- 具體過程如下圖：

3.4.Modeling part displacement

第四層:another convolution and max-pooling layer：輸入為 $MTW_1 \times W_1$ patch displacement matrices，輸出為 $MW_2 \times W_2 \times K_2$ displacement matrices of body parts on a larger scale
卷積核可以學習捕捉local pattern of part displacements

3.5.Model pose and viewpoint transforms

第五層：fully connected layer
- 全域性的幾何變化是不同部分位移的結合，它們的分佈是多模態的
- 由第四層得到的輸出可以看做各種可能的part displacement，通過fc層的組合來表示全域性的幾何變化，以達到對混合的全域性幾何變化進行建模

3.6.Identity Recognition

第六層：softmax layer：由第五層輸出的global geometric transform來判斷輸入的兩張圖片是否為同一個人：
$p(y=i|\mathbf{a_0},\mathbf{a_1},b_0,b_1,\mathbf{x}) = \frac{e^{(\mathbf{a_i}\cdot\mathbf x + b_i)}}{\sum_i{e^{(\mathbf a_i \cdot \mathbf x + b_i)}}}$

$cost = - \sum_n^H{y_nlog(p(y=1|\Phi,(\mathbf I_n, \mathbf J_n))) + (1 - y_n)log(1-p(y=1|\Phi,(\mathbf I_n, \mathbf J_n)))}$

4.Traning Strategies

4.1. Dropout

在第一層卷積層後面使用了dropout：使網路提高應對不同視角下檢測的行人影象塊之間不匹配的問題

4.2. Data Augmentation

在訓練集中，正樣本對的數量遠遠少於負樣本對（類別不平衡問題）
對每個影象進行簡單的平移變化，將正樣本數量擴大25倍

4.3. Data balancing

開始mini-batch中正負樣本數量為1:1,隨著訓練進行逐漸增加負樣本對的數量到1:5

4.4.Bootstrapping

當網路穩定後，不斷選擇hard negative samples：負樣本對太多了，全部訓練十分耗時，選擇前一個epoch中hard simple來更新網路，這樣容易產生較大的loss，對網路有較大的更新
文中公式：
$s_0 = 1 - p(x\ is\ a\ matched\ pair|\Phi_k), \\s_k = \frac{1-p(x\ is\ a\ matched pair|\Phi_k) + s_{k-1}}{2}$
公式的目的就是每次選擇把負樣本對預測為正樣本得分最高的（即hard negative sample），隨著訓練的進行，hard negative sample得分也會變低，所以 $s_k$ 也在逐漸增加

5.DataSet

已有的資料集規模相對較小，本文提出了一個相對較大的CUHK03資料集，如下圖：

提供了檢測得到的行人圖片，更接近現實的應用
6個攝像頭可以提供多種視角的圖片，更具有複雜的變化
影象由幾個月的錄影中得到，會有天氣、光照等對圖片的影響

6.Experimental Results

圖片預處理：
- histogram equlization並轉換到LAB color space
- input size：64 x 64 x 3並減去均值
網路具體配置如下圖：

6.1 Experiments on our new dataset

資料集劃分
- train set:1160 persons
- val set:100 persons
- test s

2014 CVPR-DeepReID Deep Filter Pairing Neural Network for Person Re-Identification

論文地址第一篇用深度學習來做Re-ID的工作，介紹了很多基礎性的概念 model部分對CNN的設計思路講的很詳細，有些細節還沒有完全搞懂，回頭會繼續理解總結~ Motivation 傳統的re-

Attention-Aware Compositional Network for Person Re-identification論文精讀

Attention-Aware Compositional Network for Person Re-identification 論文地址 Abstract 現在行人重識別（Person ReID）越來越火，一個比較大的挑戰是首先跨攝像頭目標重識別

【Person Re-ID】Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification

Introduction Person Re-ID目前依然是一項十分具有挑戰的任務。姿勢，視角，光照，背景和遮擋都給這項任務帶來困難。傳統的方法通過學習low-level特徵，比如顏色、外形、區域性描述子等來描述一個人。而CNN通過學習high-lev

【論文筆記】Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification

摘要 Person re-identification (ReID) is an important task in computer vision. Recently, deep learning with a metric learning loss has becom

2017 ICCV-Pose-driven Deep Convolutional Model for Person Re-identification

論文地址 Motivation 巨大的姿勢變化以及複雜的視角差異增加了從行人圖片中提取特徵與匹配的困難 Contribution 提出了Pose-driven Deep Convolutional(PDC) model來提高特徵學習以及匹配

ReID：Harmonious Attention Network for Peson Re-Identification 解讀

Problem Existing person re-identification(re-id) methods either assume the availability of well-aligned person bounding box

Deep Neural Network for Image Classification: Application

cal pack 分享圖片 his exp params next min super When you finish this, you will have finished the last programming assignment of Week 4, and a

MSCNN論文解讀-A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection

多尺度深度卷積神經網路進行快速目標檢測：兩階段目標檢測器，與faster-rcnn相似，分為an object proposal network and an accurate detection network. 文章主要解決的是目標大小不一致的問題，尤其是對小目標的檢測，通過多

01神經網路和深度學習-Deep Neural Network for Image Classification: Application-第四周程式設計作業2

一、兩層神經網路模型：LINEAR->RELU->LINEAR->SIGMOID #coding=utf-8 import time import numpy as np import h5py import matplotlib.pyplot as

論文筆記《The application of two-level attention models in deep convolutional neural network for FGVC》

這篇文章是2015年的，作者使用提出了兩級注意力的方法，來進行細粒度分類。以鳥類分類為例。作者在object-level和part-level兩個級別分別對鳥進行分類，將得到的分數相加綜合後得到最後的分類結果。上圖是鳥分類在object-level的一個流程圖，先用select

[深度學習] 影象反捲積的深度積神經網路 Deep Convolutional Neural Network for Image Deconvolution

《影象反捲積的深度積神經網路》《Deep Convolutional Neural Network for Image Deconvolution》 Li Xu, Jimmy SJ. Ren, Ce Liu, Jiaya Jia NIPS 2014 pdf 摘要

第四周程式設計作業（二）-Deep Neural Network for Image Classification: Application

Deep Neural Network for Image Classification: Application When you finish this, you will have finished the last programming assignment of Week 4

Deep Neural Network for Image Classification:Application

上一篇文章中實現了一個兩層神經網路和L層神經網路需要用到的函式本篇我們利用這些函式來實現一個深層神經網路來實現圖片的分類 1.首先是匯入需要的包 import time import numpy as np import h5py import matplotlib.p

Spark MLlib Deep Learning Convolution Neural Network (深度學習-卷積神經網路)3.3

3、Spark MLlib Deep Learning Convolution Neural Network(深度學習-卷積神經網路)3.3 第三章Convolution Neural Network (卷積神經網路) 3例項 3.1 測試資料按照上例資料，或者新建圖片

Deep Alignment Network: A convolutional neural network for robust face alignment

論文分析論文提出了一種類似級聯的神經網路結構。這一點上很遺憾，我在一個月之前也想到了這種模式。因為對於實時 Landmark 的跟蹤，其實可以利用上一幀的預測結果來預測下一幀 Landmark 的位置。但現代大部分的 CNN 結構沒辦法辦到。在與朋友的討論中

論文筆記-DeepFM: A Factorization-Machine based Neural Network for CTR Prediction

contain feature 比較 san date res 離散 edi post 針對交叉（高階）特征學習提出的DeepFM是一個end-to-end模型，不需要像wide&deep那樣在wide端人工構造特征。網絡結構： sparse feature

《Kalchbrenner N, Grefenstette E, Blunsom P. A convolutional neural network for modelling sentences》

概率分布通過 AD 最小當前最大化 gradient function thml Kalchbrenner’s Paper Kal的這篇文章引用次數較高，他提出了一種名為DCNN(Dynamic Convolutional Neural Network)的網絡模型，在

<Convolutional Neural Network for Paraphrase Identification>

進行種類 AR 分析興趣其中向量 ras 2014年 Yin的這篇論文提出了一種叫Bi-CNN-MI的架構，其中Bi-CNN表示兩個使用Siamese框架的CNN模型；MI表示多粒度的交互特征。Bi-CNN-MI包含三個部分：句子分析模型 (CNN-SM)

CVPR 2017：See the Forest for the Trees: Joint Spatial and Temporal Recurrent Neural Networks for Video-based Person Re-identification

network 測試 eee 分享 The 因此進行最大變化 [1] Z. Zhou, Y. Huang, W. Wang, L. Wang, T. Tan, Ieee, See the Forest for the Trees: Joint Spatial and

《An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its...》論文閱讀之CRNN

An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition paper: CRNN 翻譯：CRNN

2014 CVPR-DeepReID Deep Filter Pairing Neural Network for Person Re-Identification

Motivation

Contribution

1.Introduction

2.Related Work

3.Model

3.1.Feature extraction

3.2 Patch matching

3.3 Modeling mixture of photometric transforms

3.4.Modeling part displacement

3.5.Model pose and viewpoint transforms

3.6.Identity Recognition

4.Traning Strategies

4.1. Dropout

4.2. Data Augmentation

4.3. Data balancing

4.4.Bootstrapping

5.DataSet

6.Experimental Results

6.1 Experiments on our new dataset

相關推薦