2017 ICCV-Pose-driven Deep Convolutional Model for Person Re-identification

論文地址

Motivation

巨大的姿勢變化以及複雜的視角差異增加了從行人圖片中提取特徵與匹配的困難

Contribution

提出了Pose-driven Deep Convolutional(PDC) model來提高特徵學習以及匹配
pose driven feature weighting sub-network來學習自適應特徵融合

思考

利用pose的關鍵點對身體分塊並對不同塊加權來增強細節特徵來進行識別，越來越多的re-id方法更加註重區域性細節特徵的識別，18年CVPR出現了用human分割產生更精準的部分來進行特徵提取，個人認為如何最大化利用可判別的細節特徵是一個值得嘗試的方法;文中運用了多種網路，結構相對複雜，對於如何借鑑已有方法的思想來解決re-id也很有啟發

1.Introduction

re-id定義：給定包含某個特定照相機下的特定人物的探測影象或視訊序列，從其他照相機查詢此人的影象，位置和時間戳。
傳統方法：
- 從圖片中提取區域性不變特徵
- 度量學習減少相同人特徵圖片之間的距離
深度學習：卷積提特徵 + 歐式距離
- Softmax Loss學習全域性表示
- 預先分的身體模組來學習區域性特徵，融合區域性特徵與全域性特徵
- 雖然相比傳統方法有較大的提升，但是沒有考慮身體姿勢變化對人外觀的影響
一些嘗試：
- 通過預先的設定來進行簡單分割
- 先利用pose estimation演算法預測姿勢，再訓練Re-ID模型(非end-to-end)
本文的網路：
- Pose-driven Deep Convolutional(PDC)來同時學習全域性(softmax loss)與區域性特徵(Feature Embedding subNet–>Pose Transformation Network)，並通過Feature Weighting subNet(FWN)對不同部分加權融合區域性與全域性特徵
區域性表示產生如下圖:original image –> 14個身體關節點的響應圖 –> 14個關鍵點 –> 6個身體部分 –> 對各部分旋轉 + 縮放 –> PTN歸一化–> 送入網路學習表示

- 本文動機+貢獻

2.Related Work

傳統方法、Deep Learning、其他區分身體部分的嘗試
本文方法：
- 更精確的姿勢估計方法
- 考慮了姿勢估計的精度、遮擋以及光線變化的影響
- 不同身體部分具有不同的判別力，對得到的身體區域進行了歸一化處理再通過FEN得到更加魯棒的特徵，並通過FWN學習每個部分的權重

3.Pose-driven Deep ReID Model

3.1 Framework

人體姿勢估計演算法得到人體關節點位置
利用關節點位置來得到人體不同的部分
將身體部分通過FEN來變換得到歸一化的身體區域
將整個圖片以及身體區域圖片一起送入CNN，前幾層共享卷積特徵，後幾層有各自權重
最後通過FWN對身體部分特徵進行加權來與全域性特徵融合後送入Softmax Loss
不同資料集尺寸的影響,可能不適合使用ImageNet Pretrained-model (224*224)，本文基於GoogleNet設計了自己的網路，本文輸入大小為(512 x 256), 結構如下表:

3.2.Feature Embedding sub-Net

定位關節點，產生身體區域:
- 通過姿態估計得到14個關鍵點
- 利用關節點將人體劃分成6個區域：頭、上體、兩個胳膊、兩個腿
- 關節點產生(不是很懂)

PTN:
- 關鍵點定位存在不準確問題，通過STN來學習調整需要旋轉的角度
- STN三個部分：
- localisation network：輸入feature map，輸出轉換的引數
- parameterised sampling grid
- differentiable image sampling
- 本文使用affine transformation，6維轉換引數:

(x^{s} y_{s})

- 不同身體部分由不同的位置與大小，設計了PTN對每個部分圖片來進行轉換，如下圖

考慮到頭部很少有較大的旋轉，對頭沒有使用PTN
一共有5個獨立的PTN, $A_{θ - l a r m}, A_{θ - r a r m}, A_{θ - u p p e r b o d y}, A_{θ - l l e g}, A_{θ - r l e g}$
身體部分 $P_{i}$ 通過 $A_{θ i}$ 得到校正過的身體部分 $M_{i}$

3.3.Feature Weighting sub-Net

產生的身體部分可能不準確，直接融合會產生噪聲，如下圖
FWN：Weight Layer + a nonlinear transformation(防止線性過度對特定維度的身體部分向量響應):
$F_{f u s i o n} = [F_{g l o b a l}, t a n h (F_{p a r t} ⊙ W + B],$
$⊙$ 為兩個向量的Hadamard積(對應元素相乘)
FWN梯度計算公式如下:

$\frac{\partial f_{i}}{\partial g_{j}} = {\begin{cases} 1 & if i=j \\ 0 & if x!=0 \end{cases} \frac{\partial f_{i}}{\partial p_{k}} = {\begin{cases} w (1 - t a n h^{2} (w p_{j} + b)) & if i=k+m, \\ 0, & if i!= k+m. \end{cases}$
其中 $f_{i} \in F_{f u s i o n} (i = 1, 2... m + n), g_{j} \in F_{g} l o b a l (j = 1, 2, . . . m), p_{k} \in F_{p a r t} (k = 1, 2... n), w_{k} \in W (k = 1, 2, . . . n), b \in B (k = 1, 2... n)$ ， $m, n$ 為 $F_{g l o b a l}$

相關推薦

2017 ICCV-Pose-driven Deep Convolutional Model for Person Re-identification

論文地址 Motivation 巨大的姿勢變化以及複雜的視角差異增加了從行人圖片中提取特徵與匹配的困難 Contribution 提出了Pose-driven Deep Convolutional(PDC) model來提高特徵學習以及匹配

Mask-guided Contrastive Attention Model for Person Re-Identification 詳解

最近在看Re-ID相關的東西，現在把這篇paper記錄一下。程式碼地址一、概述首先二元體掩碼可以在兩個方面為Re-ID做出貢獻。1、掩模可以幫助消除畫素級的背景雜波，這可以極大地提高ReID模型在各種背景條件下的魯棒性。2、面具包含可被視為重要步態特徵的體形資訊。如果直接掩蓋掉

2014 CVPR-DeepReID Deep Filter Pairing Neural Network for Person Re-Identification

論文地址第一篇用深度學習來做Re-ID的工作，介紹了很多基礎性的概念 model部分對CNN的設計思路講的很詳細，有些細節還沒有完全搞懂，回頭會繼續理解總結~ Motivation 傳統的re-

【Person Re-ID】Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification

Introduction Person Re-ID目前依然是一項十分具有挑戰的任務。姿勢，視角，光照，背景和遮擋都給這項任務帶來困難。傳統的方法通過學習low-level特徵，比如顏色、外形、區域性描述子等來描述一個人。而CNN通過學習high-lev

【論文筆記】Margin Sample Mining Loss: A Deep Learning Based Method for Person Re-identification

摘要 Person re-identification (ReID) is an important task in computer vision. Recently, deep learning with a metric learning loss has becom

Person Re-identification 系列論文筆記（二）：A Discriminatively Learned CNN Embedding for Person Re-identification

triplet put ali com multi 深度學習 native alt 出現　　A Discriminatively Learned CNN Embedding for Person Re-identification Zheng Z, Zheng L, Ya

Human Semantic Parsing for Person Re-identification

論文地址 GitHub程式碼 Introduction 目前大部分的Person ReID方法都開始集中於提取更加具有表徵能力的區域性特徵輔助全域性特徵用於行人檢索。這篇文章是CVPR2018中關於Person ReID的一篇，文章的主體思路就是part-base的方法，但是跟大部分pa

行人重識別——《A Systematic Evaluation and Benchmark for Person Re-Identification Features, Metrics, and D》

Benchmark演算法總結論文：《A Systematic Evaluation and Benchmark for Person Re-Identification Features, Metrics, and Datasets》論文提出了一套迄今為止最全面的

論文筆記（8）--（Re-ID）Camera Style Adaptation for Person Re-identification

論文：《Camera Style Adaptation for Person Re-identification》 https://arxiv.org/abs/1711.10295v1 因為相機之間的差異，ReID任務會受到不同相機圖片風格變化的影響。以往的paper中，潛在的學習一個不

論文筆記（3）--（Re-ID）In Defense of the Triplet Loss for Person Re-Identification

deep metric learning – 深度度量學習，也就是相似度學習 Classification Loss – 當目標很大時，會嚴重增加網路引數，而訓練結束後很多引數都會被摒棄。 Verification Loss – 只能成對的判斷兩張圖片的相似度，因此很難應用到目標聚類和檢索上

【論文閱讀】Batch Feature Erasing for Person Re-identification and Beyond

轉載請註明出處：https://www.cnblogs.com/White-xzx/ 原文地址：https://arxiv.org/abs/1811.07130 【Abstract】　　這篇文章展示了行人ReID的一個新的訓練機制——批特徵擦除（Batch Feature Erasing，BFE）。作

part-aligned系列論文：1707.Deeply-Learned Part-Aligned Representations for Person Re-Identification 論文筆記

Deeply-Learned Part-Aligned Representations for Person Re-Identification一種超簡單有效的行人對齊識別網路！ inspired by attention model，propose a pa

【論文筆記】In Defense of the Triplet Loss for Person Re-Identification

1、前言 Triplet loss是非常常用的一種deep metric learning方法，在影象檢索領域有非常廣泛的應用，比如人臉識別、行人重識別、商品檢索等。傳統的triplet loss訓練需要一個三元組，包括三張圖片：achor,positive,

CVPR2018論文翻譯 Human Semantic Parsing for Person Re-identification

論文連結：摘要混亂的背景、光照、視角等因素制約了提取魯棒性表示的能力，因此reid是個挑戰性的任務。為了改進表示學習，通常提取行人身體各部分的區域性特徵。然而，實際中通常基於包圍框的部分檢測。本文提出了改編的human semantic parsing，它有著畫素等級

Attention-Aware Compositional Network for Person Re-identification論文精讀

Attention-Aware Compositional Network for Person Re-identification 論文地址 Abstract 現在行人重識別（Person ReID）越來越火，一個比較大的挑戰是首先跨攝像頭目標重識別

VGGnet論文總結（VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION）

lrn cli 共享融合 loss sca 得到同時 works VGGNet的主要貢獻：　　1、增加了網絡結構的深度　　2、使用了更小的filter（3*3） 1 introduction 這部分主要說明了，由於在所有的卷積網絡上使用了3*3的filter，所以使

VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNTION（翻譯）

而不是 lar 標準類別研究 src 架構數量分辨率 0 - ABSTRACT 　　在這個工作中，我們研究了卷積網絡的深度對於它在大規模圖像識別設置上的準確率的效果。我們的主要貢獻是對使用非常小的卷積核（3×3）來增加深度的網絡架構進行徹底評估，這說明了通過將深度增

論文閱讀筆記二十四：Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition（SPPNet CVPR2014）

分享圖片介紹 bin con strong map com 提高 https 論文源址：https://arxiv.org/abs/1406.4729 tensorflow相關代碼：https://github.com/peace195/sppnet 摘要

SPP-net(Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition)

Abstract SPP-net提出了空間金字塔池化層來解決CNN只是輸入固定尺寸的問題，因為單固定尺寸的輸入會影響識別效果，並且對於多尺度影象的情況下魯棒性不好。SPP-net很好的解決了以上問題，對於任意尺度影象都可以提取出固定維度的特徵，實驗證明SPP-net對分類

VGG學習筆記-Very Deep Convolutional Networks for Large-Scale Image Recognition

主要是針對論文，進行了自我解讀，抽絲而成，請大家多多指教。摘要在這項工作中，主要研究卷積網路Convolutional networks (ConvNets)深度在大規模的影象識別環境下對準確性的影響。主要貢獻是使用非常小的