行人重識別(ReID) ——資料集描述 Market-1501

阿新 • • 發佈：2018-12-18

dataset

資料集簡介

　　Market-1501 資料集在清華大學校園中採集，夏天拍攝，在 2015 年構建並公開。它包括由6個攝像頭（其中5個高清攝像頭和1個低清攝像頭）拍攝到的 1501 個行人、32668 個檢測到的行人矩形框。每個行人至少由2個攝像頭捕獲到，並且在一個攝像頭中可能具有多張影象。訓練集有 751 人，包含 12,936 張影象，平均每個人有 17.2 張訓練資料；測試集有 750 人，包含 19,732 張影象，平均每個人有 26.3 張測試資料。3368 張查詢影象的行人檢測矩形框是人工繪製的，而 gallery 中的行人檢測矩形框則是使用DPM檢測器檢測得到的。該資料集提供的固定數量的訓練集和測試集均可以在single-shot或multi-shot測試設定下使用。

目錄結構

Market-1501
　　├── bounding_box_test
　　　　　　　├── 0000_c1s1_000151_01.jpg
　　　　　　　├── 0000_c1s1_000376_03.jpg
　　　　　　　├── 0000_c1s1_001051_02.jpg
　　├── bounding_box_train
　　　　　　　├── 0002_c1s1_000451_03.jpg
　　　　　　　├── 0002_c1s1_000551_01.jpg
　　　　　　　├── 0002_c1s1_000801_01.jpg
　　├── gt_bbox
　　　　　　　├── 0001_c1s1_001051_00.jpg
　　　　　　　├── 0001_c1s1_009376_00.jpg
　　　　　　　├── 0001_c2s1_001976_00.jpg
　　├── gt_query
　　　　　　　├── 0001_c1s1_001051_00_good.mat
　　　　　　　├── 0001_c1s1_001051_00_junk.mat
　　├── query
　　　　　　　├── 0001_c1s1_001051_00.jpg
　　　　　　　├── 0001_c2s1_000301_00.jpg
　　　　　　　├── 0001_c3s1_000551_00.jpg
　　└── readme.txt

目錄介紹

1） “bounding_box_test”——用於測試集的 750 人，包含 19,732 張影象，字首為 0000 表示在提取這 750 人的過程中DPM檢測錯的圖（可能與query是同一個人），-1 表示檢測出來其他人的圖（不在這 750 人中）
2） “bounding_box_train”——用於訓練集的 751 人，包含 12,936 張影象
3） “query”——為 750 人在每個攝像頭中隨機選擇一張影象作為query，因此一個人的query最多有 6 個，共有 3,368 張影象
4） “gt_query”——matlab格式，用於判斷一個query的哪些圖片是好的匹配（同一個人不同攝像頭的影象）和不好的匹配（同一個人同一個攝像頭的影象或非同一個人的影象）
5） “gt_bbox”——手工標註的bounding box，用於判斷DPM檢測的bounding box是不是一個好的box

命名規則

以 0001_c1s1_000151_01.jpg 為例
1） 0001 表示每個人的標籤編號，從0001到1501；
2） c1 表示第一個攝像頭(camera1)，共有6個攝像頭；
3） s1 表示第一個錄影片段(sequece1)，每個攝像機都有數個錄影段；
4） 000151 表示 c1s1 的第000151幀圖片，視訊幀率25fps；
5） 01 表示 c1s1_001051 這一幀上的第1個檢測框，由於採用DPM檢測器，對於每一幀上的行人可能會框出好幾個bbox。00 表示手工標註框

測試協議

Cumulative Matching Characteristics (CMC) curves 是目前行人重識別領域最流行的效能評估方法。考慮一個簡單的 single-gallery-shot 情形，每個資料集中的ID(gallery ID)只有一個例項. 對於每一次的識別(query), 演算法將根據要查詢的影象(query) 到所有gallery samples的距離從小到大排序，CMC top-k accuracy 計算如下：

Acc_k = 1, if top-k ranked gallery samples contain query identity
Acc_k = 0, otherwise

這是一個 shifted step function, 最終的CMC 曲線(curve) 通過對所有queries的shifted step functions取平均得到。儘管在 single-gallery-shot 情形下，CMC 有很明確的定義，但是在 multi-gallery-shot 情形下，它的定義並不明確，因為每個gallery identity 可能存在多個instances.

Market-1501中 Query 和 gallery 集可能來自相同的攝像頭視角，但是對於每個query identity, 他/她的來自同一個攝像頭的 gallery samples 會被排除掉。對於每個 gallery identity，他們不會只隨機取樣一個instance. 這意味著在計算CMC時， query 將總是匹配 gallery 中“最簡單”的正樣本，而不關注其他更難識別的正樣本。bounding_box_test 資料夾是 gallery 樣本，bounding_box_train 資料夾是 train 樣本，query 資料夾是 query 樣本

由上面可以看出，在 multi-gallery-shot 情形下，CMC評估具有缺陷。因此，也使用 mAP（mean average precsion）作為評估指標。mAP可認為是PR曲線下的面積，即平均的查準率。

下載地址

State of the art

Citation

If you use this dataset, please kindly cite this paper:

@inproceedings{zheng2015scalable,
  title={Scalable Person Re-identification: A Benchmark},
  author={Zheng, Liang and Shen, Liyue and Tian, Lu and Wang, Shengjin and Wang, Jingdong and Tian, Qi},
  booktitle={Computer Vision, IEEE International Conference on},
  year={2015}
}

參考文獻

Zheng, Liang, et al. “Scalable Person Re-identification: A Benchmark.” IEEE International Conference on Computer Vision IEEE Computer Society, 2015:1116-1124.

行人重識別(ReID) ——資料集描述 Market-1501

資料集簡介

目錄結構

目錄介紹

命名規則

測試協議

下載地址

State of the art

Citation

參考文獻

行人重識別(ReID) ——資料集描述 Market-1501

行人重識別(ReID) ——資料集描述 CUHK03

行人重識別(ReID) ——資料集描述 DukeMTMC-reID

行人重識別簡介+資料集+核心論文點

行人重識別(ReID) ——技術實現及應用場景

行人重識別(ReID) ——基於Person_reID_baseline_pytorch修改業務流程

行人重識別(ReID) ——基於MGN-pytorch進行視覺化展示

行人重識別(ReID)開原始碼

行人屬性識別 PETA資料集

CUHK資料集和Market-1501資料集計算CMC方法的差別

行人重識別資料集彙總

行人重識別AlignedReID 重點亮點學習資料整理

CVPR2018行人重識別系列：用GAN進行資料增強

行人重識別簡介（Person ReID）

行人重識別學習之路：（一）基礎知識和相關資料整理

【opencv3--ANN神經網路訓練識別OCR資料集】

CelebA資料集簡單介紹，及做人臉識別時資料集的處理

tensorflow識別MNIST資料集

行人重識別 PCB-RPP，SGGNN

行人重識別——《A Systematic Evaluation and Benchmark for Person Re-Identification Features, Metrics, and D》

行人重識別(ReID) ——資料集描述 Market-1501

資料集簡介

目錄結構

目錄介紹

命名規則

測試協議

下載地址

State of the art

Citation

參考文獻

相關推薦