1. 程式人生 > >從人臉識別到行人重識別,下一個風口

從人臉識別到行人重識別,下一個風口

人臉識別在LFW超越人的識別能力之後,就很少有重大的突破了,逐漸轉向視訊中人臉識別或人臉屬性學習等方向。CV頂級會議的接受論文量也出現了逐漸平穩的趨勢。

行人重識別(Person re-identification)也稱行人再識別,是利用計算機視覺技術判斷影象或者視訊序列中是否存在特定行人的技術。廣泛被認為是一個影象檢索的子問題。 給定一個監控行人影象,檢索跨裝置下的該行人影象。旨在彌補目前固定的攝像頭的視覺侷限,並可與行人檢測/行人跟蹤技術相結合 ,可廣泛應用於智慧視訊監控、智慧安保等領域。

行人重識別為國內現在主要的研究方向之一,投稿量則在逐年遞增。國內主要為 清華大學,北京大學,復旦大學,大工,中山大學,港中文,華科,西交,中科院,廈大等研究機構;國外為 悉尼科技,QMUL和UTSA等。行人重識別CV頂級會議的接受論文量穩步提升。

1、首先讓我們從頂級會議錄取量的角度分析

人臉識別論文數量 (按關鍵字檢索 “face recognition“,"face verification")

CVPR2013: 9

ICCV2013: 11

CVPR2014: 7

CVPR2015: 8

ICCV2015: 2

CVPR2016: 5

CVPR2017: 6

ICCV2017: 8

行人重識別論文數量 (按關鍵字檢索 “person re-identification”,"person search","person retrieval","pedestrian retrieval")

CVPR2013: 1

ICCV2013: 3

CVPR2014: 3

CVPR2015: 7

ICCV2015: 8

CVPR2016: 11

CVPR2017: 14

ICCV2017: 16

2、行人重識別 和 人臉識別 的異同

  • 行人重識別 是用一個攝像頭下的照片 去認其他攝像頭下是否再次出現了這個人。需處理攝像頭的viewpoint變化,行人的姿態變化等。

  • 人臉識別 是給定pair,去識別是不是同一個人,或者找到照片庫中見過的人。

  • 行人和人臉一樣具有結構,但行人結構更復雜一些,部件更多,不容易對齊。

  • 大型行人資料集難以獲得,不像人臉可以扒名人。現有行人重識別資料集(DukeMTMC-reID,CUHK03,Market-1501等等)都是在校園中實際用攝像頭錄的。而早期的小資料集(Viper等)已無法提供全面評估,逐漸少用。

  • 行人重識別落地的產品很少, 而人臉識別的大量應用已經落地 ?

  • 之前學界研究的少 多攝像頭/跨攝像頭問題。

以上是造成行人重識別 在學界火的原因吧。

3、行人重識別常用 Large-scale 資料集

  • DukeMTMC-reID

該資料集在杜克大學內採集,影象來自8個不同攝像頭。該資料集提供訓練集和測試集。 訓練集包含16,522張影象,測試集包含 17,661 張影象。訓練資料中一共有702人,平均每類(每個人)有23.5 張訓練資料。是目前最大的行人重識別資料集,並且提供了行人屬性(性別/長短袖/是否揹包等)的標註。

  • Market-1501

該資料集在清華大學校園中採集,影象來自6個不同的攝像頭,其中有一個攝像頭為低畫素。同時該資料集提供訓練集和測試集。 訓練集包含12,936張影象,測試集包含19,732 張影象。影象由檢測器自動檢測並切割,包含一些檢測誤差(接近實際使用情況)。訓練資料中一共有751人,測試集中有750人。所以在訓練集中,平均每類(每個人)有17.2張訓練資料。

  • CUHK03

該資料集在香港中文大學內採集,影象來自2個不同攝像頭。該資料集提供 機器檢測和手工檢測兩個資料集。 其中檢測資料集包含一些檢測誤差,更接近實際情況。平均每個人有9.6張訓練資料。

4、未來可能拓展的研究課題

  • Transfer learning。 在LFW上學好的人臉模型,在實際中可能不work。在行人重識別也有同樣的問題。 如研究在 資料集 Market-1501(夏季清華國人)上訓練好的模型,怎麼應用到另一個數據集 DukeMTMC-reID(冬季杜克老外)

  • 像人臉一樣。 往屬性學習/視訊base的行人重識別轉。

  • 做更大更難的檢索庫,比如Market-1501 + 500K(更多幹擾的候選行人)。

  • 語言檢索行人。通過自然語言的描述來找人。

行人特徵聚類視覺化來自[1]

[1] Zheng Z, Zheng L, Yang Y. A discriminatively learned cnn embedding for person re-identification arXiv preprint arXiv:1611.05666, 2016.

行人重識別:從哈利波特地圖說起

一、本文的目的是提供一個行人重識別的簡要概況。

為了方便/直觀的理解這個問題,我們先來說兩則相關的故事。一則闡明重識別問題的實際意義,一則故事說明重識別問題的難點。

  • 重識別的應用:哈利·波特 在《阿茲卡班囚徒》中使用 實點圖 (Marauder’s Map) 實時追蹤並識別追蹤人 (顯示人名)。將這個應用轉化一下,試想:如果在迪斯尼樂園/機場/大學校園裡和孩子走散了,除了廣播“xx小朋友你的家長在廣播室等你”的被動方式。我們可以翻開 實點圖就找到熊孩子。而實點圖就可以通過重識別來實現:主動輸入小朋友的照片,檢索多個不同位置的攝像頭下的當前幀,找到熊孩子的出現攝像頭。最後聯絡攝像頭的位置,就可以定位孩子了。這個應用同樣也可以用來找小偷/保護vip等等。

  • 重識別的難點:荷馬史詩 (Odyssey iv:412),Mennelaus 被告知,如果想要眾神息怒並平安回家,就要在特洛伊戰爭的回家路上抓到 Proteus,讓他告訴自己躲避的方法。雖然Proteus變成了獅子,巨蛇,豹,甚至水和大樹,Mennelaus最終還是在海邊的海豹群中抓住了他,並知曉了自己平安回家的方法。這大概是最早的重識別的成功案例。對照西遊記的話,那大概就是大師兄三打白骨精的故事了。重識別的難點在於,我們沒有大師兄的火眼金睛。多個攝像頭下拍攝行人的角度不同,影象中的行人可能72變。所以要正確判斷的話,就要找到行人上的區域性不變的part(比如:衣服顏色,衣服紋理,手提包,揹包等等)。在計算機視覺中,常用的特徵就有顏色直方圖等等。

(DukeMTMC-reID 資料集的retrieval demo)

二. 為了更好的理解這個問題,我們再思考幾個補充問題:

1. 能不能用人臉識別做重識別?

理論上是可以的。但是有兩個原因導致人臉識別較難應用:首先,廣泛存在後腦勺和側臉的情況,做正臉的人臉識別難。其次,攝像頭拍攝的畫素可能不高,尤其是遠景攝像頭裡麵人臉截出來很可能都沒有32x32的畫素。所以人臉識別在實際的重識別應用中很可能有限。

2. 有些人靠衣服的顏色就可以判斷出來了,還需要行人重識別麼?

衣服顏色確實是行人重識別 做出判斷一個重要因素,但光靠顏色是不足的。首先,攝像頭之間是有色差,並且會有光照的影響。其次,有撞衫(顏色相似)的人怎麼辦,要找細節,但比如顏色直方圖這種統計的特徵就把細節給忽略了。在多個數據集上的測試表明,光用顏色特徵是難以達到50%的top1正確率的。

3. 使用影象檢索的指標來衡量行人重識別的結果是否合適?

在早期,行人重識別資料集是由兩個攝像頭採集的比如viper,每個query只有一個正確的retrieval目標。所以往往使用top1比較。但在近期,隨著大資料集的提出,資料集中往往包含多個攝像頭的多個正確目標。光使用top1的話,不能反應模型的真實能力。所以類似影象檢索,重識別加入了mAP作為衡量標準,將top2,top3...topn都考慮進去。

4. 測試方式

主要有兩種方案:a.測試的輸入是一對行人,輸出為這對行人的相似度,然後再按相似度排序;b.輸入單個人,提取特徵,再計算與其他人的歐式距離,然後再按距離排序。

第一種方案的優點是,判斷兩個人是不是一個人,簡單的二分類(是/否)。但缺點是如果我們搜尋庫中有m張圖片,那麼與目標圖片組成m對圖片對。每一對都要進一次模型,估算相似度,這極大的增加了測試的時間。如果我們有n個query,那麼我們要計算nm次相似度(而m往往很大)。另一種方案是,預先提取行人的特徵,我們只要預先提好n+m次特徵。之後只要比較就好了,比較特徵可以簡單的用矩陣乘法實現。

目前兩種方案都有在用,但是後一種更接近實際中影象搜尋的要求,用特徵來快速檢索。

三. 科研中的方案

概括得不全,比較直接和簡要的想法有以下兩種(主要在神經網路上實現):

1. Part匹配:一部分一部分來比較。

a.常見方案是水平切條,就是將影象切為幾個水平的條。由於人體身材往往差不多,所以可以用簡單的水平條來做一一比較 [1,2,3,4]。

b.在領域中做匹配,採用的是一個正方形的領域 [6]。

c.另一個較新的方案是先在人體上檢測部件(手,腿,軀幹等等)再進行匹配,這樣的話可以減少位置的誤差,但可能引入檢測部件的誤差 [7,8]。

d. 類似LSTM的attention匹配,但必須pair輸入,測試時間較長。[5,10]

2.Loss設計:常見的幾種學習特徵表達的loss

a. identification loss 直接拿身份label做多類分類 [9]

b.verification loss [2,3,5,6] (主要是contrastive loss。[3, 6]中採用的是二分類loss)

c. identification loss + verification loss [11,12]

d. triplet loss [10,13,14]

e. 加入輔助任務 比如使用attribute等等 [15],

f. 資料增強 混合多資料集訓練 [16] ,加入訓練集上GAN生成的資料 [17].

目前有一些公開的程式碼,可詳見之前的知乎回答:有哪些行人重識別公開程式碼 做了一些彙總。

謝謝您看完~我也是剛剛學習行人重識別,歡迎各種建議。

Reference

[1] Shengcai Liao, Yang Hu, Xiangyu Zhu, and Stan Z Li. 2015. Person re-identification by local maximal occurrence representation and metric http://learning.In CVPR.

[2] Dong Yi, Zhen Lei, Shengcai Liao, and Stan Z Li. 2014. Deep metric learning for person re-identification. In ICPR.

[3] Wei Li, Rui Zhao, Tong Xiao, and Xiaogang Wang. 2014. Deepreid: Deep filter pairing neural network for person re-identification. In CVPR.

[4] Rui Zhao, Wanli Ouyang, and Xiaogang Wang. 2013. Person re-identification by salience matching. In ICCV.

[5] Rahul Rama Varior, Mrinal Haloi, and Gang Wang. 2016. Gated siamese convolutional neural network architecture for human re-identification. In ECCV.

[6] Ejaz Ahmed, Michael Jones, and Tim K Marks. 2015. An improved deep learning architecture for person re-identification. In CVPR.

[7] Liang Zheng, Yujia Huang, Huchuan Lu, and Yi Yang. 2017. Pose Invariant Embedding for Deep Person Re-identication. arXiv:1701.07732.

[8] Dong Seon Cheng, Marco Cristani, Michele Stoppa, Loris Bazzani, and Vittorio Murino. 2011. Custom Pictorial Structures for Re-identification.. In BMVC.

[9] Liang Zheng, Yi Yang, and Alexander G Hauptmann. 2016. Person Re-identification: Past, Present and Future. arXiv:1610.02984

[10] Hao Liu, Jiashi Feng, Meibin Qi, Jianguo Jiang, and Shuicheng Yan. 2016. End-to-End Comparative Attention Networks for Person Re-identification. arXiv:1606.04404

[11] Zheng Z, Zheng L, Yang Y. A Discriminatively Learned CNN Embedding for Person Re-identification[J]. arXiv preprint arXiv:1611.05666, 2016.

[12] Mengyue Geng, Yaowei Wang, Tao Xiang, and Yonghong Tian. 2016. Deep Transfer Learning for Person Re-identification. arXiv:1603.06765

[13] Shengyong Ding, Liang Lin, Guangrun Wang, and Hongyang Chao. 2015. Deep feature learning with relative distance comparison for person re-identification. Pattern Recognition 48, 10 (2015), 2993–3003.

[14] Alexander Hermans, Lucas Beyer, and Bastian Leibe. 2017. In Defense of the Triplet Loss for Person Re-Identification. arXiv:1703.07737

[15] Yutian Lin, Liang Zheng, Zhedong Zheng, Yu Wu, and Yi Yang. 2017. Improving Person Re-identification by Attribute and Identity Learning. arXiv:1703.07220

[16] Tong Xiao, Hongsheng Li, Wanli Ouyang, and Xiaogang Wang. 2016. Learning deep feature representations with domain guided dropout for person reidentification. In CVPR.

[17] Zhedong Zheng, Liang Zheng, and Yi Yang. 2017. Unlabeled Samples Generated by GAN Improve the Person Re-identification Baseline in vitro. arXiv:1701.07717

再次感謝知乎(醬油哥和鄭哲東兩位)!

如果有興趣的您希望學習更多相關知識,請關注我們的公眾號:計算機視覺戰隊ComputerVisionGzq),我們也有自己的學習群,希望您的加入(在我們平臺有加入學習群方式),謝謝!