田奇:行人再識別的挑戰和最新進展
2018 年 9 月 18 日,2018 世界人工智慧大會·視覺智慧 瞳鑑未來七牛雲專場分論壇在上海國際會議中心 5 樓歐洲廳舉行。華為諾亞方舟實驗室計算視覺首席科學家、美國德克薩斯大學聖安東尼奧分校計算機系教授田奇,在會上為大家帶來了題為《行人再識別的挑戰和最新進展》的分享。
以下內容根據現場演講內容速記的實錄整理。


各位嘉賓,各位老師,各位同學,非常榮幸在這裡和大家分享我們的工作。本次我報告的主題是《行人再識別的挑戰和最新進展》。在今天的報告中,我將首先介紹一下行人再識別的背景和麵臨的挑戰,接著介紹學術界近年取得的最新進展以及我們相關的工作,最後與大家分享行人再識別領域未來可能出現的新的研究方向。

 大城市中的攝像頭是無處不在的,每天都會產生海量的監控視訊資料。如何從海量資料中挖掘有效資訊,這是我們所關心的。我們雖然擁有大資料,但是如果機器沒有自動分析和處理能力,那麼大資料並不意味著我們能獲得海量資訊。同樣,如果機器沒有學習和歸納能力,擁有了海量資訊也並不代表我們掌握豐富知識。譬如,2013 年的波士頓馬拉松恐怖襲擊事件以及 2017 年拉斯維加斯恐怖襲擊事件等,我們的攝像頭都能捕捉到這些鏡頭,但是資料中心並不完全具備對海量資料分析、處理和預警的能力,因此沒有避免悲劇發生。由此可見,提升機器對監控視訊資料的分析、處理、學習和歸納能力是極其重要的。在監控視訊中,人和車是我們最為關心的。目前,我的團隊主要聚焦於分析人,尤其是行人再識別領域的研究。
行人再識別具有廣闊的應用前景,包括行人檢索、行人跟蹤、街頭事件檢測,行人動作行為分析等等。當然這個動作行為分析也包括使用者在商場中的購物行為分析,比如估計顧客的年齡、性別、對什麼樣的商品感興趣、停留的時間等等。這些資訊有助於商場去策劃相應的銷售策略。由於行人再識別任務的重要性,近些年越來越多的研究人員和機構都投入進來,從計算機視覺頂會的論文發表情況就可以看出來這一趨勢。例如在 2013 年,相關的文章在視覺頂會上發表的並不多,但是近年快速上升,在今年的計算機視覺頂級會議 CVPR 上,就有 32 篇文章發表,在 ECCV 上有 19 篇文章發表。




我們對行人再識別發展歷程做了一個總結。簡單來說,行人再識別的發展分為兩個大階段:一個是 2014 年以前,主要依靠一些傳統方法,例如設計手工特徵等。2014 年以後的工作基本上都是基於深度學習的。在深度學習的框架下又有一些細分工作,比如說這兩年因為深度模型需要大量的訓練資料,在訓練資料不足的情況下,基於生成對抗網路的資料生成方法成為了比較熱門的研究方向。
行人再識別是一個較難的課題,解決這一課題面臨著諸多挑戰。這些挑戰可以歸納為三種:第一個挑戰是對大量訓練資料的需求;第二個挑戰是行人視覺表觀差異性大;第三個挑戰是非理想的場景。
對大量訓練資料需求的挑戰主要體現在以下這些方面:
一是有限的訓練資料。從當前行人再識別訓練資料的收集情況來看,收集到的資料相對於真實資料的時空分佈是非常有限的、區域性的。同時,與其他視覺任務相比,行人再識別的資料規模也是非常小的。比如以大規模影象識別資料集 ImageNet 來說,它的訓練資料有 125 萬張圖片,在行人檢測資料集 Caltech 上標註的行人框有 35 萬個,cCOCOoco 的目標檢測資料訓練集是 12.3 萬多張圖片。而我們行人再識別當前常用的資料集僅有 3 萬多張行人圖片。
二是訓練、資料獲取比較困難。我們很難去收集到跨時間、跨氣候和多場景的行人資料。另外,隱私問題也對資料獲取造成了阻礙。
三是資料標註比較困難。首先是浩大的標註工作量,大家知道大規模影象分類資料集 ImageNet ,通過眾包的形式前後有 4.8 萬人花了近兩年時間來標註。 無論從時間還是金錢上來看,標註成本都是非常大的。其次,標註本身有時也是非常困難的,比如簡單把狗和貓分開比較容易,但是在視訊中把兩個年齡、體貌相似,穿著同樣衣服的不同行人分開是比較困難的。
第二個行人視覺表觀差異變化大的挑戰,主要是行人呈現不同的姿態,含有複雜的背景,不同的光照條件以及不同的拍攝視角,這些都會給行人再識別帶來很大的困擾。而且一個行人穿不同的衣服,戴不同的帽子或者眼鏡,留不同的髮型也都會帶來巨大問題。


第三個主要挑戰是非理想的場景,主要是行人不對齊、部分遮擋、影象質量低等問題。

 行人再識別近年的進展也主要是圍繞著如何解決好以上這三大挑戰來展開的。
資料是解決問題的關鍵。我們團隊一開始就致力於構建標準資料集,以推動行人再識別的發展。我們在 ICCV2015 釋出了當時規模最大的基於影象的行人再識別資料集 Market-1501。這個資料集有六個攝像頭,標註了 1501 個行人,共 3 萬多張行人圖片。該資料集目前已經成為行人再識別領域的基準資料集。從 2016 年到現在,大家已經引用了 4230 多次。今年,我們與北京大學合作,提出了更大的基於影象的行人再識別資料集——MSMT17。收集 MSMT17 資料集的時候,我們用了分別部署在教學樓室內和室外的 15 個攝像頭,在不連續的四天中的上午、中午和下午三個時刻進行拍攝。最終收集了 4000 多個人,標註 12 萬多張行人圖片。此外,在 ECCV2016 和 CVPR2017 上,我們也發表並公開做了基於視訊的行人再識別資料集 MARS,以及端到端的行人再識別的檢索資料集 PRW。因此,過去這幾年我們主要做了 4 個行人再識別資料集,很好地推進了行人再識別的發展。
除了從構建更大更真實資料集的角度來應對大量訓練資料需求的挑戰,我們還可以通過資料生成的方法,來增加訓練資料量。資料生成有傳統方法和深度學習方法。比如說對影象進行一些操作像翻反轉、剪裁、構建金字塔輸入等,這些都是被廣泛採用的傳統方法。近年來,深度學習的方法主要是 GAN-based 方法。生成對抗網路(GAN)在行人再識別上的第一個工作發表在 ICCV2017 上,作者他用 DCGAN 生成沒有標註的行人資料,來進行資料增強。這個工作的但問題是,DCGAN 生成的行人圖片質量是比較低的。針對訓練集中行人姿態變化不夠的情況,CVPR2018 上,上海交大的倪冰冰老師團隊用條件 GAN 來生成具有不同姿態的行人影象,以豐富訓練集中行人的姿態變化。只不過,同樣的問題是生成的影象質量比較低。另外, CVPR2018 中有團隊做相機風格的學習。比如說從第一個攝像頭拍到的真實影象,轉移到第六個攝像頭相機下,或者是第六個相機的影象轉移成具有第一個相機風格的影象。通過這種方式,我們的訓練集就會更加均衡地囊括場景中各個相機的風格,在測試階段具備更好的效能。
我們在今年 CVPR2018 提出了 PTGAN(Person Transfer GAN)。PTGAN 主要做跨場景的遷移,假設我們在北京標註的訓練資料想在上海的某個場景下用,我們就可以通過 PTGAN 將已經標註好的資料遷移到上海的場景中,遷移後的圖片就像在上海拍攝一樣。然後我們在遷移後的資料集上訓練行人再識別模型,這樣會在上海的場景中得到更好的效能。PTGAN 的實現主要基於兩個損失函式:風格遷移和行人保持。風格遷移的目的是我們遷移後的圖片風格儘可能和目標場景一致,而行人保持的目的是遷移後的圖片中行人沒有發生改變。我們在不同資料集上都做了相關實驗,效能都有相當大的提高。


應對行人表觀資訊變化大的挑戰主要解決方案,集中在如何提出更好的行人特徵表達上,傳統方法中我們利用顏色特徵、紋理特徵、距離傳統度量學習等。對於深度學習方法,除了利用現有的深度學習網路框架以外,主要是設計不同的損失函式來進行優化,包括 Softmax Loss、二元組、三元組、四元組的損失函式等。
最後應對非理想場景的挑戰,主要解決方案是對人體部件進行檢測和匹配。我們在 ICCV2017 提出了 Pose-Driven Convolution (PDC) 方法來提取人體的細粒度部件,並進行矯正。但是由於需要提取非常精細的人體的部件, PDC 對遮擋以及人體關鍵點檢測誤差比較敏感。基於此,我們在 MM17 中提出了 Global-Local Alignment Descriptor(GLAD) 的方法,僅需提取三個粗粒度部件就能得到非常好的效能。




當然最近大家也還都提出非常好的基於人體部件的方法,進一步提升行人再識別的效能,如 AlignedReID 等。
談及行人再識別未來的方向,肯定離不開兩個方面:資料和方法。在資料層面,一方面我們要構造更真實更大的資料集,另一方面也可以通過 3D Graphics 相關方法做資料生成。在方法層面,我們之前僅僅考慮視覺資訊。其實現實世界中我們還可以獲得大量其它資訊加以利用,如 wi-fi 接入網路、步態 gait、GPSgps 等等。另外在現實應用中,行人檢測和再識別其實是一體的, 應該在一個框架下統一優化。目前在這方面的工作還有所欠缺,未來我們會重點研究這一方向。


最後我介紹一下當前華為諾亞方舟實驗室的情況。諾亞方舟實驗室的研究工作主要是集中在五個方向,包括計算機視覺、自然語言處理、決策與推理、搜尋與推薦,AI 基礎理論等。在計算機視覺方面主要是做平安城市、終端視覺等方向的工作。目前實驗室與十個國家超過 25 個大學有合作。諾亞方舟實驗室在國內主要是深圳、北京、上海、西安,海外主要在多倫多、矽谷、倫敦、巴黎和蒙特利爾。