1. 程式人生 > >[深度學習論文筆記][總結]Invariant gait feature extraction based on image transformation

[深度學習論文筆記][總結]Invariant gait feature extraction based on image transformation

近期有兩篇來自於同一第一作者單位的工作,使用基於神經網路的影象變換模型來處理不同視角、不同衣著或手持物的CEI特徵到統一的90°正常特徵(SPAE與GaitGAN)。在這裡加以簡單總結與對比。

[Neurocomputing 17] Invariant feature extraction for gait recognition using only one uniform model

Shiqi Yu, Haifeng Chen, Qing Wang, Linlin Shen, Yongzhen Huang

from Shenzhen University and CAS-IA

這篇文章使用自動編碼器(Auto-encoder)來去除來自於CL(大衣)和BG(手持包)的CEI中的影像識別的因素,之後將不同視角的CEI特徵轉換到統一的視角(side view = 90°)。

直接進行轉換會使得任務變得很困難。本文采用了divide-and-conquer思想將變換過程進行拆分,分佈訓練編碼器,再進行疊加。

作者設計的編碼器首先處理CL和BG特徵到正常的NM CEI。其中CL到NM的變換通過1層網路即完成變換,而BG到NM需要通過2層網路的變換。

這裡寫圖片描述

之後視角變換的編碼器則以NM狀態的CEI作為輸入。該部分每層編碼器的功能如下圖所示。舉例說明,如layer2的功能是將0°和180°的CEI轉化為18°和162°,同時其他視角的CEI保持不變。其他層的功能依此類推。

這裡寫圖片描述

自動編碼器的訓練是逐層的,即按照上述的任務拆分從下至上依次訓練,逐層累加。各層累加完畢後整個網路一起進行微調。

[CVPRW 17] GaitGAN: Invariant Gait Feature Extraction Using Generative Adversarial Networks

Shiqi Yu, Haifeng Chen, Edel B. Garcia Reyes and Norman Poh

from Shenzhen University, ATAC of Cuba and U Surrey

這篇文章是PixelDTGAN[1]的直接應用。整套框架包含三個部分:轉換器和兩個對手分類器(真假圖片分類器、行人身份判別器-對應於Domain Transfer判別器)。

這裡寫圖片描述

其中真假分類器用來判斷輸入圖片是否是90°CEI特徵圖。行人身份判別器以一對CEI特徵圖作為輸入,判斷它們是否來自於同一個行人個體。

Experiment

上述兩種方法都是對CEI的處理手段。當生成具有不變性的CEI之後,兩篇文章使用PCA+最近鄰分類器在CASIA-B資料庫上進行了實驗。部分實驗結果如下所示,可見SPAE(紅)和GaitGAN(藍)的效能不相上下。

這裡寫圖片描述

Reference

[1] D. Yoo, N. Kim, S. Park, A. S. Paek, and I. S. Kweon. Pixellevel domain transfer. in ECCV 2016