1. 程式人生 > >Summary——DensePose: Dense Human Pose Estimation In The Wild

Summary——DensePose: Dense Human Pose Estimation In The Wild

Research question:

在一張RGB圖片和一個曲面模型上建立對應。RGB圖片來自COCO資料集(本文篩選出含有人物的圖片),除此之外,由一個人體的表面模型(這個模型應該是立體的)為24個體塊分別找到六張不同角度(當呈現在標註者面前的時候也是平面的圖片),本文就是要在二者之間做對應。

Contributions:

  1. 在現有的COCO資料集上搜集包含有 5萬個人的圖片作為本文的資料集,命名為COCO-DensePose。
  2. 訓練一個修復網路,提高訓練集的效率。
  3. 在基於域的模型上進行實驗,串聯網路。

Methods:

先從另一篇文章,Microsoft COCO: Common Objects in Context

,中的COCO資料集講起,這是一個大型資料庫,它包含的內容如下:

為一張圖片的目標打上標籤(進行分類):

目標定位(把目標框住):

語義分割:

超畫素分割(和語義分割的區別在於按例項個體分割):

也就是說,在COCO資料集中原本就可以比較輕鬆地找到有含有人的圖片,並且在圖片上已經把人物的輪廓給畫出來了。這方便了本文後來的工作,所以使用COCO資料集,按照本文的需求,做一些針對性修改。這就是本文的第一項重要工作。

本文為了蒐集COCO-DensePose,設計了一個註釋系統,蒐集了5萬人類的註釋,超過5百萬的手工註釋的對應。

這裡是使用人工來對圖片到曲面模型的對應進行標註,如果直接標註的話,因為曲面模型是立體的,所以要找點的時候很麻煩。為了減輕工作量,所以本文分兩步來做:

第一,讓標註者先把SMPL模型生成的(SMPL模型下文會講到,這裡只需要知道它能生成三維的曲面模型)人體分塊,包括頭啊,軀幹啊,手啊,腳啊,上手臂啊,下手臂啊。像肢體這種大零件,就分為上部,下部,前部,後部。總共分成了24個部分,還有它們的U,V場如下圖所示。

第二,用k-means演算法(一種聚類演算法)在每個小塊上取樣點集,點集中的點兩兩等距。點集中點的數量隨體塊的大小決定,大的就多,小的就少,最多的每個體塊有14個點。在此,為了進一步方便標註者,每一個體塊都提供六張不同角度的照片。標註者只要在某一個視角的圖片上標註了點,別的圖片上也會自動標註上的(我懷疑,這六張圖是他們由表面模型得到的)。

標註如下圖所示:

那本文如何評估人工註釋的準確性?有的文章是把很多人的標註結果取平均值作為真值,但是在這裡,給出的圖片都已知畫素座標,這圖片是由曲面模型得到的,標註者就是要在這張合成圖片和曲面模型上做對應。測量對應點和真值點的測地距離(大概是因為曲面模型的表面是曲面才用測地距離的吧),然後將K個取樣點的測地距離取平均。

不難想象,像頭,手這種小的體塊,更好定位,誤差就更低,軀幹這種大的體塊,誤差就更高,如下圖。

接下來就是密集體態估計:

由於“修復”監督訊號能夠提高訓練效果,所以本文專門設計了一個教師網路(teacher network),將原本人工標註(這種標註的點就很少)的稀疏的監督訊號,通過修復,轉變為密集的監督訊號(如果預測錯誤,就把錯誤的點作為下一個訓練點,反正其實真值他都有)。這是本文的第二項重要工作。

本文最重要的工具還是深度網路,本文把兩篇文章的網路結合起來,我們來看看它是怎麼構造出來的。

之前有人做這個問題,用全卷積網路構造了DenseReg結構,本文打算在此基礎上結合Mask-RCNN結構。並命名為DensePose-RCNN。即有:

DensePose-RCNN=DenseReg+Mask-RCNN。

其中:DenseReg=分類器+迴歸函式。輸入一個點,先通過分類器,將該點分為25類(人體24個體塊+1個背景),得到該點是在人體上還是在背景上。再根據該點在哪一部分,通過該體塊對應的迴歸函式(共有24個迴歸函式)預測該點在曲面模型的位置。

分類器和迴歸函式的訓練集為人工造的COCO-DensePose資料集。

Mask-RCNN的原理,由於作者也是參考別人的文章,所以文中沒有細講,所以具體我也不知道他所說的cascading的意義,等有空看了那篇文章以後在把這部分補上吧哈哈哈哈哈哈哈哈。

Empirics:本文采用的原始資料集是COCO。採用該資料集的原因:一是因為它大。二也是最主要的,它的classification的工作可以幫助我們在這個大型相簿中找到含有人的圖片。而他的分割個體例項的工作,幫我們把人物的輪廓給畫了出來。在此基礎上,本文對圖片上的人物大卸八塊,再人工標註,十分方便。

Results and findings:

實驗一,兩個資料集和本文蒐集的COCO-DensePose資料集一起訓練,證明COCO-DensePose的優越性。

兩個資料集分別是UP(Unite the People)和SURREAL。

實驗二,比較cascading和FCN和Mask-RCNN之間的關係。證明cascading的優越性。

Constructive critiques:

這部分原本用於總結文章的優缺點,並提出建設性意見的,意見提不出來,我在這裡提幾個疑問好了。

  1. 本文方法的upper bound。體態估計隨著圖片中背景雜斑的產生,人物數量增多,估計的準確率應該是有所下降了,應該如何解決???
  2. 因為按照文章所說貌似每張圖片的點都有真值。本文人工標註的COCO-DensePose只是為了在實驗中作為對照嗎???如果是的話,這種資料集的意義還大嗎???