1. 程式人生 > >End-to-end recovery of human shape and pose閱讀筆記

End-to-end recovery of human shape and pose閱讀筆記

本文講了如何從單張RGB圖片重建人體的mesh,這個方法為Human Mesh Recovery(HMR)。

關於從圖片或視訊重建人體的meshes可以分為兩類方法:兩階段法,直接估計法。 兩階段法: 1)用2Dpose檢測,預測2D關節位置 2)通過迴歸分析和model fitting從2D關節去預測3D關節,其公共方法是利用一個學習的3D骨架庫。 這些方法為了約束2D-to-3D的固有歧義,用了不同的先驗: 1)假定四肢長度,或比例 2)學習一個姿勢先驗,獲得了與姿勢獨立的關節角度限制。 特點:對於域的轉變更魯棒,過度依賴2D關節點偵測,丟掉了圖片的資訊。

本文的網路可以潛在的學習關節角度的限制。 直接估計: 可以捕捉真值動作的視訊資料集HumanEva, Huam3.6M,提供訓練資料,所以3D關節估計就可以變為一個標準的監督學習問題。 1)直接從影象估計,通過深度學習框架 2)優勢的方法,全卷積網路 特點:擁有精確的真值3D標記的圖片是在可控的環境下得到的,僅僅這些圖片訓練出的模型不能再真實世界裡生成的很好。

本文是從影象畫素去估計人體的meshes,並沒有進行2D的關節檢測。

這個框架的訓練可以用paired 2D-to-3D supervision,也可不用。這樣設計是因為:1)in-the-wild images缺少大尺度的真值;2)現存的有3D標記的資料是從受約的環境中獲取的,在這些資料集上訓練的模型對於豐富的圖片來講形成的模型不好。

文章用的訓練資料是:1)2D真值標記的in-the-wild images,LSP, LSP-extended MPII and MS COCO ;2)擁有不同外形和姿勢3Dmeshes,Human3.6M  and MPIINF-3DHP 。

 這是其網路結構圖,網路框架的工作流程:  編碼器:獲得圖片的卷積特徵  迭代的3D迴歸模型:產生3D人體和相機的3D到2D標記的投射  對抗生成網路:決策,判別3D引數是否是unpaired資料中真實的meshes,相當於弱監督的過程。  因為3Dmeshes豐富的representation,資料驅動先驗(不清楚是什麼)可以獲取關節角度限制,擬人的約束(身高,重量,骨骼率),包含了模 型的幾何先驗。  當真值的3D資訊可得,可用中間級損失。目標函式如下

lambda:一個權,控制一下每個目標函式的重要性。 1l:1表示圖片的3D真值可得,0表示不可得。

接著文章開始描述不同的L.

投射損失:

迭代的3D迴歸:因為3Drepresentation包含了旋轉資訊,一次性迴歸很難。

THETA(representation),85維,

THETA的初始為所有的THETA的平均(來自於資料集)。殘差有影象特徵和得到。

投射損失可以讓網路產生3D人體可以解釋2D的關節位置,但一些其他情況也能最小化投射損失,如像人的3Dbodys和粗略自相交叉的bodys。所以引入判別網路。

為什麼用SMPL型別的3Drepresentation?因為可以很精確的知道其潛在空間的意義。 SMPL:

1)可以利用其映像形式去使對抗資料更有效,且穩定訓練。 2)文章映象了SMPL的shape和pose成分,為shape和pose分別訓練了一個判別器。pose基於動態樹,分解了pose判別器,為每一個關節旋轉訓練了一個。為了獲得關節在動態樹的貢獻,為所有的旋轉學了一個判別器。 每個判別器都是低維的(文中有具體的引數),每個都是小網路,更穩定的訓練。所有姿勢判別器共享一個旋轉矩陣特徵空間,僅僅最後的分類器是分開學習的。

共25個判別器,23個關節判別器9維,1個shape判別器10維,1個所有關節判別器。

網路沒有遭遇GANs的公共問題,模式坍塌(猜:對抗產生了畸形),因為網路不僅要通過判別器也要最小化二次投射誤差。分解也能避免模式坍塌。

上圖為沒有對抗先驗時產生的效果。

 關於目標函式的優化,也就是L,在每次迭代求時,都要及時Ladv,當完成計算時,才計算Lreproj。