【翻譯論文】Learning to Estimate 3D Human Pose and Shape from a Single Color Image （CVPR 2018）

因為科研的需要，最近閱讀了這篇文章，裡邊的一些術語儘量的翻譯的專業一點，如有不恰當的地方歡迎個位評論指正，還有就是如有涉及到版權的問題，請及時聯絡本人，本人會立馬刪除

該工作解決了從單個彩色影象估計全身3D人體姿勢和形狀的問題。這是一項普遍存在基於迭代優化的解決方案的任務，而卷積網路（ConvNets）由於缺乏訓練資料及其預測3D（時）的低解析度而遭受負面影響。我們的工作旨在彌合這一差距，並提出一種基於卷積網路的高效且有效的直接預測方法。我們方法的核心部分是在我們的端到端框架中結合引數統計體形模型（SMPL）。這讓我們獲得了非常詳細的3D網格結果，同時僅需要估計少量引數，使其對於直接網路預測是友好的（或者理解為有利於直接網路預測）。有趣的是，我們證明僅僅從

2D關鍵點和掩模就能可靠地預測這些引數。2D關鍵點和掩模是通用2D人體分析卷及網路的典型輸出，使我們能夠降低對具有3D形狀正確標註（groundtruth）的影象可用於訓練的大量要求。同時，通過保持可微性，在訓練時我們利用估計的引數來生成3D網格，並使用3Dper-vertex損失明確地優化表面。最後，採用可微分渲染器將3D網格投影到影象，通過優化投影與2D註釋（即2D關鍵點或掩模）的一致性，可以進一步細化網路。所提出的方法效能優於此任務的先前基準，並且提供了用於從單個彩色影象直接預測3D形狀的有吸引力的解決方案。

1.簡介

從影象中估計人體的全身3D姿勢和形狀一直是計算機視覺的一個挑戰性目標，一直追溯到

Hogg的工作（1983年）[15]。該問題固有的模糊性迫使研究人員使用單目影象序列進行推理[54,3]，採用多個攝像機檢視[36,16]，甚至探索可供選擇的（替代的）感測器，如Kinect[53]或IMU[52]。在這些裝置中，體形重建結果非常顯著。然而，從單張彩色影象估計3D姿勢和形狀仍然是3D人體分析的最終目標。

考慮到這種問題特別具有挑戰性，文獻無疑是稀缺的。大多數方法依賴於迭代優化，試圖估計與2D影象觀察一致的全身3D形狀，如輪廓，邊緣，陰影或2D關鍵點[41,14]。儘管解決複雜優化問題需要大量的執行時間，但由於區域性最小值導致的常見故障，以及容易依賴於模糊2D線索的錯誤，基於優化的解決方案仍然是該問題的主要正規化（範例）

[22,7]。即使是深度學習的出現也沒有顯著改變狀況。卷積網路似乎不是這個問題的可行候選者，因為它們需要大量的訓練資料，並且它們因3D預測解析度低而臭名昭著[37,44]。我們的工作目標是通過提出一種高效且有效的直接預測方法來證明卷積網路確實能夠為這個問題提供一個有吸引力的解決方案，該方法具有競爭力，甚至效能優於迭代優化的方法。

為了使這一點變得切實可行，我們的方法的關鍵設計選擇是在我們的端到端框架中結合引數統計體形模型（SMPL[25]skinnedmulti-person linear），如圖1所示。這種表示的優點是我們可以以6890個頂點的形式生成高質量的3D網格，而且僅僅估計少量引數，即72個用於姿態，10個用於形狀。這種低維引數化使得該模型對於直接網路預測是友好的（意思應該是對直接網路預測是有利的）。實際上，通過僅使用2D關鍵點和輪廓作為輸入，該預測是可行並且準確的。這使我們能夠放寬限制性的假設，即具有3D形狀標註的自然影象可以用於訓練。相比之下，我們可以利用可用的2D影象註釋（例如，[19,4]）來訓練影象到2D的推理，同時使用引數模型的例項來訓練2D到3D形狀的推斷。同時，採用該引數模型的另一個主要優點是其結構使我們在訓練時生成預估的3D網格，並通過使用3Dper-vertex損失直接對錶面進行優化。與初始引數迴歸相比，這種損失與通常用於評估的頂點到頂點3D誤差具有更好的相關性並且改善了訓練。最後，我們建議採用一個可微分的渲染器，用於將生成的3D網格,投影到2D影象。這通過優化標註了2D觀察結果（即2D關鍵點和掩模）的投影的一致性，實現了網路的端到端微調。完整的框架為從單個彩色影象中估計3D人體姿勢和形狀問題提供了模組化直接預測解決方案，並且優於相關基準的先前方法。

我們的貢獻可以被概括為一下幾點：

•用於從單個彩色影象進行3D人體姿勢和形狀估計的端到端框架。

•在卷積網路估計的2D關鍵點和掩模預測SMPL模型引數，以避免在合成影象示例上進行訓練。

-在訓練時生成3D身體網格，並基於3D形狀一致性進行監督。

-使用可微分渲染器進行3D網格投影和基於二維標註一致性的監督網路細化。

•與以前的3D人體姿態和形狀估計方法相比，效能優越，執行時間顯著加快。

2.相關工作

3D人體姿勢估計：為了估計令人信服的人體3D重建，準確預測人的3D姿勢是至關重要的。最近的許多工作都遵循端到端正規化[48,40,42,46,55]，使用影象作為輸入來預測3D關節位置[23,45,34,28]，迴歸3D熱圖[31]，或者將影象分類為特定的姿勢類[39,40]。不幸的是，一個重要的限制因素是大多數這些卷積網路需要具有3D姿勢標註資訊的影象進行訓練，從而限制了可用的訓練資料來源。其他方法致力於由最先進的卷積網路提供的2D姿勢估計，並專注於3D姿勢重建[29,57]，恢復3D姿勢樣本[8]，或產生與2D姿勢一致的多個3D姿勢候選[18]。值得注意的是，Martinez等人。[27]使用簡單的多層感知器演示了最先進的結果，該感知器從2D姿勢輸入迴歸（復原）3D關節位置。我們的目標與前面提到的工作有很大的不同，因為我們估計人體的整個表面幾何形狀，而不是一個粗略的類似火柴人的形象。

人體形狀估計：與3D人體姿勢的進步同時，一組不同的工作解決了人體形狀估計的問題。在這種情況下，給定單個影象，大多數方法試圖估計統計體形模型的引數，如SCAPE[5]或SMPL[25]。輸入通常是輪廓，而回歸森林[9]和卷積網路[11,10]已被提出用於預測。人體形狀（人體形狀識別）的知識對於生物識別應用是有用的，但是我們認為對於3D感知（3D資訊的獲取），當共同推斷姿勢和形狀時，潛力和挑戰要大得多。

聯合3D人體姿勢和形狀估計：儘管姿勢和形狀預測有個別進步，但它們的聯合估計使得任務變得更加困難。這一直在促進（培養）非單一影象場景的研究，以獲得更強大的（魯棒性更好的）結果。徐等人[54]提出了一個管線（或者理解為演算法流程），用於從單目視訊中獲取完整的效能，假設知道所觀察物件的形狀網格。Alldieck等人[3]依靠光流提示從單目視訊共同估計姿態和形狀。Rhodin等[36]和黃等人[16]使用來自多個校準相機的影象，並依靠關鍵點檢測，輪廓和時間一致性來恢復身體的重建。Weiss等人提出了另一種裝置。[53]利用Kinect感測器的深度模態來解決同樣的問題。本著探索不同感測器的精神，vonMarcard等人[52]在受試者身上使用一組稀疏的IMU來共同恢復姿勢和形狀。

3D人體姿勢和單一彩色影象的形狀：在最具挑戰性的情況下，僅使用單個彩色影象作為輸入，Sigal等人的工作[41]是第一個通過將引數模型SCAPE[5]擬合到正確標註資訊的影象輪廓來估計高質量3D形狀估計的人之一。Guan等人[14]在擬合過程中使用輪廓，邊和陰影作為提示，但仍需要通過使用者指定的2D骨架進行初始化。Bogo等人最近提出了一種全自動方法。[7]。他們使用來自2D姿勢卷積網路[33]的2D關鍵點檢測，並將引數模型SMPL[25]擬合到這些2D位置。他們的3D姿勢結果非常準確，但形狀仍然高度不受約束。為了改善這一點，Lassner等人。[22]使用分割卷積網路提供的輪廓擴充套件擬合。這些作品的共同主題是它們構成了一個優化問題，並嘗試將身體模型擬合到一組2D觀察結果中。但缺點是解決這個迭代優化問題非常緩慢，因為區域性最小值很容易失敗，並且它很大程度上依賴於容易出錯的2D觀測結果。

或者，直接預測方法以辨別方式估計3D姿態和形狀，而不在推斷期間明確地優化特定目標。與此範例相關的是Lassner等人的工作。[22]，其中卷積網路檢測到人體的91個地標，然後隨機森林從這些檢測中估計3D體和形狀。然而，為了訓練這些地標，他們仍然需要將身體形狀與影象對齊。相比之下，我們證明只有一小部分註釋對於重建是至關重要的，即2D關節和掩膜，它們可以由人體註釋器提供，並且對於野外影象而言是豐富的[19,4,24]，同時我們還將所有內容整合到統一的端到端框架中。同時，Tan等人[43]使用編碼器-解碼器卷積網路，其中訓練解碼器以預測對應於SMPL引數的輪廓。與他們不同的是，通過識別這些引數，我們可以分析地生成主體網格，並將其以可微的方式投射到影象上（如[47]中的面部模型），從而避免了50萬額外可學習的權重。與他們相反，我們將影象中的計算和學習工作集中在框架的3D形狀部分。我們的工作也與Tung等人的同時工作有關。[50]但是我們的框架可以從頭開始訓練，而不是依靠合成影象資料進行預訓練，我們展示了基於模型的3D姿勢和形狀預測的最新結果。

3.人體形狀模型

統計體形模型，如SCAPE[5]或SMPL[25]，它們是強大的工具，為端到端框架提供了重要機會。其中一個重要的優點是它們的低維引數空間，非常適合直接網路預測。使用此引數表示，與體素化（將物體的幾何形式表示轉換成最接近該物體的體素表示形式）或點雲表示相比，我們可以保持輸出預測空間較小。同時，低維預測不會犧牲輸出的質量，因為我們仍然可以從估計的引數生成高質量的3D網格。此外，從學習的角度來看，我們繞過了學習人體統計學的問題，並將網路容量用於從影象證據推斷模型引數。相比之下，沒有模型幫助的方法給學習方帶來了額外的負擔，這常常導致令人尷尬的預測錯誤（例如，未能在遮擋下重建肢體，缺少身體細節等）。此外，大多數模型提供了方便的姿勢和形狀的分解（分離），這對於獨立地關注影響兩者中的每一個的因素是有用的。最後但同樣重要的是端到端方法，從引數輸入生成3D網格的功能是可區分的，使模型與當前的end-to-endpipelines相容。

在這項工作中，我們採用了Loper等人介紹的最新的SMPL模型。[25]。我們在此提供基本符號，我們請讀者參閱[25]瞭解更多細節。SMPL定義函式M（β，θ;Φ），其中β是形狀引數，θ是姿勢引數，Φ是模型的固定引數。該函式的直接輸出是人體網格P∈R^(N*3)[N×3的矩陣]，其中N= 6890個頂點 Pi∈R^3[3維向量]。模型的形狀使用少量主體形狀的線性組合，這些主體形狀是從大型身體掃描資料集中學習的[38]。形狀引數β是這些基礎形狀的線性係數。身體的姿勢是通過具有23個關節的骨架鑽機來定義的。姿勢引數θ以軸角度來表示，並定義骨架的各部分之間的相對旋轉。總共有72個引數定義了姿勢（23個關節中的每個關節3個，全域性旋轉加3個）。給定由形狀引數β檢索的靜止姿勢形狀，SMPL定義了依賴於姿勢的變形並使用姿勢引數θ來產生最終輸出網格。方便的是，體節點J是一組稀疏的網格頂點的線性組合，使節點成為估計體網格的直接結果。

4.技術方法

我們任務的傳統基於卷積網路的方法是獲取大量具有3D形狀標註資訊的彩色影象，並使用這些輸入輸出對來訓練網路。然而，除了小規模資料集[22]或合成的影象示例[51]，這種型別的資料通常是不可用的。因此，要處理這個任務，我們需要重新考慮典型的演算法流程。我們的主要目標是利用我們擁有的所有資源，並利用我們對問題的見解來構建有效的框架。作為第一步，根據先前工作的發現，我們確定可以從2D姿態估計[7,27]可靠地估計3D姿勢，而形狀可以從輪廓測量進行推斷[11,10]。該觀察方便地分解了以下問題：a）從彩色影象估計關鍵點和掩模，以及b）從2D證據（結果）預測3D姿態和形狀。這種做法的優點是可以不需要具有3D形狀標註資訊的影象來訓練框架。

4.1。關鍵點和輪廓預測

我們框架的第一步側重於2D關鍵點和輪廓估計。這部分是由具有2D關節和掩模註釋的大規模基準[19,4,24]的可用性推動的。考慮到這些資料的數量和可變性，我們利用它來訓練用於2D姿勢和輪廓預測的卷積網路，這在各種成像條件和姿勢下特別可靠。

在過去，已經使用兩個單獨的卷積網路來提供2D關鍵點和掩模[16,22]。相比之下，對於更優雅的解決方案，我們訓練單個卷積網路，我們將其稱為Human2D，它產生兩個輸出，一個用於關鍵點，一個用於輪廓。Human2D遵循StackedHourglass（堆疊式沙漏全卷積網路）設計[30]，使用兩層Hourglass，這被發現是準確性和執行時間之間的良好折衷。關鍵點輸出採用熱圖[49,32]的形式，其中正確標註和預測的熱圖之間的MSE損失Lhm用於監督。輪廓輸出具有兩個通道（人體和背景），並使用畫素二進位制交叉熵損失Lsil進行監督。為了訓練（或者理解為對於訓練），我們將兩個損失結合起來：Lhg=λLhm+Lsil，其中λ=100.這個卷積網路屬於多工學習正規化[34]。通過共享，這兩項任務可能相互受益，但多工學習也可能帶來某些挑戰（例如，適當的損失加權），正如Kokkinos所指出的那樣[21]。

4.2.3D姿勢和形狀預測

第二步更具挑戰性，需要從2D關鍵點和輪廓估計全身3D姿勢和形狀。通過迭代優化，輪廓和/或關鍵點已被廣泛用於3D模型擬合[6,7,22]。在這裡，我們證明了這種對映也可以從資料中學習，同時可以在單個估計步驟中獲得可靠的預測。對於這種對映，我們訓練兩個網路元件：（a）PosePrior，它使用2D關鍵點位置作為輸入以及檢測的置信度（通過每個熱圖的最大值實現）並估計姿勢係數θ，和（b）ShapePrior，它使用輪廓作為輸入並估計形狀係數β。一般來說，輪廓可以有助於3D姿勢推理[6]，反之亦然（3D姿勢有助於輪廓的推理）[7]。然而，根據經驗，我們發現這種拆解（意思應該是將3D姿勢與輪廓）以提供更穩定和準確的3D預測，同時它還引導了更模組化的流水線（例如，僅更新PosePrior，而不重新訓練整個網路）。關於架構，PosePrior使用兩個雙線性單元[27]，其中輸入是2D關鍵點位置和每個熱圖的最大響應，輸出是72個SMPL姿勢引數θ。ShapePrior使用一個簡單的架構，有五個3×3卷積層，每個層後面跟著最大池化，最後一個雙線性單元有10個輸出，對應於SMPL形狀引數β。

輸入的形式（2D關鍵點和掩膜）和輸出（形狀和姿勢引數）的形式允許我們通過生成具有不同3D姿勢和形狀的SMPL模型的例項來生成大量訓練資料（圖2）。事實上，我們可以利用MoCap資料（例如[1,17]）對3D姿勢進行取樣，並利用人體掃描（例如[38]）對樣本體形狀進行取樣。對於輸入，我們只需要將3D模型投影到影象平面（可能來自不同的視角），並計算輪廓和2D關鍵點位置以生成用於訓練的輸入-輸出對。這種資料生成是可行的，因為我們使用了中間輪廓和關鍵點表示。相比之下，嘗試直接從彩色影象學習對映需要生成合成影象示例[51]，這通常不會達到野外影象的可變性

在前面的段落中，我們故意避免討論對Priors網路的監督。過去的工作[22,43]已經使用預測和準確標註資訊引數之間典型的L2損失來檢查了監督方案。這種天真的（幼稚的，不知道怎麼翻譯）引數迴歸方法的一個缺點是，不同的引數可能對最終重建具有不同尺度的影響（例如，全域性身體旋轉比手相對於手腕的區域性旋轉更重要）。為避免手動選擇或調整每個引數的監督，我們的目標是提供更全面的解決方案。我們的方法需要在訓練時生成全身網格，我們通過應用3Dper-vertex損失明確優化預測表面。由於函式M（β，θ;Φ）是可微分的，我們可以通過它反向傳播並處理這個網格生成器作為我們網路的典型層，沒有（不需要）任何可學習的引數。給定預測的網格頂點Pi和相應的groundturth頂點Pi，我們可以用3Dper-vertex損失來監督網路：

它平等地考慮所有頂點，並且與通常用於評估的3Dper-vertex誤差具有更好的相關性。或者，如果焦點主要是3D姿勢，我們也可以僅考慮M個相關的3D關節Ji來監督網路，模型將這些頂點作為網格頂點的稀疏線性組合公開。在這種情況下，用Ji表示估計的關節，相應的損失可表示為：

根據經驗，我們發現最好的訓練策略是首先使用L2引數損失對網路引數進行合理的初始化，然後啟用頂點損失LM（如果焦點僅在姿勢上，則關節損失LJ），訓練更好的模型。

4.3。可微分的渲染器

我們之前的分析放寬了這樣的假設：具有3D形狀正確標註的影象可用於訓練並依賴於幾何3D資料（MoCap和身體掃描）。但在某些情況下，即使是這種型別的資料也可能無法使用。例如，LSP[19]具有體操或跑酷姿勢，這些姿勢在典型的MoCap中沒有表現出來。幸運的是，我們生成的3D網格有可能利用這些2D註釋進行訓練。為了關閉迴圈，我們的完整方法包括一個額外的步驟，將3D網格投影到影象並檢查與2D註釋的一致性。在併發工作中，使用解碼器型別的網路來學習從SMPL引數到輪廓的對映[43]。然而，在這裡我們確定該對映是已知的並且涉及3D網格到影象的投影，其可以以微分的方式表達，而不需要訓練具有可學習權重的網路。更具體地說，對於我們的實現，我們採用近似可微分的渲染器OpenDR[26]，它將網格和3D關節投影到影象空間，並實現反向傳播。投影操作Π產生：（a）輪廓Π（P）=S，其表示為64×64二進位制影象。（b）投影的2D關節Π（J）=W∈RM×2。在這種情況下，來自這些投影與帶註釋的輪廓S和2D關鍵點W的對照的監督，可以使用L2損失：

這種監督的目標有兩個：（a）它可以用於網路的端到端細化，僅使用具有2D關鍵點和/或掩模的影象進行訓練。（b）在一個只有2D註釋的新設定(例如，新的資料集)之前，它可以適當地調整一個通用的姿勢或形狀。

5.實證評估

本節重點介紹所提方法的實證評估。首先，我們提出了我們用於定量和定性評估的基準。然後，我們提供了該方法的一些基本實現細節。最後，在選定的資料集上顯示定量和定性結果。

5.1。資料集

對於經驗評估，我們採用了兩個最近的基準，提供具有3D體形基礎事實的彩色影象，UP-3D資料集[22]和SURREAL資料集[51]。此外，我們使用Human3.6M[17]資料集進一步評估3D姿勢精度。

UP-3D：它是最近的資料集，它收集來自2D人類姿勢基準的彩色影象，如LSP[19]和MPII[4]，並使用擴充套件版本的SMPLify[7]來提供3D人體形狀候選。通過人體註釋器評估候選者以選擇僅具有良好3D形狀擬合的影象。它包括8515個影象，其中7818個用於訓練，1389個用於測試。我們在此測試集上報告結果，同時我們還根據UP3D影象的原始資料集（LSP，MPII或FashionPose）考慮子集。最後，我們研究了由Tan等人選擇的139個影象的簡化測試集。[43]旨在限制全域性旋轉的範圍。我們使用預測和正確標註形狀之間的平均每個頂點誤差來報告結果。

SURREAL：這是一個最近的資料集，它提供了具有3D形狀標註資訊的合成影象示例。資料集從MoCap[1,17]（Motioncapture,簡稱Mocap：在運動物體的關鍵部位設定跟蹤器，由Motioncapture系統捕捉跟蹤器位置，再經過計算機處理後得到三維空間座標的資料。）繪製姿勢，從身體掃描[38]繪製體形，為每個影象生成有效的SMPL例項。合成影象不是很真實（realistic），但準確的標註資訊(groundtruth)使其成為評估的有用基準。我們報告資料集的Human3.6M部分的結果，考慮所有測試視訊並保留每個視訊的五幀以避免資料中的過度冗餘。使用平均每頂點(per-vertex)誤差報告結果。

Human3.6M：這是一個大型室內資料集，包含多個主題，執行典型的操作，如“吃”和“走”。我們遵循Bogo等人的協議。[7]使用來自'cam3'的主題S9和S11的所有視訊進行評估。原始視訊從50fps下采樣到10fps，以消除冗餘，如[22]中所做的那樣。使用重建誤差報告結果

5.2。實施細節

Human2D網路使用來自Lassner等人的輪廓，使用MPII[4]，LSP[19]和LSP擴充套件[20]資料進行訓練。[22]。我們使用批量大小為4，學習率設定為3e-4，rmsprop用於優化。使用旋轉增強（±30°），縮放（0.75-1.25）和翻轉（leftright）。訓練持續1.2M（百萬）迭代。對於Priors網路，我們訓練批量大小為256，學習率設定為3e-4，並使用rmsprop進行優化。最初，使用L2引數損失訓練網路進行40k次迭代，然後使用LM（或LJ，如果我們只關注姿勢）使用引數損失加權，再進行60k次迭代。

具有重投影損失的端到端細化持續2k次迭代，批量大小為4，學習率設定為8e-5，並使用rmsprop進行優化。為了提高訓練的魯棒性，端到端更新與Human2D和Priors網路的個別更新交替進行（如前兩段所述）。這有助於各個元件保持其原始目的，同時我們還利用端到端訓練的優勢將它們整合在一起。

5.3。元件評估

在本節中，我們使用UP-3D資料集評估我們方法的元件。我們訓練兩個不同版本的系統，對於Priors，我們利用來自UP-3D（由Lassner等人[22]提供）或CMUMoCap（由Varol等人[51]提供）的資料。在兩種情況下，Human2D網路保持不變。

我們的實驗側重於監督的型別。使用L2損失對θ和β引數進行初步訓練Priors網路[43]，可以將預測誤差保持在較高水平，如表1（第1行）所示。或者，我們可以使用Rodrigues的旋轉公式（羅德里格斯旋轉公式）[12]將θ引數從軸角表示轉換為旋轉矩陣，並在此表示上應用L2損失（第2行）。這導致更穩定的訓練和更好的效能，正如Lassner等人所觀察到的那樣。[22]。然而，使用我們提出的per-vertex監督（第3行）生成人體網格和進一步訓練網路更為合適，並將我們的框架提升到最先進的效能（參見第5.4節）。最後，使用2D註釋和重投影錯誤（第4行）的額外端到端微調提供了對網路的輕微改進。在UP-3D情況下，好處很小，因為Priors已經觀察到具有完整3D標註資訊的非常相似的示例，因此2D註釋變得多餘。然而，當使用CMU資料訓練Priors時，從CMU姿勢到UP-3D姿勢的域轉換是重要的，因此這些2D註釋提供了明顯的效能益處。這是一個有趣的實證結果，表明具有重投影損失的訓練不僅可用於端到端細化，而且還可以幫助網路從2D註釋中恢復新資訊。使用我們最好的模型的UP-3D的一些定性結果如圖3所示。

5.4。與最先進的比較

UP-3D：我們與Lassner等人的兩種最先進的直接預測方法進行比較。[22]和Tan等人。[43]。我們不包括SMPLify方法[7]，因為該演算法的一個版本用於生成該資料集的標註資訊，因此我們觀察到許多估計的重建與標註資訊的差異很小。對於[22]，我們使用公開可用的程式碼來生成預測。完整的結果顯示在表2中。我們的方法在很大程度上優於其他兩個基線。值得注意的是，[43]的一個版本使用了超過100k的影象（大多數是合成的），具有標準資訊的姿勢和形狀引數來直接監督網路(line‘Direct’)，其表現優於我們無法訪問此資料的方法。最後，在圖4（論文中寫的是3，應該是寫錯了）中，我們提供了與我們最接近的競爭對手的定性比較，[22]的直接預測方法。

SURREAL：我們與兩種最先進的方法進行比較，一種是基於迭代優化，SMPLify[7]，一種是基於直接預測[22]。我們使用兩種方法的公開可用程式碼來生成預測。對於我們的方法，我們使用CMU資料訓練PosePrior，我們發現這些資料比UP-3D更通用。此外，我們分別為女性和男性受試者訓練兩個ShapePriors，因為此資料集已知性別。我們強調測試是在資料集的Human3.6M部分進行的，以避免與不同方法（影象或先驗方面）的訓練有任何重疊。完整的結果如表3所示。由於Lassner等人僅提供非性別特定的形狀模型，我們還報告僅考慮姿勢估計的結果，並假設已知的形狀引數。我們的方法優於其他兩個基線。對於這個資料集，我們觀察到由於具有挑戰性的彩色影象（低照度，脫離環境背景等），2D檢測比通常更嘈雜，為迭代優化方法提供了一些困難故障[7]。相比之下，我們的方法更能抵抗這些在大多數情況下恢復連貫3D形狀的嘈雜情況。

Human3.6M：最後，對於Human3.6M，我們僅評估估計的3D姿勢，因為沒有可用的體形標註資訊。我們的網路與以前相同（Prior在CMU上訓練），但是，我們使用3D關節誤差進行監督（等式2），因為焦點在於姿勢。其中，我們與SMPLify方法[7]和Lassner等人的直接預測方法進行了比較。[22]。與我們比較的其他方法類似，我們不會使用此資料集中的任何資料進行培訓。詳細結果如表4所示。我們的方法再次優於其他基線。有些工作（指其他人的演算法）報道了Human3.6M的更好的結果（例如，[27,31]），但他們只是通過利用該資料集的訓練資料進行訓練。

5.5。提升SMPLify

在上一節中，我們驗證了我們的直接預測方法可以通過單個預測步驟實現最高水準的結果。但是，我們希望通過與迭代優化解決方案互補，使我們的方法具有更大的適用性。實際上，在這裡我們證明了我們的直接預測可以是一個有用的初始化，併為SMPLify方法提供可靠的錨點[7]。

為了簡單起見，我們只對SMPLify優化進行了少量修改。首先，我們使用我們預測的姿勢作為初始化，而不是典型的均值姿勢。此外，我們避免了分層四步優化，並且我們只需一步即可限制整個過程。多階段優化的原因是探索姿勢空間並獲得大致正確的姿勢估計。但是，使用我們預測的姿勢作為初始化會使這種搜尋變得不必要，因此我們只需要先前複雜優化方案的最後一步。最後，我們在優化中增加了一個數據項：

以避免偏離我們預測的錨點姿態。與[7]類似，我們使用Geman-McClure損失函式ρ[13]進行優化。這種錨定通常不會影響輸出的質量，但它可以加速收斂。我們也可以使用形狀引數作為錨點，但我們觀察到姿勢對優化的影響大於形狀對優化的影響。

對於我們的評估，我們使用SMPLify的公共實現，並在LSP測試集上執行原始程式碼以及我們的錨定版本。錨定版本的平均速度比平常SMPLify快三倍。更重要的是，這種加速也帶來了定量的效能優勢。在表5中，我們通過在影象上投影3D形狀估計來呈現不同SMPLify版本的分割準確度。為了證明我們的錨定版本的效能優勢是不平凡的，我們報告了在具有標註資訊的2D關節和輪廓上執行SMPLify的結果。圖5顯示了錨定版本的改進擬合。這些結果驗證了我們的直接預測方法的額外好處，因為它還可以增強依賴迭代優化的當前管線。

5.6。執行時間

我們的方法需要來自ConvNet的單個前向傳遞來估計全身3D人體姿勢和形狀。這在TitanX GPU（顯示卡）上僅轉換為50毫秒。相比之下，SMPLify[7]報告大約1分鐘的優化，而公開可用（未優化）的程式碼平均每個影象執行3分鐘。當地標數量增加到91時，Lassner等人[22]報告說SMPLify優化可以慢兩倍。這使我們的直接預測方法比最先進的迭代優化方法快三個數量級。關於其他直接預測方法，Lassner等人。[22]報告的執行時間為378毫秒，但我們的端到端框架表現出了明顯更好的效能。

6.總結

本文的目的是提出一種可行的基於ConvNet的方法，從單一彩色影象預測3D人體姿勢和形狀。我們解決方案的核心部分是在端到端框架中結合人體形狀模型SMPL。通過這種包含，我們實現了：a）從2D關鍵點和輪廓來預測引數，b）在訓練時使用per-vertex損失監視表面生成全身3D網格，以及c）整合可微分渲染器，用於使用2D註釋進行進一步的端到端細化。我們的方法在相關基準測試中獲得了最先進的結果，優於以前的直接預測和基於優化的3D姿態和形狀預測解決方案。最後，考慮到我們的方法的效率，我們展示了它加速和改進典型的優化管道的潛力。

圖1.我們框架的示意圖。（a）最初的ConvNet，Human2D，使用2D姿勢資料[19,4]進行訓練，從單個彩色影象預測2D熱圖和掩模。（b）兩個網路使用引數模型的例項進行訓練,估計統計模型SMPL[25]的引數。PosePrior估計來自關鍵點的引數（θ），並且ShapePrior估計來自輪廓的形狀引數（β）。（c）通過將全身3D網格投影到影象並優化投影與2D註釋（關鍵點和掩模）的一致性，可以對框架進行端到端微調，而不需要具有3D形狀標註資訊的影象。藍色部分（網格生成器和渲染器）表示沒有可學習引數的元件。

圖

【翻譯論文】Learning to Estimate 3D Human Pose and Shape from a Single Color Image （CVPR 2018）

因為科研的需要，最近閱讀了這篇文章，裡邊的一些術語儘量的翻譯的專業一點，如有不恰當的地方歡迎個位評論指正，還有就是如有涉及到版權的問題，請及時聯絡本人，本人會立馬刪除

【翻譯論文】Learning to Estimate 3D Human Pose and Shape from a Single Color Image （CVPR 2018）

learning to Estimate 3D Hand Pose from Single RGB Images論文理解

論文閱讀計劃2(Deep Joint Rain Detection and Removal from a Single Image)

【學習排序】 Learning to Rank中Pointwise關於PRank演算法原始碼實現

【學習排序】 Learning to Rank 中Listwise關於ListNet演算法講解及實現

【iOS-ARKit】掃描和檢測3D物件-Scanning and Detecting 3D Objects

【藍橋杯】第六屆國賽C語言B組 1.積分之迷（水題）

【藍橋杯】第七屆國賽C語言B組 2.湊平方數（dfs+STL）

【REST API】在全屏或指定區域範圍內尋找指定圖片的座標（找圖）

vue+element ui 學習筆記【table篇】table預設選中選中一行setCurrentRow(row)以及預設選中多行toggleRowSelection（row,selected）

【開發工具】JAVA效能分析：8、超詳細的JProfiler執行緒分析（官方中文版）

【設計模式】中介者模式：設計模式中的解耦神器！！（附上demo）

【程式設計初學者】建立自己的開源專案5-在主分支上建立新分支（myeclipse+git）

論文閱讀筆記之——《Practical Signal-Dependent Noise Parameter Estimation From a Single Noisy Image》

【論文翻譯】中英對照翻譯--（Attentive Generative Adversarial Network for Raindrop Removal from A Single Image）

【jenkins git】Failed to connect to repository:Error performing command:git.exe ls-remote-h

【Paper Reading】Learning while Reading

論文學習:Learning to Generate Time-Lapse Videos Using Multi-StageDynamic Generative Adversarial Networks

【CodeForces - 278C 】Learning Languages（並查集，思維）

【看論文】之《西紅柿果實目標識別方法研究-基於模糊聚類演算法_王富春》

【翻譯論文】Learning to Estimate 3D Human Pose and Shape from a Single Color Image （CVPR 2018）

因為科研的需要，最近閱讀了這篇文章，裡邊的一些術語儘量的翻譯的專業一點，如有不恰當的地方歡迎個位評論指正，還有就是如有涉及到版權的問題，請及時聯絡本人，本人會立馬刪除

相關推薦