3D形狀補全新突破:MIT提出結合對抗學習形狀先驗的ShapeHD
單檢視 3D 形狀補全或重建具有挑戰性。在給定單檢視輸入的情況下,ground truth 的形狀是不確定的。現有的全監督方法無法解決這個問題。本文提出了 ShapeHD,通過將深度生成模型與對抗學習的形狀先驗相結合,超越單檢視形狀補全和重建的極限。實驗證明,ShapeHD 在多個真實資料集的形狀補全和形狀重建方面都遠遠超過了當前最高水平。
圖 1. 研究者的模型使用單深度影象或 RGB 影象中的精細細節補全或重建物件的完整 3D 形狀。
讓我們從一個遊戲開始:圖 1 展示了一個深度影象或彩色影象以及兩種不同的 3D 形狀渲染圖。哪一個看起來更好?
在這幅圖中,研究者展示了兩個例子,每個例子包括一個輸入影象、兩個 ground truth 的檢視,以及兩個結果圖。研究者重建的形狀高質且富含細節,並且在人類調研中的選擇率分別是 41% 和 35%。研究者的模型在測試期間採用單個前饋傳遞且無需任何後處理,因此非常高效(<100 ms)、實用。
我們在亞馬遜 Mechanical Turk 平臺上向 100 人提出這個問題。59% 的人選擇重建的飛機 A,35% 的人更喜歡重建的汽車 A。這些數字表明人們對這兩種情況的偏好存在分歧,這些重建的質量接近,而且他們的感知差異相對較小。
實際上,對於每個例項,本文介紹的模型的輸出是重建結果之一,另一個是 ground truth。
在本文中,研究者的目標是超越從單個深度影象到 3D 形狀補全和從單個彩色影象到 3D 形狀重建的極限。最近,研究者利用巨大的三維資料集 [5,60,59] 在這些任務上取得了令人印象深刻的進展 [7,52,8]。
這些方法中的許多方法通過使用深度卷積網路來生成可能的 3D 形狀來應對問題的病態本質。利用深度生成模型的力量,他們的系統學會避免生成極不真實的形狀(圖 2b)。
然而,從圖 2c 中我們意識到,受過監督訓練的網路建模失敗還存在歧義。對於單檢視影象,存在多種自然形狀,可以很好地解釋看到的結果。換句話說,每個觀察到的結果都沒有確定的 ground truth。通過純粹的監督學習,網路傾向於產生平均形狀,這些形狀由於歧義的存在而將懲罰最小化。
為了解決這個問題,研究者提出了 ShapeHD,通過將深度體積卷積網路與對抗網路學習的形狀先驗相結合來補全或重建 3D 形狀。學到的形狀先驗只有在生成的形狀脫離實際時才對模型進行懲罰,在偏離 ground truth 時不進行懲罰。
這解決了上面討論的難題。研究者的模型通過對抗學習來描述這種自然性損失,該研究課題近年來受到了極大的關注,並且仍在迅猛發展 [14,37,57]。
在多個合成和真實資料集上的實驗表明,ShapeHD 在單檢視 3D 形狀補全和重建方面表現良好,比最先進的系統表現更好。進一步分析表明,網路學會了瞭解有意義的物件的子部分,自然模組隨著時間的推移確實有助於表徵形狀細節。
圖 2. 單檢視 3D 形狀感知中的兩個歧義等級。對於每個 2D 檢視(a),存在許多可能的 3D 形狀可以很好地解釋這個檢視(b,c),但只有一小部分符合真實的日常形狀(c)。利用深度網路進行識別的方法在一定程度上減少了這一層面的歧義。
論文:Learning Shape Priors for Single-View 3D Completion and Reconstruction
論文連結:ofollow,noindex" target="_blank">https://arxiv.org/pdf/1809.05068v1.pdf
摘要:單檢視 3D 形狀補全或重建具有挑戰性,因為一個檢視可能對應許多可能的形狀,大多數情況不合情理且沒有對應的自然物件。該領域的最新研究是通過利用深度卷積網路的表徵能力來解決這個問題。事實上,還存在另一種常常被忽視的歧義:在合理的形狀中,仍有多種形狀可以很好地對應 2D 影象;即,在給定單檢視輸入的情況下,ground truth 的形狀是不確定的。現有的全監督方法無法解決這個問題,而且通常會產生表面光滑但沒有精細細節的模糊平均形狀。在本文中,我們提出了 ShapeHD,通過將深度生成模型與對抗學習的形狀先驗相結合,超越單檢視形狀補全和重建的極限。學習到的先驗知識作為一個正則化向,只有在它的輸出脫離現實而非簡單的偏離 ground truth 時才會對模型進行懲罰。因此,我們的設計解決了前面提到的兩種歧義。實驗證明,ShapeHD 在多個真實資料集的形狀補全和形狀重建方面都遠遠超過了現有最高水平。
圖 3. 對於單檢視形狀重建,ShapeHD 包含三個元件:(I)用於預測單個影象的深度、表面法線和輪廓影象的 2.5D 輪廓估計器;(II)3D 形狀補全模組,該模組根據輪廓掩膜深度和表面法線影象補全 3D 形狀; (III)用作自然損失函式的對抗預訓練卷積網。在微調 3D 形狀補全網路時,我們使用兩種損失函式:輸出形狀的監督損失,以及預訓練鑑別器提供的自然損失。
單檢視形狀補全
圖 5. 3D 形狀補全模型的結果,以及現有技術 3DEPN [8] 和研究者的沒有自然損失的模型的對比。研究者發現對抗訓練的自然損失有助於修復錯誤、新增細節(例如第 3 行中的機翼、第 6 行中的汽車座椅和第 8 行中的椅子把手)及撫平平面表面(例如第 7 行的沙發)。
表 1. ShapeNet 上的 3D 形狀補全的平均 IoU 分數(323)和 CD [5]。我們的模型遠遠超過了現有最高技術水平。可學習的自然損失不斷改善本文的結果和 ground truth 之間的 CD。
圖 6. 來自物理掃描器的深度資料的 3D 形狀補全的結果。研究者的模型能夠從單檢視中很好地重建形狀。從左到右:輸入的深度圖片,補全結果的兩個檢視以及物件的彩色影象。
3D 形狀重建
圖 10. Pix3D 上的單檢視 3D 重建 [45]。對於每個輸入影象,研究者展示了通過 AtlasNet、DRC、ShapeHD 的重建效果圖以及 ground truth。研究者的 ShapeHD 重建完整的 3D 形狀,具有接近 ground truth 的精細細節。
圖 11. ShapeHD 處理深度圖中細節的視覺化。第 1 行:車輪探測器。第 2 行:椅背和椅子腿探測器。左邊對應於跨步模式。第 3 行:椅子臂和椅子腿探測器。第 4 行:飛機發動機和曲面探測器。右側對應跨類別的特定模式。
圖 12. 使用自然損失的 ShapeHD 隨著時間推移的演變圖:隨著細節的增加,預測的形狀變得越來越逼真。