觀察運動推斷物體材料,MIT 提出「視覺+運動」物理基元分解
目前機器學習模型僅通過視覺觀察已經能有效還原物體的 3D 形狀,但仍然不能推斷準確的物理引數,例如材料性質。MIT CSAIL 的研究者提出了結合視覺觀察和運動軌跡觀察的物理基元分解方法,可以將物體準確地分解為不同材料的元件,預測運動軌跡,甚至像人一樣目測「你」的重量。
人們通過握住手柄並用其頭部擊打來使用錘子,而不是反過來。在這個簡單的動作中,人們展示了他們對於功能部件的理解 [37, 43]:一種工具或任何物件可被分解為基於基元的元件,每個元件都具有不同的物理性質、功能性和可供性 [19]。
如何建造像人一樣具有工具解構能力的機器?在本文中,MIT CSAIL 的研究者解決了物理基元分解(PPD)的問題—使用一些具有物理引數的形狀基元來解釋物件的形狀和物理性質。鑑於圖 1 中的錘子,我們的目標是建立一個模型能恢復錘子的兩個主要組成部分:一個高大的木製圓筒作為其手柄,一個小型的金屬圓筒作為其頭部。
圖 1:左邊是一個錘子,右邊是其物理基元分解。
對於這項任務,我們需要一個物理的、基於元件的物件形狀表徵,它對物件幾何和物理性質進行建模。然而,這種表徵的真實標註是難以獲得的:像 ShapeNet [8] 這樣的大型形狀庫通常對物件元件的標註是有限的,更不用說物理性質了。這主要是由於兩個原因。首先,標註物件元件和物理性質是勞動密集型的,需要大量的領域專業知識,而現有的眾包平臺都無法提供這些知識。其次,真實標註中也存在內部模糊性:不可能僅僅通過影象或視訊去精確地標註物件潛在的物理性質,比如密度。
讓我們更多地思考這些表徵的用途。我們希望物件表徵可以如實地編碼其幾何性質;因此,它需要能夠解釋我們對於物件外觀上的視覺觀察結果。此外,因為該表徵對物件物理性質進行建模,它應該有效地解釋物件在各種物理事件中的行為。
受此啟發,研究者提出了一個新穎的正規化,能從視覺觀察和物理互動中學習基於元件的物件表徵。從單張影象和體素化形狀開始,模型恢復幾何基元並從紋理中推斷它們的物理性質。以這種方式推斷的物理表徵肯定是不確定的;因此,它僅作為物理形狀的模型先驗。在物理事件中觀察物件行為提供了至關重要的附加資訊,因為具有不同物理性質的物件在物理事件中的表現不同。模型結合附加資訊和先驗得出最終的預測。
研究者在三種情況下評估物理基元分解的系統。首先,生成一個合成的積木塔資料集,其中每個積木具有不同的幾何和物理性質。通過利用外觀和運動線索,模型能成功地重建物理基元。其次,研究者在一套合成工具上評估系統,展示其對常見形狀的適用性。最後,研究者在動態場景中構建一個全新的真實積木塔資料集,並評估模型對真實視訊的泛化能力。
進一步,研究者進行了控制變數實驗以瞭解每種資訊源對最終結果的影響。我們還進行了人類行為實驗,以此來對比模型和人類之間的表現。在「哪個積木塊更重」的實驗中,我們的模型與人類的表現相當。
本文的貢獻有三部分。首先,提出了物理基元分解的問題—依據物理基元學習一個緊湊的、解耦的物件表徵。其次,提出了一種新穎的學習正規化,它學習通過物理基元表徵形狀以解釋它們的幾何與物理性質。第三,證明了本研究提出的系統可以同時在合成數據和真實資料中取得良好的效能。
論文:Physical Primitive Decomposition(物理基元分解)
論文地址:https://arxiv.org/pdf/1809.05070v1.pdf
摘要:物體由零件組成,每一零件都有不同的幾何性、物理性、功能性和可供性。開發這樣一個分散式的、物理的、可解釋的物件表徵將有助於智慧體更好地進行探索並與外界進行互動。在本文中,我們研究了物理基元分解—通過物件的元件來理解物件本身,每一元件具有幾何與物理性質。由於有關物件元件和物理性質的標註資料很少,我們提出了一種新型範式,其通過解釋物件的外觀和物理事件中的行為來學習物理基元。我們的模型在合成與真實場景中的積木塔和工具上表現良好;我們同時證明了視覺和物理上的觀察通常提供互補的訊號。進一步,我們進行了控制實驗和行為實驗,以更好地理解我們的模型並與人類的表現進行對比。
圖 2:(a)是基元分解,(b)是物理基元分解。兩個任務都試圖將一個物件轉化為一組具有不同用途的基元:前者的目標是重建形狀,而後者的目標是恢復幾何與物理性質。
圖 3:從視覺和物理觀察上推斷物理引數的難點:具有不同物理引數的物件可能擁有(a)相似的視覺外觀或(b)相似的物理軌跡。
方法概述
在本節中,我們討論了物理基元分解(PPD)問題的方法,圖 4 展示了方法框架。
圖 4:PPD 模型概覽。
僅僅通過視覺或物理觀察來推斷物理引數是很困難的。這是因為具有不同物理引數的兩個物件可能擁有相似的視覺外觀(圖 3 a)或相似的物理軌跡(圖 3 b)。因此,我們的模型將這兩種型別的觀察都作為輸入:
-
視覺觀察。我們將一個體素化形狀和一張影象作為輸入,因為它們可以提供有價值的視覺資訊。體素能幫助我們恢復物件幾何,同時影象包含物件材質的紋理資訊。請注意,即使使用體素作為輸入,推斷幾何引數仍是非常重要的:模型需要學習分割物件的 3D 元件—這是一個未解決的問題 [44]。
-
物理觀察。為了解釋物件的物理行為,我們也需要在一些物理互動之後觀察它的響應情況。在這項工作中,我們選擇使用 3D 物件軌跡而不是 RGB(RGB - D)視訊。它的抽象性使得模型能夠更好地從合成數據遷移到真實資料,因為合成視訊與真實視訊可能大不相同;相比之下,生成看似逼真的、合成的 3D 軌跡很容易。
實驗
我們在三種不同的設定下評估 PPD 模型:合成的積木塔,其中的積木塊具有各種材質和形狀;具有更復雜幾何形狀的合成工具;積木塔的真實視訊,以證明模型在真實世界場景中的遷移能力。
分解塊狀塔
圖 5:左邊是我們積木塔資料集中的物件樣本,右邊是模型以不同組合的觀察作為輸入,得出的定性結果。
表 2:積木塔上物理引數估計的定量結果。將外觀和物理性質結合能幫助我們的模型更好地估計物理引數,並且我們的模型比其他所有標準線都表現得好。
分解真實物件
圖 7:來自真實世界的積木塔資料集中,六個取樣幀的物件及其物理軌跡。如最後兩行所示,具有相似視覺外觀的物件可能擁有不同的物理性質,而我們只能通過它們在物理事件中的表現區分開來。
圖 8:採用不同組合的觀察作為輸入,我們模型(在真實世界的積木塔上)的定性結果。
圖 9:以不同組合的觀察結果作為輸入時的學習曲線。當紋理和物理的監督資訊可用時,我們的模型學習得更好、更快。
圖 10:物理引數估計的混淆矩陣。兩種型別觀察所提供的資訊是不同的:(a)以紋理作為輸入時,我們的模型傾向於在材料的可能密度值內進行推斷(見表 1);(b)以物理作為輸入時,我們的模型僅在近似值間產生誤差。
圖 11:在「哪個積木更重」問題上,人類、模型和真實資料的預測結果。我們的模型與人類表現相當,其響應情況與人類表現有關。
結論
在本文中,我們制定並研究了物理基元分解問題(PPD),即用一組基元近似一個物件,解釋它的幾何與物理性質。為此,我們提出了一個新穎的正規化,其將視覺和物理觀察作為輸入。我們在幾組不同的設定上評估我們的模型:合成的積木塔、合成的工具以及真實世界的物件。我們的模型同時在合成數據與真實資料上取得良好效能。