1. 程式人生 > >伯克利推出「看視訊學動作」的AI智慧體

伯克利推出「看視訊學動作」的AI智慧體

伯克利曾經提出 DeepMimic 框架,讓智慧體模仿參考動作片段來學習高難度技能。但這些參考片段都是經過動作捕捉合成的高度結構化資料,資料本身的獲取需要很高的成本。而近日,他們又更進一步,提出了可以直接模仿 Youtube 視訊人物高難度動作的新框架 SFV。

從 YouTube 視訊中學習技能的智慧體。

通過 SFV 學習到的智慧體動作還原度很高,並且有很好的泛化至新環境的能力,例如從平地泛化到不規則地形。當然,仍然存在一些難以模仿的動作,例如某某鬼畜騎馬舞。

無論是像洗手這樣的日常任務還是驚人的雜技表演,人類都可以通過觀察他人來學習一些令人難以置信的技能。隨著 YouTube 等開源視訊資料的激增,現在我們比以往任何時候都更容易找到感興趣技能的視訊片段。每分鐘都會有 300 小時的視訊傳到 YouTube 上。但是,對機器人來說,從這些海量的視訊中學習技能仍是一項非常艱鉅的任務。大多數模仿學習方法都需要簡潔的表徵,比如從動作捕捉(mocap)中記錄的表徵。但是獲取 mocap 資料相當麻煩,通常需要大量儀器。Mocap 系統容易侷限於遮擋較小的室內環境,這會限制能夠記錄的技能型別。所以,如果智慧體可以從視訊片段中學習技能就再好不過了。

使用 Mocap 捕捉演員動作並復現 3D 角色的動作(電影《指環王》)。

在本文中,我們展示了一個從視訊中學習技能的框架(SFV)。通過將計算機視覺領域最先進的技術與強化學習相結合,我們的系統使智慧體能夠從視訊中學習各種技能。給定一個單目視訊,視訊中有人表演側手翻或後空翻等動作,我們的智慧體能夠學習在物理模擬中再現該技能的策略,而無需任何手動姿勢註釋。

從視訊中學習全身動作技能的問題在計算機圖形學中受到了一些關注。以前的技術通常依賴於手工製作的控制結構,這些結構對要做的動作加了很大的限制。因此,這些方法限制了可以學習的技能型別,由此產生的動作也看起來非常不自然。最近,深度學習技術在 Atari 遊戲和簡單的機器人任務中進行視覺模仿取得了不錯的結果。但是這些任務在演示和智慧體的環境之間通常只有適度的領域變化,且主要是在動態相對簡單的任務上進行持續控制。

框架

該框架包括三個階段:姿勢估計、動作重建和動作模仿。輸入視訊首先接受第一階段姿勢估計的處理,預測每一幀中角色的姿勢。接下來,動作重建階段將姿勢估計結果固化為參考動作,並修復姿勢估計結果可能帶來的失真。最後,將參考動作輸入到動作模仿階段,利用強化學習訓練智慧體模仿動作。

整個流程包含三個步驟:姿勢估計、動作重建及動作模仿。執行特定動作的人物視訊片段和智慧體模型充當輸入,並學習一種控制策略,使智慧體能夠在物理模擬中再現該動作。

姿勢估計

我們在一個給定的視訊片段中使用一個基於視覺的姿勢估計器來預測動作執行者在每一幀中的姿勢 q_t hat。姿勢估計器建立在人體網格恢復(human mesh recovery)的基礎上,後者使用弱監督對抗性方法來訓練姿勢估計器以預測單目影象中的姿勢。雖然需要姿勢相關注釋來訓練姿勢估計器,但一旦訓練完畢,姿勢估計器就可以應用於沒有任何標註的新影象。

基於視覺的姿勢估計器用於預測人物在每一幀中的姿勢

動作重建

由於姿勢估計器針對每個視訊幀獨立預測人物的姿勢,因此各幀之間的預測可能不一致,導致出現抖動噪聲。而且,儘管基於視覺的姿勢估計器在近些年取得了顯著進展,但它們仍然偶爾出一些大錯,導致出現一些奇怪姿勢。這些噪聲可以呈現物理上無法模仿的姿勢。因此,動作重建階段的作用就是減輕這些噪聲,以產生一些物理上更加可行的參照,使智慧體更加容易模仿。為了做到這一點,我們優化了一種新的參考動作

,以實現以下目標:

公式中的 l_p(Q hat) 使得參考動作與原始姿勢預測更加接近,L_sm(Q hat) 使得相鄰幀的姿勢更加相似,以生成更加連貫的動作。此外,W_p 和 W_sm 是不同損失的權重。

這一過程可以顯著提高參考動作的質量,並且可以修復原始姿勢預測裡的大量噪聲。

動作重建前後的參考動作對比。動作重建修復了一些失真,使參考動作更加流暢。

動作模仿

現在我們得到了參考動作

,接下來我們將訓練智慧體模仿該技能。動作模仿階段使用與模擬 mocap 資料類似的強化學習方法。獎勵函式鼓勵策略將每一幀 t 中模仿智慧體的姿勢和重建參考動作 q^_t 之間的區別最小化,

這種簡單的方法效果非常的好,智慧體能夠學習多種高難度雜技技巧,且每個技巧都僅通過一次視訊展示習得。

智慧體通過模仿視訊片段學習多種技巧。

結果

總之,我們的智慧體可以從 Youtube 的多種視訊剪輯中學習 20 多種不同的技能。

我們的框架可以從視訊演示中學習大量的技能組合。

即使智慧體的形態和視訊中的人物通常很不相同,其學習到的策略仍然可以重現很多種技能。作為更加極端的形態差異的示例,我們還可以訓練一個虛擬的 Atlas 機器人來模仿人類的視訊剪輯中的動作。

虛擬模擬機器人(Atlas)可以通過模仿視訊剪輯學習多種動作組合。

使用虛擬智慧體的一個好處是我們可以利用模仿過程來將其行為泛化到新環境中。這裡我們模擬了讓智慧體學習適應不規則地形的動作,其中原始的視訊剪輯記錄的是在平地上的人物動作。

智慧體在不規則的地形中也能做出模仿動作。

即使新環境和原始視訊的環境很不相同,學習演算法依然發展出了非常合理的策略來應對新的環境。

總而言之,我們的框架真的僅僅是使用了任何人都能想到用來解決視訊模仿問題的明顯方法。關鍵在於將問題分解為更好掌控的組成,為這些組成選擇正確的方法,並有效地將它們整合到一起。然而,視訊模仿技能仍然是一個極有挑戰性的問題,目前仍然有大量的視訊剪輯是我們無法重現的。

靈巧的舞步,例如江南 Style,仍然是很難模仿的。

但令人鼓舞的是,僅通過整合已有的技術,我們就能在這個難題上走出一大步。

論文:SFV: Reinforcement Learning of Physical Skills from Videos

  • 專案展示頁:https://xbpeng.github.io/projects/SFV/index.html
  • 論文地址:https://xbpeng.github.io/projects/SFV/2018_TOG_SFV.pdf

基於動作捕捉的資料驅動的智慧體可以生成高度自然的動作,而且與物理模擬相結合時可以提供對物理干擾、環境變化和形態差異的自然過程響應。動作捕捉仍然是最流行的動作資料來源,但是收集 mocap 資料通常需要配備大量儀器的環境和表演者。在本文中,我們提出了一種方法,使智慧體能從視訊中學習技能(SFV)。該方法基於深度姿勢估計和深度強化學習,允許資料驅動的模仿利用網路上的大量公開視訊片段,如 YouTube 上的視訊。這有可能通過查詢所需動作的視訊記錄來實現快速而簡單的人物控制器設計。所產生的控制器對干擾具有魯棒性,能夠適應新設定,執行基本的物件互動,並能通過強化學習重新定位新形態。我們還進一步證明,該方法可以通過對觀察到的姿勢進行初始化得到的學習控制器進行正向模擬,進而根據靜止影象預測人物的可能動作。我們的框架能夠學習各種動態技能,包括運動、雜技和武術。