預見未來!李飛飛等提出端到端系統Next預測未來路徑與活動
隨著深度學習的發展,現在的系統能夠從視訊中分析出豐富的視覺資訊,促進道路事故迴避、智慧個人助理等應用的實現。其中一個重要的分析是預測行人的未來路徑,即未來行為路徑/軌跡預測,這個問題在計算機視覺社群中廣受關注。它是視訊理解中的必要一環,因為檢視之前的視覺資訊來預測未來在很多應用中都是有用的,如自動駕駛汽車、社交感知機器人等。
圖 1:研究目標是聯合預測行人的未來路徑和活動。綠線和黃線表示兩種可能軌跡和可能活動。根據未來活動,行人(右上角)可能走不同的路徑,如黃色路徑「裝載」(loading)和綠色路徑「物品傳遞」(object transfer)。
人類在公共空間中行走通常是有特定目的的,包括進入房間這樣的簡單目的和將東西放入汽車這樣的複雜目的。但是,此類人類意圖在大多數現有研究中是被忽視的。考慮圖 1 的示例,行人(右上角)可能因意圖不同而選擇不同的路徑,如走綠色路徑將東西給另一個人,或者走黃色路徑將東西裝到車裡。本論文受此啟發,著眼於利用視訊中的此類行人意圖聯合建模未來路徑。研究者按照包含 30 種活動的預定義集合來建模意圖,這些活動由 NIST 提供,包括「裝載」、「物品傳遞」等,完整列表詳見表 4。
表 4:物件和活動類別。
該聯合預測模型具備兩大優勢。一,同時學習活動和路徑有助於未來路徑預測。直觀上,人類能夠通過閱讀其他人的肢體語言來預期他們是要過馬路還是繼續沿人行道走。在理解這些行為後,人類可以作出更好的預測。如圖 1 示例,右上行人搬著一個箱子,左下的人在向他揮手。基於常識,我們可能會認為右上行人會選擇綠色路徑。二,該聯合模型不僅提升了對未來路徑的理解,還促進了對未來活動的理解,因其考慮了視訊中的豐富語義語境。這提升了自動視訊分析在公益應用中的能力,如實時事故提醒、自動駕駛汽車和智慧機器人助理。它還可用於一些安全應用,如預測十字路口的行人移動或讓道路機器人幫助人類將物品運送裝載到汽車後備箱。注意,該技術聚焦於預測未來幾秒內的活動和路徑,不適用於非常規活動。
研究者提出了一個多工學習模型 Next,它具備一個預測模組,可同時學習未來路徑和未來活動。由於預測未來活動很難,研究者引入了兩項新技術。一,與大部分現有研究將行人過度簡化為空間中一個點不同,該研究通過豐富的語義特徵來編碼行人,如視覺外觀、身體活動和與周圍環境的互動。二,為了促進訓練,研究者引入了兩個輔助任務用於未來活動預測:活動標籤分類和活動位置預測。在後一個任務中,研究者設計了名為 Manhattan Grid 的離散網格(discretized grid),作為系統的位置預測目標。實驗表明這些輔助任務可改善未來路徑預測的準確率。
該研究是首個在流視訊中進行聯合路徑和活動預測的研究,且首次展示了此類聯合建模可以顯著改進未來路徑預測。研究者在兩個基準(ETH & UCY [22, 15] 和 ActEV/VIRAT [21, 3])上對該模型進行了驗證。實驗結果表明,該方法優於當前最優的基線模型,在兩個常見基準上達到了已釋出研究的最佳結果,且可生成對未來活動的額外預測。總之,該研究有三項貢獻:1)對在視訊中執行未來路徑和活動聯合預測進行了探索性研究,並首次展示了聯合學習的優勢;2)提出了一個多工學習框架,引入了新技術來解決未來路徑和活動聯合預測的難題;3)提出的模型在兩個公開基準上達到了已釋出研究的最佳效能。研究者還進行了模型簡化測試,驗證該研究所提出子模組的貢獻。
網路架構
圖 2:模型架構概覽。給定行人的行為視訊幀序列,該研究提出的模型可以利用行人行為模組和行人互動模組編碼豐富的視覺語義資訊形成特徵張量。該研究提出了全新的行人互動模組,可以同時考慮行人-場景和行人-物件關係,對人的活動和位置進行聯合預測。
圖 2 展示了 Next 模型的整體網路架構。多數現有研究將空間中的人簡化為一個點,但本文中的模型利用兩個模組編碼與每個人的行為及其與環境互動相關的豐富視覺資訊。該模型主要組成部分如下所示:
-
行人行為模組:從行人的行為序列中提取視覺資訊。
-
行人互動模組:著眼於人與周圍環境的互動。
-
軌跡生成器:藉助帶有焦點注意力(focal attention)的 LSTM 解碼器對編碼後的視覺特徵進行總結,並預測未來軌跡。
-
活動預測:利用豐富的視覺資訊預測行人的未來活動標籤。除此之外,研究者還將場景分成多種尺寸的離散網格(其命名為 Manhattan Grid),以計算分類和迴歸,實現穩健的活動位置預測。
圖 3:給定一系列行人幀(左),圖中展示了對應的行人行為模組。研究者提取了人的外觀和姿勢特徵來建模行人的行為變化。
圖 4:圖中展示了行人互動模組,包含行人-場景建模和行人-物件建模。對於行人-物件建模,給定行人視訊幀序列(如紅色框所示),研究者提取了每個時間點人與其他物件之間的空間關係。對於行人-場景建模,研究者將人周圍的場景語義特徵彙集到編碼器中。
圖 5:在多尺度 Manhattan 網格上通過分類與迴歸進行活動位置預測。
圖 6:該研究提出方法與基線模型之間的對比。黃色線路是觀察到的軌跡,綠色線路是預測階段的真值軌跡。藍色熱圖是預測結果。該研究提出的模型還預測了未來活動(在圖中通過文字形式展示)與人體姿態模板(person pose template)。
論文:Peeking into the Future: Predicting Future Person Activities and Locations in Videos
論文連結:https://arxiv.org/abs/1902.03748
摘要:破譯視訊中的人類行為以預測其未來路徑/軌跡以及接下來的舉動在許多應用中都非常重要。受此想法啟發,本論文主要研究聯合預測行人的未來路徑及活動。我們提出了一種端到端的多工學習系統,該系統利用人類行為資訊及其與環境互動的豐富視覺特徵。為了便於訓練,我們引入了兩項輔助任務,一是預測未來活動,二是預測活動將要發生的位置。實驗結果顯示,我們的方法在兩個公開基準上達到了未來軌跡預測的當前最佳效能。另外,除了路徑以外,我們的方法還可以產生有意義的未來活動預測。該結果提供了首個實驗證據,證明對路徑和活動進行聯合建模有助於未來路徑預測。