1. 程式人生 > >斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件 | CVPR2016最佳學生論文詳解

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件 | CVPR2016最佳學生論文詳解

結構遞迴神經網路: 時空領域影象中的深度學習

聯合編譯:陳圳、章敏、Blake

摘要

雖然相當適合用來進行序列建模,但深度遞迴神經網路體系結構缺乏直觀的高階時空架構。計算機視覺領域的許多問題都固有存在高階架構,所以我們思考從這方面進行提高。在解決現實世界中的高階直覺計算方面,時空領域影象是一個相當流行的工具。在本文中,我們提出了一種結合高階時空影象和遞迴神經網路的方法。我們開發了一種可隨意擴充套件時空影象的辦法,這是一種正反饋、差異化高、可同步訓練的RNN混合網路。這種方法是通用的,通過一系列設定好的步驟可以將任意時空影象進行轉化。這種估值計算能解決一系列不同的問題,從人類運動建模到物體迭代,比目前最佳的解決方案還要好一大截。我們希望這種通過高階時空影象和遞迴神經網路的方法能夠提供新的解決方案。

 1.引言

我們生活的世界本質上是結構化的。它包括與在空間和時間上彼此相互作用的組分,形成了一個時空結合物。在這類問題上使用這種結構可以將高階資訊注入學習框架。這一直是計算機視覺和機器學習努力的原因,比如邏輯網、圖片模型和結構化SVMs。這跨越了空間和時間(時空)的結構,在計算機視覺和機器人技術社群相當流行。首先,在現實世界中的人類和環境之間的相互作用是固有時空性的。例如,在烹飪的時候人類既和空間,又和時間中多個物件進行互動。同樣,人的身體(胳膊,腿等)有單獨的功能,但在實際行動中又互相合作。因此,對許多應用來說高階的時空結構和豐富的序列建模能力協同作用是相當重要的。

RNNs的顯著的成功已經證明它們能應用到對許多端對端學習任務。雖然它們已被證明能夠對長序列成功建模,但它們缺乏高階的和直觀的時空結構。時空圖(ST-圖)是一種流行的用來表示這種高階的時空結構的通用工具。圖的節點通常代表該問題的元件,並且邊緣捕捉他們時空相互作用。為了實現上述目標,我們開發用於轉化任意ST-圖形成RNNs的前饋混合物,命名結構-RNN(S-RNN)的通用工具,見圖1所示。

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

圖1

在高階步驟中,給定一個任意的ST-圖,我們先推出它的時間分解成一組因素元件。因素共同確定一個決定,並從ST-圖形的兩邊緣和節點所來源的獨立元件。我們然後語義組因子部件和表示使用一個RNN,這導致所需RNN混合物。這種轉變問題的主要挑戰是:1)使RNN混合儘可能豐富,學習複雜的功能,2)相對於輸入ST-圖的大小保持RNN混合可擴充套件,為了使所得RNN混合物豐富,我們代表每個時空因子(包括節點的因素,邊的因素,和時空邊緣因子)利用每一個RNN。在另一方面,為了保持整體的混合物可擴充套件,但不能失去必要的學習能力,我們利用“因素共享”,並允許類似語義的功能要素共享一個RNN。這導致RNNs的前饋混合物豐富且可擴充套件,它等效於在輸入、輸出和時空關係方面所提供的ST-曲線圖。該混合物也完全差異化的,可以共同作為一個實體和擴充套件的構築。

該方法是原則性通用的,它是適用於可以配製為ST-圖。以前幾個工作已經試圖解決在使用RNNs的集合,但是它們幾乎一致沒有任務特定的具體問題。為了分解或要素共享機制,也沒有利用在制定他們的架構,以確保豐富性和可擴充套件性相似。

S-RNN也是模型化的,它的根本也是一個高階架構。

本文的主要貢獻在於:

l 提出一個通用處理辦法,對於時空圖設計了豐富、可拓展、可同步訓練的RNN混合網路。

l S-RNN比未架構RNN的表現要顯著提高。

l 為了和RNN進行比較,針對幾個時空影象問題對S-RNN的表現與無深度構架網路進行對比,S-RNN表現優異。

2. 相關工作

我們對相關內容進行分類概述。大體來說,我們的工作與現有的科技有三個主要區別:第一是我們是通用不限制與某個特定問題的,第二是提供了一個為了豐富RNN轉移的一個方法。

時空問題

在機器人和計算機視覺領域,需要時間和空間推理來解決的問題非常普遍。包括人類互動視訊,模擬人類運動等。事實上,大多數我們的日常活動在本質上是時空之間。隨著豐富的互動和機器人技術不斷增長,這種形式的推理將變得更加重要。我們評估三個時空問題,:(一)人體運動模擬(二)人體物件互動理解(三)驅動預期。

深度構架混合

以前的工作大多基於建立多個網路和以捕捉,如活動檢測,場景標籤,影象字幕和目標檢測等。然而,這樣的架構大多是設計來處理具體問題,雖然他們展示採用模型深度架構也十分受益。在另一方面,遞迴神經網路是通用的前饋結構。我們的工作是為時空圖問題提供補救措施。

深度影象模型學習

針對架構預測任務,許多工作都將影象模型新增到深度網路中。Bengio等人將CNNs和HMM結合起來用來進行手寫識別。Tomposon等人主要將CNN和MRF用來人類姿勢預估。Chen等人使用和MRF差不多的相似影象分類。

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

圖2:人類活動的時空影象。(a)時空影象記錄人與物體之間的互動。(b)通過邊緣展開時空影象,節點和邊緣都由與其相關的特徵向量進行標註。(c)時空圖的因子圖引數化。

最近的一些研究通過完全連線的CRF模式解決了端對端影象分割。一些研究則使用兩步走的方法及在CRF中減弱深度網路。這些方法曾用於解決多種問題如影象分割,姿勢評價及檔案分析。所有的研究都提倡也展示了在有深層結構中探索有問題的結構。但是,他們不解決時空問題,並且認為結構問題是有具體任務指向的。

條件隨機場模式(CRF)通過學習共同的分佈,其附屬領域位於輸入之間。他們被運用於許多應用程式,包括通常被作為用於時空CRF模式的時空影象。在我們的方法中,我們採用時空影象作為一般影象的表示方法,並使用RNN複合結構進行具像化。與CRF不同的是,我們的方法是有概率性的,並且也不會在輸出之間的共同分佈進行建模。S-RNN通過RNNs在輸出之間的結構分享學習輸出之間的相關性。

3.S-RNN結構

在本段,我們會描述建立S-RNN(Structual RNN)的方法。我們首先以時間空間影象開始,然後用RNN代表每一個因子。RNN模式是通過能捕捉時間空間影象構造和相互聯絡的結構聯絡起來的。

3.1 時間空間影象的表現。

許多運用程式要求時空影象推理過程是使用時空影象建模的。圖2a展示了在活動中人與物之間相互聯絡的時空圖片。圖2b展示的是按照時間順序展開的時空影象。在人與物的互動中,節點的特徵能通過物體和人的姿勢進行表示,邊緣能確定他們的方向。節點標籤表示人的活動以及功能可見性。標籤yvt 會受到節點及節點之間的互動影響,從而導致系統混亂。此類互動會引數化成因子圖,進而能把時空圖的複雜函式引數化成簡單的函式。我們能從時空圖的因子圖表示中得出S-RNN模式。圖2c展示的是圖2a相對應的因子圖。

分享節點之間的因子

在時空圖中的每一個因子都有引數,且需要我們瞭解。不是通過學習每一個節點的特徵,語義上相似的節點能隨意地分享因子。例如所有在時空圖中的“物體節點”{v, w}都能分享共同的節點因子和引數。這一建模選擇能加強相似節點之間的分享。同時也能在不增加引數的情況下,進一步加強通過節點處理時空圖片的靈活性。

根據語義分割節點會導致自然語義的邊緣分割。在所有“人與物的邊緣”{(v, w),(v, w)}是通過相同的邊緣因子建模的。基於語義的分享因子能讓引數化更緊密。實際上,分享引數對於解決節點是基於實際情況的應用十分關鍵。例如,在所有的人與物之間的互動中物體節點的數量會隨著環境的變化而發生改變。因此在沒有節點之間的引數情況下,模式不能適應有更多物體的環境。對於建模的靈活性,邊緣因子不會跨邊緣分享。

我們將節點因子和邊緣因子定義為鄰居,因為它們能共同影響時空影象中的節點標籤。我們將會在構建S-RNN中使用這一定義,因為它能在時空影象中捕捉相互互動。

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

圖3.S-RNN的時空圖片。(a)圖2的時空圖用彩色重新進行了繪製,暗示節點因子和邊緣因子之間的分享。相同顏色之間的節點因子和邊緣因子會進行分享。所有的因子一共有6種,2種節點因子和4種邊緣因子。(b)S-RNN結構中的每一個因子都有一個RNN。節點RNNs和邊緣RNNs 會連線起來形成一個雙向圖。

3.2 來自時空圖片的S-RNN

我們從時空圖的因子圖片中能得出S-RNN結構。時空圖中的因子會按照時間順序執行,且每一步因子都會觀察(節點和邊緣)的特徵,並且會在這些特徵上進行運算。在S-RNN中,我們會用一個RNN代表一個因子。我們會把從節點因子得到的RNNs指代為nodeRNNs,把從邊緣因子中得出的RNNs指代為edgeRNNs。由時空圖表示的相互互動是通過nodeRNNs和edgeRNNs之間的聯絡進行記錄的。

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

在演算法1中,我們能看到建立S-RNN的方法。圖3b展示了用於表示人類活動的S-RNN通過圖3b再一次進行展示。節點S-RNN聯合邊緣S-RNN的輸出,而這些輸出是用於預測節點標籤的。節點RNNs的預測能通過邊緣RNNs相互發生作用。每一個邊緣RNN能處理在時空圖中有聯絡的節點之間的一個特殊語義關係。

3.3 訓練S-RNN模式

為訓練S-RNN模式,每一個時空圖節點的特徵都與節點連線起來進入S-RNN結構中。在訓練時,在預測中的錯誤能通過向前傳播的節點RNN和邊緣RNN進行反向傳播。在此方法中,為預測節點標籤,S-RNN會對節點和邊緣的特徵進行非線性連線。

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

圖4:向前傳播的人類節點v展示了與圖3相對應的結構分佈。

圖3展示的是通過S-RNN向前傳播的人類節點。圖4展示的是相同向前傳播的結構細節。特徵的集合與連線相反,對於解決有易變但卻有固定結構的物體節點十分重要。因為物體節點計算會隨著環境變化而發生變化,所以用固定長度的向量特徵表示可變環境極具挑戰性。依經驗來看,增加特徵比合並均值更有用。我們推測增加部分會維持目標計算和時空影象特徵,而合併均值會平衡邊緣數。

引數共享及構建的特徵空間。S-RNN模式的一個重要方面是跨越節點標籤的引數分享。當RNN在向前傳播時,節點標籤之間的會進行引數分享。

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

圖5。不同的時空人物。我們使用S-RNN去跟蹤3種不同的時空問題。

4.實驗

為保證S-RNN的通用性,我們展示了三個不同的時空問題,如圖5所示。這一運用包括:(i)基於活動資料對人類活動進行建模;(ii)人類活動的探測和預測;(iii)基於現實世界資料進行預期假設。

4.1 對人類活動進行建模和預測

人類的身體是分開但卻聯絡緊密部分的典型代表。人類活動包括不同部分(如胳膊,腿,脊椎)之間複雜的時空作用,而這會導致可見的移動,如走路,吃飯等。在此實驗中,我們用複雜的時空圖片代表人的活動,並試著用S-RNN進行建模。從活動中收集資料再進行活動預測這一方面,我們建模方法超過其他未進行建模的深層結構。此外一些方法曾基於高斯法,玻爾茲曼法(RNMs)和RNN對人類活動進行過探索。最近,Fragkiadaki等其他人提議進行編碼—RNN—解碼方法進行探索,因為此方法曾取得較好的預測資料。

用於人類活動的S-RNN結構

S-RNN結構是按照圖5的時空圖流程執行的,見圖5a。據圖可是,脊椎是身體所有部分的相互作用,胳膊和腿相互作用。時空圖會自動轉化為S-RNN結構,見3.2部分。S-RNN對身體的每一個部分(胳膊,腿,脊椎)標上3個節點RNN,對於時空圖之間的相互作用建模會標上4個邊緣節點,而他們之間的時空聯絡會標上3個邊緣RNN。對於邊緣RNN和節點RNN我們分別使用FC(256)-FC(256)-LSTM(512)和LSTM(512)-FC(256)-FC(100)-FC(·)結構,並且跳過了輸入和輸出之間的關係。節點RNN是不同身體部分的框架連線。為在訓練時在動作捕捉時增加噪音。而這會刺激課程學習並能幫助預測動作與人類動作相符。

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

圖6:預測測試物件的飲食活動。在非週期性行為中,ERD和LSTM-3LR努力的模仿人類行為。S-RNN,另一方面,在短期內模擬地面實況,並且長期產生類似人類的行為 。在沒有(w/o)edgeRNNs情況下,行為在一些預定站著的位置上凍結了。見視訊。

我們聯合訓練RNNs,以便最小化預測捕獲幀和地面實況之間的歐幾里得幾何學的損耗。訓練的細節見專案網頁補充材料。

評估體系

我們在H3.6m動作捕捉資料集中將S-RNN和最先進的ERD結構進行了對比。同時也與3層LSTM架構進行了比較(LSTM-3LR),這被用來作基線。為了預測運動,我們遵循[ 14 ]中的實驗設定。兩次向下取樣H3.6,並且在專案6中訓練,在專案S5中測試。為了預測,我們首先將初始捕獲幀注入結構中,然後預測未來的幀。緊接著,我們考慮了行走,飲食,和抽菸行為。除了這三個,還考慮了討論行為。

預測人類非週期性的行為是非常具有挑戰性的任務

在H3.6資料集中,飲食、吸菸和討論作為的重要組成部分是非週期性的,而行走行為大部分是週期性的。我們在三個方面表明了擁有一個基礎結構的好處:(i)對於複雜的非週期性運動,我們提出了視覺化和定量化的結果。(ii)我們預測人類行為的時間比最高的水準還要長兩倍。對於非週期性活動,這非常具有挑戰性的;(iii)我們展現了S-RNN非常有趣的學習語義概念,並且通過混合人體行為展示其模組性。非結構化的深層結構,如[ 14 ]不具備這樣的模組化。

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

表1運動預測角度誤差。初始運動1毫秒後。平均結果超過了8個測試專案上,每個活動的初始運動序列。

運動預測的定性結果

圖6顯示了預測1000ms內人類“飲食”的行為——散步時喝飲料的專案。S-RNN短期內保持近似地面實況,並長期產生類似人類行為。移除edgernns,人體身體部分變得獨立,並通過引數停止相互作用。因此,沒有edgRNN的骨架,在一些預定的位置會凍結。LSTM-3LR面臨漂移問題。在很多測試例項中它漂移到了人類行走的平均位置。ERD產生的行為在短時間內保持類似於人類,但在長時間時,它漂移到不像人類的行為。與S-RNN不同,在複雜的非週期性活動中,這是ERD常見的結果。此外,在許多測試例項中ERD產生的人類行為並不流暢。更多例項見專案網頁。

定量評價

我們遵循Fragkiadaki等人的評價指標,並在表1的預測捕獲幀和地面實況之間提出了3D角度誤差。ERD模擬人類運動在質量方面比LSTM-3LR要好。然而在短期內,它模仿地面的實況沒有LSTM-3LR效果好。Fragkiadaki 等人同樣注意到了ERD和LSTM-3LR之間的權衡。另一方面,S-RNN在短期內預測行為的效果比LSTM-3LR和ERD都要好。所以S-RNN在短時間內模擬地面實況,並在長時間內產生人類的行為。以這種方式,它能夠很好地處理短期和長期預測。由於人體行為的隨機性、根據地面實況的長期預測(>500ms)會變得顯著不同,但它仍然可以描繪人類的行為。鑑於這個原因,表1中的長期預測資料並不能有效的代表演算法的建模能力。同時,我們也觀察到討論對於演算法來說是最具挑戰性的非週期運動。

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

圖7S-RNN記憶細胞視覺化。當腿向前運動時,(左)腿部nodeRNN的一個細胞激勵。(右)將手靠近臉時,手臂nodeRNN的一個細胞激勵。我們在飲食和抽菸活動中假設了相同的細胞(見視訊)。

使用者研究

我們要求使用者動的速率運在1至3李克特量表之間。據使用者研究,S-RNN表現的最好。結果見補充材料。

總結

非結構化方法如LSTM-3LR和ERD,努力在複雜的行為方面,模擬更長時間的人類運動。S-RNN的良好效能,歸功於它的結構是通過底層st-圖模擬人類的行為。S-RNN用nodeRNN分別模擬身體的每一個部分,並且用edgeRNNs捕獲它們之間的相互運動,以便產生相干運動。

4.2.深入RNN結構

我們現在展示幾個S-RNN結構的內部檢視,並演示結構的模組化,確保它能夠產生混合的人體運動。

記憶細胞的視覺化 。我們研究了S-RNN記憶細胞是否能夠代表有意義的語義替代運動。有人在更早的問題中研究了語義細胞。圖7中展示了,腿部nodeRNN的一個細胞學習向前移動的語義行為。腿向前移動時細胞積極的激勵(紅色)和向後運動時消極的激勵(藍色)。當主體先前運動時,細胞選擇左腿和右腿的激勵。右腿更長時間的運動,對應了右腿需要更長執行的步驟。同樣的,圖7中展示了,手臂nodeRNN的一個細胞學習把手靠近臉概念的過程。主體在飲食或者抽菸時將手靠近臉細胞激勵是一樣的。只要手緊貼臉部,細胞就保持活躍。見視訊。

生成混合人體運動

我們通過生成新的尚未有意義,而且不在資料集中的行為。展示模組化架構的靈活性,這種模組化是有趣的,而且它已被探討用於產生不同的行為風格。由於存在一個潛在的高層結構,我們的方法允許在RNNs和S-RNN之間,交換不同運動風格的訓練結構。利用該優勢,我們建立了一個新的S-RNN結構,它產生了人類用單腳先前跳躍的混合行為,如圖8所示。為了該試驗,我們使用了不同的nodeRNNS模擬左腿和右腿。我們訓練了兩個獨立的S-RNN模型–一個更慢的和一個更快的模型(通過向下取樣資料)–然後換左腿nodeRNN訓練模型。由此產生一個有著更慢的左腿卻更快的人,用左腳向前跳躍,以便跟上比它快兩倍的右腿。非結構化的結構如ERD,不具備這種靈活性。

圖8(右)用迭代次數檢查了測試和訓練誤差。S-RNN和ERD都收斂到了相似的訓練誤差,然而,S-RNN推廣的更好,因為進行下一步預測時它有著更小的測試誤差。補充中進行了討論。

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

圖8(左)生成混合行為(見視訊)我們通過“人單腳向前跳躍”的混合行為,展示了S-RNN的靈活性。(右)訓練和測試誤差。由於有著更小的測試誤差,S-RNN比ERD推廣的更好。

4.3 人類活動檢測與預測

在該部分提出了S-RNN用於模擬人類行為。我們考慮了CAD-120資料集,它涉及豐富的人類物件相互作用活動。每個活動包括一系列的子活動(如運動、飲酒等)和物件功能可視性(例如,可觸性,飲用性等),它能隨著活動程序而演變。檢測和預測的子活動及功能可見性確保了私人機器人去幫助人類。然而,這問題是具有挑戰性的,因為它涉及複雜的相互作用——在活動過程中人類與多個物件相互影響,物件之間也相互作用(例如,將水從“玻璃”倒進一個“容器”),這使得它非常適合來評估我們的方法。Koppula等人用ST圖表示了這種豐富的時空相互作用,如圖5b所示的,並且用時空CRF模擬它。在實驗中,我們展示了用S-RNN收益量模擬相同的st圖會產生卓越的結果。其中,我們使用了[29]中的節點和邊緣功能。

圖3b顯示了我們的S-RNN結構模擬st圖。由於物件的數目隨環境變化,物件節點和人類的物體邊緣之間的因子共享變得至關重要。在S-RNN中,Rv2和RE1分別處理所有的物件節點和人類對像邊緣。這使得固定S-RNN架構可以處理不同大小的ST圖。對於edgeRNNs,我們使用了一個大小為128的單獨層LSTM。每一步,人類nodeRNN都會輸出子活動標籤(10級),並且專案nodeRNN會輸出功能的可見性(12級)。觀察ST圖至時間t,我們的目標是檢測在目前時間t的子活動和可見性功能標籤。並預測他們在時間步長為T + 1的標籤。為了檢測,我們在當前時間步長的標籤訓練S-RNN。給定觀測點為當前時間,為了預測,我們訓練結構預測下一步的標籤 。我們還培養了多工版本的S-RNN,在每個nodeRNN中加入了兩個softmax層,並且聯合訓練以便預測和檢測。

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

表2:真實世界中1100英里預測的移動資料。S-RNN來自圖5c中顯示的ST圖。Jain等人使用了相同的st圖,但他們是在AIO-HMM的概率框架中進行模擬。這個表格顯示了平均精度,召回和時間-動作。時間-動作區間在演算法預測時間和行動開始時間之間。演算法的特徵比較來自於[22].

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

表3。CAD-120的結果。S-RNN結構來自圖5b的st圖,它優於Koppula等人的結構,在概率框架中模擬了相同的st圖。S-RNN在多工設定(聯合檢測和預期)中進一步提高了效能。

斯坦福AI實驗室又一力作:深度學習還能進一步擴充套件  | CVPR2016最佳學生論文詳解

圖9:CAD-120中飲食活動的定性結果。顯示了多工S-RNN的檢測和預期結果。為了使子活動在時間t,標籤的預測是在時間t- 1。(放大以便看清影象)

表3顯示檢測和預期的F1平均分數超過了所有的級。S-RNN在預測和檢測兩方面顯著的提高超越了Koppula等人。在預測物件可見性功能方面S-RNN的F1分數比[31]多44%,在檢測方面多7%。S-RNN沒有任何像時空CRF的馬爾科夫假設,因此,它能更好的模擬預測所需的長期依賴。該表還展示了edGERNNs在處理時空元件方面的重要性。EdgeRNN在人和物體之間傳輸資訊,這有助於預測物件標籤。因此,沒有edgeRNNs的S-RNN很難模擬物體。這意味著edgeRNNs的重要性,同時也驗證了我們的設計。最後,在大多數案例中,以多工的方式訓練S-RNN,效果是最好的。圖9中我們展示了飲食活動的視覺化。我們從在每個子活動和相對應的預測中展示了一個代表性的幀。

S-RNN的複雜性

在複雜性方面,我們討論了兩點作為基礎st圖的函式:(i)混合中RNNs的數量。(ii)向前-通過的複雜性。RNNs的數量取決於st圖中相似的語義點數量。S-RNN的整體結構是緊湊的,因為edgeRNNs和nodeRNNs是共享的,而且在內容豐富的應用中,語義的種類通常很少。此外,由於因素共享,如果在st圖中加入了更多相似的語義點,RNNs的數量並不會增加。向前-通過的複雜性取決於RNNs的數量。由於向前-通過貫穿了整個edgeRNNs,並且nodeRNNS能夠平行發生,實踐中的複雜度僅僅取決於兩個神經網路的級聯(nodeRNN緊隨edgeRNN)。

4.4司機行動預測

我們最後提出了S-RNN的另一個應用,它涉及在行為發生之前,預測幾秒鐘後的行動。Jain等人用圖5c中的st圖代表了該問題。他們將st圖模擬成一個概率貝葉斯網路(AIO-HMM [ 22 ])。St圖代表了車外的觀察資料(例如路的特徵),司機的行動,和車內的觀察資料(例如司機的面部特徵)之間的相互作用。我們使用了從Jain等人獲得的點和邊緣特徵,模擬相同S-RNN結構的st圖。表2顯示了該任務中不同演算法的效能。在每任何設定下,S-RNN的效能都好於最先進的AIO-HMM。討論和細節見補充材料。

5.總結

本文提出了一個通用的原則性方法,用來結合高層次時空圖和序列成功建模RNNs。我們利用因子圖,和因子共享以獲得一個RNN混合物。它是可擴充套件的,並且適用於任何st圖問題的表達。我們的RNN混合在底層的st圖中,捕獲了豐富的相互作用。而且在三個不同的時空問題中,我們的S-RNN表現了出顯著的改善:(i) 人類行為模擬。(ii)人類-物體相互作用。(iii)司機行動預測。我們通過視覺化記憶細胞,展示S-RNN學習特定語義子運動,並且通過生成新的人類行為,展示其模組化。

網址:

https://www.leiphone.com/news/201607/HoY9TNhHrRnq207L.html

相關推薦

斯坦福AI實驗室力作深度學習進一步擴充套件 | CVPR2016最佳學生論文

結構遞迴神經網路: 時空領域影象中的深度學習 聯合編譯:陳圳、章敏、Blake 摘要 雖然相當適合用來進行序列建模,但深度遞迴神經網路體系結構缺乏直觀的高階時空架構。計算機視覺領域的許多問題都固有存在高階架構,所以我們思考從這方面進行提高。在解決現實世界中的高階直覺

deeplearning.ai第二課第一週深度學習實用技巧

1 訓練/驗證/測試集 機器學習/深度學習中,一般會把資料集分為訓練集(training set)、驗證集(validation set/development set,dev set)、測試集(test set)三部分。 訓練集用於對模型進行訓練;驗證集用於對單一指標進行確定,

機器學習總結(十深度學習演算法(CNN,SAE,等)及常見問題總結

(1)CNN 層級結構:輸入層->卷積層->激勵層->卷積層->激勵層。。。 資料輸入層(資料預處理):三種方法:去均值(即0均值化,CNN常用,訓練集所有畫素值減去均值,把

深度學習系列】卷積神經網路CNN原理()——基本原理

轉自:https://www.cnblogs.com/charlotte77/p/7759802.html 上篇文章我們給出了用paddlepaddle來做手寫數字識別的示例,並對網路結構進行到了調整,提高了識別的精度。有的同學表示不是很理解原理,為什麼傳統的機

DL之Yolo系列深度學習實現目標檢測之Yolo系列的論文簡介、概念理解、思路配圖等詳細攻略

DL之Yolo系列:深度學習實現目標檢測之Yolo系列的論文簡介、概念理解、思路配圖等詳細攻略     Yolo系列的論文簡介 1、Yolo V1簡介   2、Yolo V2簡介   3、Yolo V3簡介   &

CCAI 2017 | 專訪德國語言技術領軍者 Hans Uszkoreit深度學習不足以解決 NLP 核心問題...

文 | 胡永波7 月 22 - 23 日,由中國人工智慧學會、阿里巴巴集團 & 螞蟻金服主辦,CSDN、中國科學院自動化研究所承辦的第三屆中國人工智慧大會(CCAI 2017)將在杭州國際會議中心盛大開幕。會前,我們採訪到了大會 Keynote 嘉賓、德

語音識別——基於深度學習的中文語音識別系統實現(程式碼

文章目錄 利用thchs30為例建立一個語音識別系統 1. 特徵提取 2. 模型搭建 搭建cnn+dnn+ctc的聲學模型 3. 訓練準備 下載資料

深度學習SSD】——深刻解讀SSD tensorflow及原始碼

<code class="language-python"># Copyright 2016 Paul Balanca. All Rights Reserved.   #   # Licensed under the Apache License, Version 2.0 (the "Lice

深度學習】Batch Normalizaton 的作用及理論基礎

文章開始前,先講一下 Batch Normalization 有什麼好處。 加速神經網路的訓練過程。 減少對 Dropout 的依賴 可以用比較大的學習率去訓練網路,然後不用在意權重引數的初始化問題。 其實,最重要的就是第一點,Batch Norm 可以加

人工智AI專家分享深度學習初學解惑

body 並且 對話 我想 問題 哲學 方向 智能 科學家 ---恢復內容開始--- 導語:高揚,現某創業公司數據科學家、人工智能專家。前歡聚時代資深大數據專家,有豐富的機器學習、深度學習實戰經驗。 在高揚老師此前的分享中,有不少同學問到高揚老師各種關於入門深度學習這個前沿

美國STEAM教育頂尖教具,谷歌力作

更多 分享 表示 project shadow pro mar led 制作 近年來,曾一度風靡美國的STEAM教育成為時下大熱,在教育領域的出鏡率居高不下,許多學校、教育機構甚至企業都紛紛加入了這股熱潮。如果你還不知道STEAM,那可真out啦! 美國STEAM教育頂尖教

Yoshua Bengio首次中國演講深度學習通往人類水平AI的挑戰

11 月 7 日,Yoshua Bengio 受邀來到北京參加第二十屆「二十一世紀的計算」國際學術研討會。會上以及隨後受邀前往清華時,他給出了題為「深度學習通往人類水平 AI 的挑戰」(Challenges for Deep Learning towards Human-Level AI)的演講。機器之心在

斯坦福AI實驗室換帥!Christopher Manning接替李飛飛

機器之心報道。 今天,斯坦福 AI 實驗室(SAIL)在官方 Twitter 上表示 Christopher Manning 成為新的負責人,而前一任負責人李飛飛負責「以人為中心的 AI 計劃」。 看過斯坦福 CS224n 的讀者可能對 Manning 比較熟悉,他在公開課上介紹了非常多的自然語言

達觀資料於敬深度學習波,受限玻爾茲曼機原理及在推薦系統中的應用

深度學習相關技術近年來在工程界可謂是風生水起,在自然語言處理、影象和視訊識別等領域得到極其廣泛的應用,並且在效果上更是碾壓傳統的機器學習。一方面相對傳統的機器學習,深度學習使用更多的資料可以進行更好的擴充套件,並且具有非常優異的自動提取抽象特徵的能力。 另外得益於GPU、SSD儲存、大

《Linux命令手冊》——Linux暢銷書作家力作

預計在9月份上市,敬請期待!內容簡介: 本書出自多本Linux暢銷書作者Negus之手,他以多年實踐經驗為基礎,且從大多數系統管理員的日常工作需求出發,分門別類、細緻入微地解釋了使用shell、處理檔案、玩轉多媒體、管理檔案系統、備份和恢復資料、操控程序、管理系統、監控

AI專家分享深度學習工程師的4個檔次

導語:高揚,現某創業公司資料科學家、人工智慧專家。前歡聚時代資深大資料專家,有豐富的機器學習、深度學習實戰經驗。 在高揚老師此前的分享中,有不少同學問到高揚老師各種關於入門深度學習這個前沿技術領域的問題。部分重要問題,高揚老師做了具體的回覆。真傳X技術教育平臺致力於讓更

NLP的這年2017深度學習或成主角

在過去幾年,深度學習(DL)的架構和演算法在很多領域都取得了里程碑似的進展,例如影象識別和語言處理。 起初,深度學習在自然語言處理(NLP)中的應用並不起眼,但後來卻出現了許多重量級的成果,例如命名實體識別(NER)、詞性標註(POS tagging)或文字情感分析(s

人臉特徵點檢測(深度卷積網路級聯

人臉特徵檢測(face feature detection)也稱為 “facial landmark detection”, “facial keypoint detection” and “face alignment”,是在人臉檢測的基礎上,對人臉上的特徵點例如眼睛、鼻

“GANs 之父”Goodfellow親身傳授深度學習未來的8大方向和入門AI必備的三大技能

近日,被稱為“GANs 之父”的 Ian Goodfellow 在 Quora 上回答網友提問。在問答環節中,Goodfellow 不僅介紹了谷歌大腦(Google Brian)目前正在進行的工作,還詳細闡述了 GANs 目前碰到的各種問題,以及未來的發展方向。作為《D