1. 程式人生 > >譯:Two-Stream Convolutional Networks for Action Recognition in Videos.md

譯:Two-Stream Convolutional Networks for Action Recognition in Videos.md

摘要:我們研究了用於訓練視訊中行為識別的深度卷積網路架構。這個挑戰是捕捉靜態幀中的外觀和連續幀間的運動的互補資訊。我們也旨在推廣這個在資料驅動的學習框架中表現得最好的手工特徵。

本文一共做出了3個貢獻:

  • 首先,本文提出了一個two-stream卷積網路架構,這個架構由時間和空間網路構成。
  • 然後,我們驗證了,儘管是有限的訓練資料集,在多幀密集光流上訓練的卷積網路仍然能夠表現出很好的效能。
  • 最後,我們展示出,應用於兩個不同的動作分類資料集的多工學習,可以同時用來增加訓練資料集的數量和提高效能。 我們的架構是在標準視訊動作資料集UCF-101和HMDB-51上訓練的,與最先進水平(state of the art)相比還是有競爭力的。它也超出了先前大部分使用深度網路對視訊進行分類的方法。

1、介紹

基於視訊的人體動作識別是一項具有挑戰性的任務,在學術界受到越來越多的關注[11,14,17,26]。與靜態的影象分類相比,視訊中的時間成分為識別提供了一個額外的(且是重要的)線索,因為一些行為是基於運動資訊才能夠被可靠地識別出來的。此外,對於單個影象(視訊幀)分類,視訊提供了自然的資料增強(抖動)。

在這項工作中,我們旨在擴充套件深度卷積神經網路[19](這對於靜態影象的表徵是最先進的方法[15])到視訊資料中的行為分類上。這個任務最近得到了解決[14],我們通過將堆疊的視訊幀作為輸入傳入網路中,但是結果明顯地比最好的手工製作的特徵要差得多[20,26]。 我們研究了一個不同的架構,基於兩個分開的識別流(時間和空間),最後通過融合將它們結合在一起。空間流從靜態的視訊幀中執行行為識別,同時時間流從密集光流形式的運動中訓練以識別行為。

兩個流都是用卷積網路來實現的。去耦合時空網路允許我們開發大量的已註釋影象資料的可用性,這些資料是通過空間網路在ImageNet資料集上預訓練出來的。我們提出的架構與two-streams假設有關,根據該假設,人類視覺皮質包含兩條路徑:腹側流(識別目標)和背側流(識別運動),儘管我們在這裡沒有進一步研究這種聯絡。

本文的其他部分組織如下:在1.1部分,我們回顧了有關使用淺層的、深層的架構的行為識別的相關工作。在第2部分,我們介紹了two-stream架構,並且詳細介紹了空間卷積網路。在第3部分,介紹了時間卷積網路,特別是它如何概括了1.1節中所述的先前架構。在第4部分,提出多工學習框架,使得多個數據集上的訓練資料可以容易的組合。實現細節在第5部分給出。在第6部分進行評估,並與最先進水平進行了比較。我們在兩個挑戰性的資料集(UCF-101和HMDB-51資料集)上的實驗表明兩個識別流是互補的,並且我們的深度架構比Large-scale video classification with convolutional neural networks[14]這篇論文做的要好,並且儘管是在相對較小的資料集上訓練,我們的深度架構與淺層表示[20,21,26]的最先進水平相比也是有競爭力的。

1.1 相關工作

視訊識別研究很大程度上由影象識別方法的提高驅動著,這些方法經常應用或擴充套件於處理視訊資料上。很多視訊行為識別的方法是基於區域性時空特徵的淺層、高維編碼的。例如,Learning realistic human actions from movies[17]這篇論文提出的演算法在檢測稀疏時空興趣點,可以描述為使用了局部時空特徵:方向梯度直方圖(HOG)和光流直方圖(FOG)。然後這些特徵被編碼為Bag Of Features (BoF)表示,它彙集在了幾個時空特徵網格上(類似於空間金字塔池化),並且結合了SVM分類器。在一項最近的研究工作中表明[28],區域性特徵的密集取樣要比稀疏興趣點表現的要好。

(這一段介紹淺層表示) 最先進水平的淺層視訊表徵[20,21,26]利用了密集點軌跡,而不是在時空立方體上計算區域性視訊特徵,。這個方法第一次提出是在Instead of computing local video features over spatio-temporal cuboids[29]這篇論文中,這個方法調整了區域性描述符支援域,他們使用了通過光流來計算的密集軌跡。基於軌跡方法的最好效能是由Motion Boundary Histogram (MBH)[8]實現的,這是一個基於梯度的特徵,在光流的水平和豎直方向上分開計算。幾個特徵的結合表現出可以進一步提高效能。基於軌跡的手工特徵最近的改進包括,全域性攝像機動作補償[10,16,26],和使用Fisher vector[22](in [26])編碼或者是更深的變體[23](in [21])。

(這一段介紹深度架構) 也有很多方法嘗試從深度架構上進行視訊識別。這些工作的大多數,網路的輸入都是一堆連續的視訊幀,因此,這些模型被期望能夠在第一層學到隱含的時空獨立動作特徵,這是一個困難的任務。在A biologically inspired system for action recognition[11]這篇論文中,提出了一種用於視訊識別的HMAX架構,在第一層使用了預定義的時空濾波器(filter)。然後,在HMDB: A large video database for human motion recognition[16]這篇論文中,將其與空間HMAX結合,形成空間(類似於腹側)和時間(類似於背側)識別流。然而,這與我們的工作不同,它的流是手工製作實現的,而且是淺層(3層)HMAX模型。在另外3篇論文中[4,18,25],一個卷積的RBM和ISA被用來無監督地學習時空特徵,然後把它推入一個判別模型來進行行為分類。用於視訊的卷積網路的端到端學習模型已經在論文3D convolutional neural networks for human action recognition[12]中實現,並且最近在論文Large-scale video classification with convolutional neural networks[14]中,比較了幾個用於行為識別的卷積網路架構。訓練是在一個非常大的Sports-1M資料集上實現的,它包含了100多萬的YouTube的行為類別的視訊。有趣的是,在這篇論文[14]中發現,一個在單個視訊幀上執行的網路,與輸入是一堆視訊幀的網路的效能類似。這可能表明,學習到的時空特徵沒有很好的捕捉到行為資訊。其學到的表示,在UCF-101資料集上微調後,與原先手工製作的最先進水平的基於軌跡的表示比較,其正確率降低了20%[20,27]。我們的時間流卷積網路在多幀密集光流上執行,其通過解決位移場(特別是多個影象尺度)在一個能量最小化的框架中進行計算。我們使用了High accuracy optical flow estimation based on a theory for warping[2]中流行的方法,它根據強度及其梯度的恆定性假設以及位移場的平滑度來表達能量。最近,DeepFlow: Large displacement optical flow with deep matching[30]論文提出了一個影象塊匹配方案,這使人聯想到深度卷積網路,但不包括學習。

2、用於視訊識別的Two-stream架構

視訊很自然的被拆解為空間和時間部分。在空間部分,以單個幀的外觀形式,傳遞了視訊描繪的場景和目標資訊。在時間部分,以多幀的運動形式,傳遞了觀察者(攝像機)和目標者的運動。我們因此來設計視訊識別架構,如圖1所示,將其分為兩個流。每一個流都由一個深度卷積網路來實現,最後它們通過softmax進行融合。我們考慮了兩種融合方法:一個是求平均; 另一個則是在多分類線性SVM上訓練,使用L2正則化的softmax計算得分。

空間流卷積網路在單個視訊幀上執行,能有效地在靜止影象中進行動作識別。其自身靜態外表是一個很有用的線索,因為一些動作很明顯地與特定的目標有聯絡。事實上,如第6部分所述,靜態幀(空間識別流)的動作識別相對其自身是有競爭力的。由於空間流卷積網路本質上是一個影象分類架構,我們可以依賴於最近的ImageNet classification with deep convolutional neural networks[15]論文中提出的大型影象識別方法,在大型影象分類資料集上預訓練網路。細節在第5部分給出,接下來我們描述一個時間流卷積網路,其開發了運動資訊,明顯地提高了準確率。

3、光流卷積網路

在這一部分,我們描述一個卷積網路模型,它行成了我們提出的two-stream架構(見第二部分)中的時間識別流。不同於1.1中回顧的卷積網路模型,我們模型的輸入是幾個相鄰幀之間疊加的光流位移場。這樣的輸入準確地描述了視訊幀之間的運動資訊,這使得識別更加容易,並且網路不需要估計隱式的運動。我們考慮了幾個基於光流輸入的變體,如下描述所示。

圖2:光流

  • (a)(b):一對連續視訊幀,用青色矩陣畫出移動手的區域。
  • ©:在大部分割槽域的密集光流的特寫。
  • (d):位移向量場(強度高相當於正值,強度低相當於負值)的水平分量dx。
  • (e):垂直分量dy。 注意d和e是如何突出移動的手和彎腰的。卷積網路的輸入包含了多個流(見3.1部分)。

3.1 卷積網路的輸入配置

光流疊加。 一個密集光流可以看作是在連續的幀t和幀t+1之間的一組位移向量場dt。我們用dt(u,v)表示在幀t的位置(u,v)的位移向量,它表示移動到下一個幀t+1相對應的點。向量場的水平和垂直部分分別是dtx和dty,可以視為影象的通道(如圖2所示),十分適合使用卷積網路來識別。為了表示一系列幀之間的運動,我們疊加了L個連續幀的光流通道dtx和dty,形成了2L長度的輸入通道。更正式的說,設定w和h是視訊的寬和高,對於任意幀τ,卷積網路輸入容量: 對於任意點(u.v),通道通過一系列L幀(如圖3左圖所示),編碼了這個點的動作資訊。

軌跡疊加。 受軌跡描述子的啟發,另一個可供選擇的運動表示代替了光流疊加,沿著運動軌跡,在幾個幀的相同位置取樣。在這個情形下,與幀τ對應的輸入容量Iτ,採取下列形式: 其中pk是沿著軌跡的第k個點,開始於幀τ的(u,v)位置,並且用以下遞迴方式定義: 比較於輸入容量表示(1),其通道Ιτ(u,v,c)儲存了(u,v)位置的位移向量,而在輸入容量(2)中,則儲存了沿著軌跡(如圖3右圖所示)在位置pk抽樣的向量。 圖3: 卷積網路從多幀光流中的輸入。左:光流疊加在連續多幀的同一個位置的取樣位置向量。右:軌跡疊加沿著軌跡取樣向量。幀和與之相對應的位移向量都用相同的顏色表示。

雙向光流。 光流表示1和2處理了前向光流,也就是幀t的位移場dt指定了在下一幀t+1處畫素的位置。自然地擴充套件到雙向光流,通過在相反的位置計算一個額外的位移場集合來獲得。我們接著構建了輸入容量Ιτ,通過疊加幀τ到幀τ+L/2之間共L/2個前向流和幀τ-L/2到幀τ至今的L/2個後向流。輸入Ιτ因此與之前的通道(2L)有相同的數量。光流可以使用方法1和方法2中其中任一個來表示。

減去平均光流。 這有利於處理中心為0的網路輸入,允許模型更好的處理糾正非線性。在我們的案例中,位移向量場分量可以同時具有正值和負值,自然地集中在各種各樣的運動中,一個方向上的運動很有可能是相反位置上的運動。然而,對於給定的幀對,它們之間的光流可以由特定的位移來控制,例如,通過攝像機的移動。攝像機運動補償的重要性已經在先前的論文中明顯地提出過,從密集光流中估計並減去全域性運動分量。在我們的案例中,我們考慮一個更簡單的方法:在每一個位移場d中都減去它的均值向量。

架構。 上我們描述了不同的方法來結合多種光流位移場到單個容量 。考慮到卷積網路要求固定尺寸的輸入,我們從Ιτ中取樣了224x224x2L個副容量,並將其傳遞給網路作為輸入。隱藏層的配置大部分保留了空間卷積中使用的配置,如圖1所示。測試也類似於空間卷積網路,細節在第5部分給出。

3.2 時間卷積網路架構與先前表示的關係

在這一部分,我們將我們的時間卷積網路架構放在1.1部分回顧的先前技術的環境下,描述出視訊表示的聯絡。基於特徵編碼的方法結合了幾個時空區域性特徵。這種特徵是通過光流計算的,並由我們的時間卷積網路來推廣。事實上,HOF和MBH區域性描述子是基於光流方向或者梯度的直方圖,可以通過位移場的輸出由單個卷積層(包含對方向敏感的濾波器)來獲得,接下來是正則化和池化層。運動學上的特徵(散度、旋度和裁剪)也可以通過光流梯度來計算,同樣,也可以通過卷積模型來捕獲。最後,軌跡特徵通過疊加沿著軌跡的位移向量計算獲得,相當於軌跡疊加。在3.3部分,我們可視化了從時間網路第一層學到的卷積濾波器。這提供了進一步的證據,我們的表示可以泛化到手動製作的特徵。

就深度網路而言,HMDB: A large video database for human motion recognition[16]論文中一個two-stream視訊識別架構包含了兩個HMAX模型,這是手工製作的,並且比我們的判別式訓練模型的深度要淺一點。這可以看多是HMAX一個可學習的泛化。另外兩篇論文中[12,14],並沒有分離時間和空間識別流,依賴於從資料中學到的對動作敏感的濾波器。在我們的案例中,動作明確的使用光流位移場來表示,基於亮度不變性的假設和光的平滑性來計算的。這種假設合併到卷積網路框架中,能夠促進端到端基於方法的卷積網路的效能,這是未來研究一個有趣的方向。

4、多工學習

不同於空間流卷積網路,它可以在大量靜止影象資料集(例如ImageNet資料集)上進行預訓練,時間卷積網路需要在視訊資料集上訓練,對於視訊動作識別可用的資料集非常少。在我們的實驗(第6部分)中,在UCF-101和HMDB-51資料集上訓練,分別有9500和3700個視訊。為了減少過擬合,考慮將兩個資料集結合成一個,然而並不是直接地在類別之間取交集。一個選項(在我們稍後驗證時)是從類別中新增沒有出現在原始資料集的影象。然而,這要求對每個類別進行人工檢索,並且限制了可訓練資料的數量。

一個更強的結合資料集的方法是基於多工學習。它旨在學習一個(視訊)表示,不僅可以應用於這個問題(例如HMDB-51分類),也適用於其他任務(如UCF-101分類)。額外的任務,例如正則化,也考慮到了開發額外的訓練資料。在我們的案例中,卷積網路架構進行了修改,在最後一層全連線層的前面有兩個softmax分類層,一個softmax計算HMDB-51分類的分數,另一個計算UCF-101的分數。每一層都配有自己的損失函式,只在各自資料集的視訊資料上操作。總體的訓練損失由單個任務的損失和計算得出,通過後向傳播計算網路權重。

5、實現細節

卷積網路配置。 我們的空間和時間卷積網路的每一層配置如圖1所示。它相當於Return of the devil in the details: Delving deep into convolutional nets[3]論文中的CNN-M-2048架構,類似於Visualizing and understanding convolutional networks[31]論文中的網路。隱藏層使用了RELU激勵函式;池化層使用最大池化,視窗為3X3,步長為2;區域性反應歸一化使用如ImageNet classification with deep convolutional neural networks[15]論文中的設定。在空間和時間卷積網路中唯一不同的配置是我們去除了時間網路中第二次歸一化,以便減少記憶體消耗。

訓練。 訓練流程可以視為是對ImageNet classification with deep convolutional neural networks[15]相對於視訊幀的一個改動,並且對時間和空間網路都是相同的。使用mini-batch隨機梯度下降(其動量為0.9)學習網路權重。在每個迭代中,一個mini-batch含有256個樣本,通過取樣256個訓練視訊(對每個類別都一致)獲得,其中的單個幀都是隨機選擇的。在空間網路訓練時,從選擇的幀中隨機擷取224x224的子圖;然後對其進行隨機水平翻轉和RGB抖動。視訊事先經過調整,因此幀最小的邊等於256。我們與ImageNet classification with deep convolutional neural networks不同,子圖是從整個幀中取樣的,而不是選取了256x256的中心。在時間網路訓練時,我們對在第3部分描述的每一個選擇的訓練幀,計算了光流容量Ι。從這個容量中,隨機裁剪和翻轉一個固定尺寸224x224x2L的輸入。學習速率初始化為0.01,然後根據固定的順序減少,在所有的訓練集上都保持相同。也就是說,當從頭訓練一個卷積網路時,在5萬次迭代後速率給變為0.001,在7萬次迭代後速率變為0.0001,最終在8萬次迭代後訓練停止。在微調階段,在14000次迭代後速率變為0.001,在2萬次迭代後訓練停止。

測試。 在測試時,對於給定視訊,我們取樣了固定數量(在我們的實驗中是25)的幀,這些幀之間有相同的實際間距。對於其中的每個幀,通過裁剪和翻轉幀的四個角和中心,我們獲得了卷積網路的10個輸入。對於整個視訊的類別分數,通過計算每個幀和翻轉後的幀的分數平均來得到。 在ImageNet ILSVRC-2012上預訓練。當預訓練空間卷積網路時,我們使用與向前描述同樣的資料增加方式(裁剪、翻轉、RGB抖動)。在ILSVRC-2012驗證資料集上獲得了13.5%的top5誤差,在Visualizing and understanding convolutional networks[31]論文中類似的網路得到了16%的誤差。我們相信改進的主要原因是卷積網路的取樣輸入是來自於整個影象,而不只是影象的中心。

多GPU訓練。 我們是在公共工具CAFFE上實現的,但是包含了一些重大的修改,包括在多個GPU上平行訓練,而不是在一個系統下訓練。我們利用資料平行性,將每個SGD批處理為多個GPU。訓練單個時間卷積網路,在一個有4個NVIDIA顯示卡的系統上要花費1天,這比單GPU的訓練快了3.2倍。 光流。 使用opencv工具中現成的GPU來實現計算[2]。儘管計算時間很快(每對幀0.06秒),但在實際執行時仍然是一個瓶頸,因此我們 在訓練前提前計算了光流。 為了避免以浮點數儲存位移場,光流的水平和垂直分量線性擴充套件到[0,255]的範圍,並使用了JPEG進行了壓縮(在解壓後,光流恢復為原先的範圍)。這將UCF-101資料集光流的大小從1.5TB減少到了27GB。

6、驗證

資料集和驗證協議。 驗證是在UCF-101[24]和HMDB-51[16]的動作識別benchmarks進行的,它們是最大的可用帶註釋的視訊資料集。UCF-101包含了13000個視訊(每個視訊平均有180幀),被分為101個類別。HMDB-51資料集包含了6800個視訊,共51個類別。兩個資料集的驗證協議是相同的:組織者將資料集分成了3個分片,訓練資料、測試資料和計算平均分類正確度的效能的分片。每一個UCF-101分片都包含了9500個訓練視訊;一個HMDB-51分片包含3700個訓練視訊。我們開始在UCF-101資料集的第一個分片上比較了不同的架構。對於與先進水平的比較,我們遵循標準的驗證協議,各自在UCF-101和HMDB-51的3個分片上計算了平均準確度。

空間卷積網路。 首先,我們測量了空間流卷積網路的準確性。考慮以下3個情境:(1)在UCF-101資料集上從頭訓練。(2)在ILSVRC-2012預訓練後,在UCF-101上進行微調。(3)保持預訓練網路固定,只訓練最後一層(分類)。對於每一個設定,我們都通過dropout正則化率0.5到0.9進行了實驗。結果展現在表1(a)中,很明顯,單獨的在UCF-101資料集上訓練導致了過擬合(即使是很高的dropout),並且要差於在ILSVRC-2012資料集上的預訓練。有趣的是,對整個網路的微調要比只訓練最後一層稍微好那麼一點。在下面的實驗中,我們選擇只訓練預訓練卷積網路前的最後一層。

**時間卷積網路。 ** 已經驗證了空間卷積網路的變體,我們現在轉向時間網路架構,評定了如3.1部分描述的輸入配置的影響。特別地,我們計算了這些效果:使用多個(L={5,10})疊加光流;軌跡疊加;平均位移差;使用雙向光流。架構在UCF-101資料集上從頭訓練,因此我們使用了dropout正則化率0.9來提高泛化能力,結果在表1(b)中顯示。首先,我們可以推斷,在輸入中疊加多個(L>1)位移場是非常有效的,它提供給網路長遠的動作資訊,比一個幀對(L=1)的光流更有區別性。輸入流的數量從5提高到10導致了一個較小的提高,因此我們在接下來的實驗中將L固定為10。第二,我們發現平均消去是有用的,它減少了幀間的全域性動作的影響, 我們在接下來的實驗中預設使用。不同疊加技術上的區別是較小的;結果是光流疊加比軌跡疊加的效果要好,使用雙向光流要比使用單向前向光流好一點點。最後,我們注意到,時間卷積網路要比空間卷積網路(表1a)表現的要好,這確認了在動作識別中運動資訊的重要性。 我們也實現了慢融合架構,這相當於運用了一組RGB幀到卷積網路中(在我們的實驗中是11幀)。當從頭訓練UCF-101資料集時,實現了56.4%的準確率,這比從頭訓練單幀架構要好(52.3%),這與在光流上從頭訓練要差的遠。這展示了多幀資訊的重要性,同樣重要的是以一種合理的方式呈現給卷積網路。 時間卷積網路的多工學習。 由於訓練集較小,在UCF-101資料集上訓練時間卷積網路是比較有挑戰性的。一個更大的挑戰是在HMDB-51資料集上訓練卷積網路,每個訓練片比UCF-101小了2.6倍。這裡,我們驗證了不同的選項,來有效地提高HMDB-51訓練集的大小:(1)在UCF-101預訓練後微調一個時間網路;(2)從UCF-101中新增78個類別,通過手工篩選,因此與原先的HMDB-51類別沒有交集;(3)使用多工規劃(第4部分所述)來學習視訊表示,在UCF-101和HMDB-51分類任務上共享。結果展示在表2中。正如期待的,使用全部的(所有分片結合)UCF-101資料來訓練(不管是借用影象還是隱式地預訓練)是有用的。多工學習表現的最好,因為它允許訓練過程中採用了所有可用的訓練資料。 我們也在UCF-101資料集上進行了多工訓練,通過在所有的HMDB-51資料(所有的分片結合)和UCF-101資料上(單個分片)訓練分類。在UCF-101的第一個分片上,準確率為81.5%,之前同樣的設定實現了81.0%,但是沒有額外的HMDB分類任務(表1b)。 Two-stream卷積網路。 這裡我們驗證了完整的two-stream模型,其結合了兩個識別流。結合網路的一個方法是,在兩種網路的6層或7層後,訓練一個全連線層共同的疊加。然而在我們的情境下這樣是不可行的,會導致過擬合。因此,我們融合了softmax分數,使用或平均了一個線性SVM。從表3中我們可以得出結論: (1)時間和空間識別流是互補的,他們的融合明顯的提高了彼此(時間網路上提高了6%,空間網路上提高了14%)。(2)基於SVM的softmax計分融合要比平均融合做的要好。(3)使用雙向流對於卷積網路的情況沒有益處。(4)使用多工訓練的時間卷積網路要比單獨或者是融合一個空間網路的效能都要好。 與最先進水平的對比。 通過在UCF-101和HMDB-51的3個分片上進行了與最先進水平的比較,總結了實驗的驗證。我們使用了一個在ILSVRC預訓練的空間網路,其最後一層是在UCF或HMDB上訓練的。時間網路是在UCF或HMDB上使用多工訓練的,輸入是使用平均消去的單向光流疊加計算的。兩個網路的softmax分數會使用平均或者SVM來計算。在表4中可以看到,我們單獨的的空間和時間網路都比另外兩篇論文中的深度網路要大幅度提高很多。兩個網路的結合進一步提高了結果(與上面在單個分片上的結果一致),堪比最近最先進水平的手工製作模型。

7、結論和改進方向

我們提出一個深度視訊識別模型,其效能具有競爭性,它分別由基於卷積網路的時間和空間識別流組成。目前,在光流上訓練時間卷積網路要比在原始連續幀上訓練要好的多。後者或許更具有挑戰性,或許要求架構改變(比如,與DeepFlow: Large displacement optical flow with deep matching[14]論文的深度匹配方法結合)。儘管使用光流作為輸入,我們的時間模型並不需要大量的手工製作,因為光流可以使用基於通用的不變性假設和平滑性來計算得到。

正如我們所展示的,額外的訓練資料對我們的時間卷積網路是有益的,因此我們計劃在大型資料集上訓練它,例如Large-scale video classification with convolutional neural networks[14]論文最近收集的資料集。然而,由於這是一個龐大的資料集(TB以上)所以是一個巨大的挑戰。

我們的網路仍然錯過了一些最先進水平的淺層表示的有用材料[26]。最突出的一個就是,以軌跡為中心,在時空管道上的區域性特徵池化。即使是輸入(2)沿著軌跡捕捉了光流,在我們的網路中空間池化並沒有將軌跡考慮在內。另一個潛在的改進可能是攝像機運動的明確處理,在我們的實驗中使用了平均位移消去法進行了補償。