1. 程式人生 > >淺析ECCV18 DeepMind論文《Look, Listen and Learn》

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

背景

聲音和影象是視訊中最重要的兩類基礎資訊,能反映視訊中出現的主要內容。以往大量的視訊內容分析研究都是基於聲音和視覺特徵來展開,其中很多研究工作會基於聲音視覺多模態特徵來進行語義建模。人們清楚地意識到聲音和視覺特徵直接存在著某種對應關係,因為當某種語義內容在視訊中出現時,其相應的視覺影象和聲音必然相伴出現,那麼該如何利用這個對應關係來幫助我們進行視訊語義內容分析與識別呢?

讓我們先來看看當前機器學習與視訊分析研究的痛點。機器學習按照對樣本的標註要求不同可分為有監督和無監督兩大類。隨著深度學習的興起,基於大量標註樣本訓練的深度網路模型在各領域中都取得了遠超其它模型的準確率,確立了主流地位。但是這一方法最大的缺點是需要大量的標註樣本,樣本標註是一項很高成本的工作,需要耗費大量的人力資源,使人工智慧成為真正基於“人工”的智慧。在視訊內容分析領域,為了達到識別視訊內容的目的,也需要對視訊進行大量的樣本標註,這些標註包括目標、語義在時間空間上出現的位置、類別標籤等,非常繁瑣。如何能夠減少對標註資料的依賴一直是一個機器學習的重要研究方向。

回到先前的問題,既然視訊中的視覺和聲音之間存在著對應關係,那麼是否可以用這個對應關係來解決資料的標註問題,從而減少對人工標註的依賴呢?DeepMind大膽的提出了這一設想,通過視覺和聲音的對應實現它們之間的互標註,不需要人工標註,就可以獲得大量的帶有自標註對應關係的聲音視覺樣本,提供給深度網路進行訓練,從而實現視訊中相關事件的檢測識別。

方法

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

資料

以上網路通過如下的方式產生正負樣本對:負樣本對來自於兩段不同視訊中隨機選取的影象幀和聲音片段,正樣本對來自於聲音片段和同一視訊中對應該聲音時間中點處的影象幀。訓練資料集規模為40萬段時長為10秒的視訊,來自於Flickr-SoundNet和Kinetics-Sounds資料集。

實驗結果

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

作者還給出了訓練聲音視覺對應網路中得到的視覺子網路和聲音子網路模型在視覺分類和聲音分類任務中的效能,並與現有演算法進行了比較。在聲音分類benchmark資料集ESC-50和DCASE上本文的聲音子網路取得了最好的結果,如表2所示。影象分類在benchmark資料集ImageNet上本文的視覺子網路取得了與當前最好的自監督學習演算法相同的結果,如表3所示。

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

通過以上網路和學習方式,究竟學到了什麼內容?作者給出了直觀的例項,選取視覺子網路pool4層響應最高的各類的5個樣本(圖3),並將對應的conv_2層響應熱力圖顯示出來(圖4),可見網路能夠在視覺概念相關區域獲得高響應,表明學習是有效的,並且該網路對聲音源具有定位能力。

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

結論與討論

本文利用聲音視覺對應關係提出了一種深度網路,可免除對樣本的標註,通過自監督學習,實現視訊內容的檢測分類。實驗表明其在聲音分類上的效果超越其他演算法,在影象分類上的效果與以往最佳自監督演算法持平。

本文演算法在聲音分類上的優異表現表明,視覺特徵在聲音特徵的相關性使其在描述聲音特徵中起到了幫助作用。同時本文演算法在影象分類上的表現也表明聲音特徵對影象特徵描述也存在有效的幫助。目前視覺特徵僅採用了聲音片段對應的影象序列中的一個取樣幀作為輸入,尚無法完全反映聲音和影象之間在時間上的對應關係,如能利用聲音對應的整個影象序列作為視覺輸入,將可能進一步利用聲音和視覺之間的併發性,