1. 程式人生 > >Deep Learning 讀書筆記(十五):Deep Learning from Temporal Coherence in Video

Deep Learning 讀書筆記(十五):Deep Learning from Temporal Coherence in Video

       原來不是說好的不做視訊與影象改做NLP方向了嗎,怎麼這篇又是關於原來方面的。因為突然想起了原來的一個點子,是關於卷積神經網路學習演算法的,希望通過這個演算法使得CNN能夠對視訊資料進行學習。我是希望先琢磨下這個想法的可行性,然後把它交給師弟師妹們來做,也算是盡了當師兄的責任,以及對原來組員的一個交代吧。所以之後的幾篇部落格可能還是關於這個方向的。

        本篇文章的主要工作是將時序性資料中的時間相干性引入到深度學習的模型結構中去,使其能夠對無標籤的視訊資料進行學習。時間相干性指的是“two successive frames are likely to contain the same object or objects”。時間相干性可以用在無標籤的資料中進行有監督的學習,同時其也能有效提高監督型學習任務的學習效果。

        半監督學習方法以及transduction都可以通過為無標籤資料賦予一個類標籤的方法來處理無標籤資料。但是如果無標籤的資料來源於不同的資料來源,那麼就無法對其所屬類別進行估計,之前傳統的方法就無法被使用了。視訊資料就是這樣的一類資料。

        雖然說本篇文章所提出的模型是為了識別視訊中的物體,但是可以通過改變模型的目標函式,使得其同樣能夠適用於其他的任務中。這點上感覺與遷移學習的目的有些類似。記得前面也有一篇部落格中也有提到遷移學習的問題。尋求一個較為統一的模型,一直也是我們所追求的。

        如果從生物學的觀點來看,生物的學習過程並不是以一種純監督的形式進行的,所以監督型的學習演算法並不是一種最優的方式。而本篇文章中利用視訊資料中的時間相干性的方法“provide a natural, abundant source of data which seems a more biologically plausible signal than used in most current machine learning tasks”。

        將視訊中的時間相干性特點引入到模型中,其能帶來的好處在於“enforce the representation of input images in the deep layers of the neural network to be similar if we know that the same scene is represented in the input images”。假設表示兩張圖片,表示兩張圖片在第l層上的表示。如果是一個視訊中連續的兩幀圖片,則我們希望儘可能接近。可以使用如下公式來表示:

其中表示兩者之間間隔的大小,典型值可以取1。

        在實際應用中,只是在模型的倒數第二層中使用了時間相干性的特徵。實際上我們可以在模型的任何一層使用上這一特徵。為什麼作者做了這樣一種選擇,其原因在於“the

 distance we use may not be appropriate for the log probability representation in the last layer”。在對模型進行訓練時,所使用的是隨機梯度下降法,以及“siamese network”的結構,是使用共享模型引數的兩個網路來同時計算兩張圖片。具體結構如下:

        整個模型的目標函式如下:

為了限制模型中引數的個數,令。整個模型的學習演算法如下: