1. 程式人生 > >正交變換與深度學習網路之間的類比雜談

正交變換與深度學習網路之間的類比雜談

    最近AI很火,深度學習作為核心理念被眾人所知,因為我一直從事音視訊行業,音視訊(聽覺與視覺)本來就是人類與外界互動的介面,而AI其實也就是要在機器上模擬人類與外界互動的方式,因此人工智慧主要主要輸入訊號也是兩個:影象和音訊。

    傳統的模式識別裡面,主要是對訊號進行特徵提取,然後對特徵進行識別,這樣既能減除大部分無謂的干擾,又能降低識別的運算量。所謂特徵就是訊號的本質,本質總是能通過各種形式表現出來,表現形式就是訊號本身,我對訊號本質進行抽取,也就是特徵。

    提取特徵最簡單的方式就是正交變換,正交變換是無損的特徵提取,可以在訊號與特徵之間互相轉換。正交變化具有能量集中特點,也就是能把決大部分資訊集中到很小的資料量上,這個也是稀疏編碼的概念。如果可以接受細微的差別,我只處理前面重要特徵即可,音視訊壓縮也用到 這個性質。

    大家熟知的一種正交變換就是傅立葉變換,他能把訊號轉換到頻率域,也就是將訊號拆分成多個正弦訊號,所以他的正交基組是正弦函式。其實也可以理解給定訊號在正弦基組上的投影,變換的結果就是某些頻率點能量較大,大部分頻率點能量很小,這樣就行了能量集中,形成了一種稀疏表示,我們訊號處理就方便很多。

    當時學習影象DCT變換的時候,我就在想,既然DCT具有能量集中的效果,那麼我對DCT結果再進行DCT變換,是不是就更集中呢,這樣形成一個鏈條,資料就越來越集中,最後給定一個訊號,只用一個頻率值就能表示,然後反覆逆變換就可以得到訊號,這個壓縮率將有大大的提高,識別也方便很多。然後我就開始去嘗試對DCT變換結果再進行DCT變換,然後發現跟之前結果一致,但是就鬱悶了,不知道問題出在什麼地方,然後就放棄。

    直到最近看深度學習網路相關理論知識,才突然頓悟,我當時之所以沒有得到想要的結果,是因為我第二次變換所用的基組是一樣的,在同樣的基組讓做投影,當然資料結果一樣,相單于一個座標基裡面重新畫了資料而已。而深度學習裡面的學習網路一層正是一個類正交變換,每一層將輸入訊號的輸出一個稀疏表示,然後層層相連,並傳遞下去,到最後資料將變得極其稀疏,直接就可以識別分類。

    雖然感性認識了深度學習網路的基本原理,但是各個層級之間該怎級聯,每層該用什麼變換,目前並沒有數學證明,現在只是用大量的資料並結合反向傳播演算法來訓練每層變換的正交基。這個也許等哪一天數學家們證明了資料什麼基組級聯能得到唯一稀疏表示,那麼人工智慧將發生質的飛躍,併為人類所控。