機器聽覺:二、基於光譜圖和CNN處理音訊有何問題?
作者:Daniel Rothmann
編譯:weakish
近幾年來,基於神經網路生成、處理影象方面有很多偉大的成果。這部分歸功於深度CNN在捕捉、轉換影象的高層資訊上的強大表現。一個知名的例子是L. Gatys等提出的使用CNN轉換影象風格的方法,該方法能夠以不同的風格渲染影象的語義內容。
Y. Li等很好地解釋了神經風格遷移的過程:“該方法使用CNN不同層的神經啟用組成的格拉姆矩陣表示影象的藝術風格。接著使用迭代優化方法,通過神經啟用匹配內容影象,格拉姆矩陣匹配風格影象,從白噪聲生成新影象。”
簡單地說,根據源內容影象和風格影象在不同抽象水平上的特徵組合生成影象,得到了這些結果。例如,保持內容影象的高層結構和輪廓,納入風格影象的顏色和低層紋理。

視覺處理領域風格遷移的表現相當令人印象深刻,所以人們很自然地想到利用CNN優化“更智慧”的音訊處理演算法,例如,使用CNN分析和處理音訊的光譜。將光譜作為影象處理,並基於CNN進行神經風格遷移,這是可以做到的,但到目前為止,我們得到的結果遠遠不能和視覺影象相比。
為了克服這一挑戰,在神經音訊處理上得到更好的結果,我們也許需要考慮下為什麼基於CNN的風格遷移在光譜上的表現不佳。這些技術基本上是通過應用機器視覺來進行機器聽覺任務。我相信這帶來了一個本質問題,可能阻礙了AI輔助技術在音訊處理上的進展。儘管這個問題無疑可以從許多角度考慮,探索下影象和光譜的區別,還有視覺和聽覺的一些不同,也許是值得的。
聲音是“透明的”
通過比較視覺影象和光譜,我們可以發現視覺物體和聲音事件積聚的方式不同。用視覺來類比,聲音總是“透明的”而大多數視覺物體是不透明的。
遇到影象中某一顏色的畫素時,大多數情況下我們都可以假定它屬於單個物體,而不同的聲音事件在光譜圖上並不分層。這意味著,我們不能假定光譜圖中觀察到的某一具體頻率屬於單個聲音,因為該頻率的幅度可能是任意數目的聲音累加所得,甚至是相位相抵這樣的聲波間的複雜互動。所以,在光譜表示中,區分同時發生的聲音很難。

上圖展示了三個光譜分析的困難場景。左:相似的音調導致頻率上不均勻的相位相抵。中:難以分離音高相似的同時發生的嗓音。右:噪雜、複雜的聲音場景,使得區分聲音事件特別困難。
光譜的軸攜帶不同的含義
用於影象的CNN使用在x和y維度共享權重的二維過濾器4。如前所述,這一切建立在影象的特徵攜帶的含義與其位置無關這一假定上。例如,不管影象中的人臉是橫向的,還是縱向的,它始終是一張人臉。
而光譜圖的兩個維度表示根本不同的單位,一個是頻率的強度,另一個是時間。橫向移動聲音事件意味著它在時間上的位置發生了偏移,可以主張,不管它是何時發生的,一個聲音事件都意味著同一件事。然而,縱向移動聲音也許會影響其含義:例如,向上移動男性嗓音的頻率可能使含義從男子變為小孩或哥布林。聲音事件的頻率調整也可能改變聲音的空間範圍4。因此,二維CNN提供的空間不變性在這種形式的資料上也許表現沒有那麼好。
聲音的光譜性質不是區域性的
在影象上,相似的相鄰畫素經常被假定為屬於同一視覺物體,但在聲音上,頻率大多數情況下在光譜上的分佈是非區域性的4。週期性的聲音通常由基礎頻率和若干泛音組成。這些泛音的混合決定了音質。
在女性人聲的例子中,某一時刻的基礎頻率也許是200Hz,而第一泛音是400Hz,接下來是600Hz,以此類推。這些頻率並不存在區域性分組,但以共同關係一起移動。這使基於二維卷積在光譜中找出區域性特徵這一任務變得更困難了,因為儘管這些泛音根據同一因素移動,但在空間上經常呈不均勻分佈。

聲音內在地是序列的
評估視覺環境時,我們可以多次“掃描”周邊以定位場景中的每個視覺物體。由於大多數物體不是移動的,它們反射光線的方式是可預測的,我們可以建立它們在物理場景下的擺放位置的心智地圖。從感知的角度來說,我們假定視覺物體在觀測到的位置上持續存在,即使當我們轉頭檢視別處時也是如此。
在聲音上這不成立。聲音採用壓力波的物理形式,從聽者的角度來說,這樣的波在某一時刻的狀態僅僅是當前的。過了這一時刻,聲波便悄然離去。之所以將這一現象稱為聲音事件而不是物體,正是因為如此。從物理上說,這意味著聽者僅在每一時刻體驗到聲音。影象包含了大量的靜態並行資訊,而聲音是高度序列化的。
更合適的比較是音訊和視訊。這兩個媒體都可以被認為描述時間上的運動,其中時間上的依賴性對內容含義的體驗是必不可少的。由於視訊是由一組影象(幀)構成的,它包含更多並行資訊。
演示這一點的其中一個方法是在這兩個媒體中“凍結”某一時刻。檢視視訊的一幀(常常是約1/25秒的曝光時間),我們經常仍舊能夠收集關於上下文、行動、場景的大量資訊:我們可以識別單個物體,有時還能估計行動和移動。但當“凍結”音訊的某一時刻(例如約1/25秒的資訊聚合),基於光譜分析的估計就不可能那麼全面。我們可以蒐集一些關於訊號的總音調平衡和特性的資訊,但程度遠不及視訊。
例如,不可能從時間上下文之外識別單獨的聲音事件,以檢視相同時間模式上的光譜發展。唯一可以確定的就是某一特定時刻聽到的聲音的音調平衡。我們之前提到過,聲音的物理形式是波,這就解釋了為什麼: 聲音不以靜態物體的形式存在,無法並行觀測,它們以氣壓序列的形式到達,通過時間才能建立這些壓力的意義 。

這些原因暗示了聲音作為傳達含義的媒體在本質上是序列的,比視訊更依賴時間。這是將聲音的視覺光譜表示傳入影象處理網路,而沒有考慮到時間的方法可能效果不佳的另一個原因。
建模人類體驗的一個例子
通過建模人類系統,AI技術取得了突破性的進展。儘管人工神經網路是數學模型,僅僅從實際的人類神經元功能上得到了一些最初的啟示,它們在解決複雜、不明確的真實世界問題上的應用有目共睹。在這些神經網路中建模大腦架構上的深度為學習資料的更多有意義表示開啟了廣泛的可能性。在影象辨認和處理方面,CNN從視覺系統的複雜的空間不變性上得到的啟發已經在技術上產生了很大的進展。
正如J. B. Allen在“How Do Humans Process and Recognize Speech?”(人類如何處理和辨識語音)一文中所主張的,只要人類的感知能力超過機器,我們就能持續從理解人類系統的原則中獲得收益5。一般來說,人類在感知任務上非常靈巧,而人類理解和AI現狀在機器聽覺領域的差別尤為明顯。考慮到從人類系統獲得的啟發在視覺處理領域的收穫(以及視覺模型在聲音上表現沒那麼好這一點),我覺得我們在基於神經網路的機器聽覺上也能從借鑑人類系統中持續獲得收益。
參考文獻
- L. A. Gatys, A. S. Ecker, and M. Bethge, Image Style Transfer Using Convolutional Neural Networks , in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 2414–2423.
- Y. Li, N. Wang, J. Liu, and X. Hou, Demystifying Neural Style Transfer , Jan. 2017.
- P. Verma and J. O. Smith, Neural Style Transfer for Audio Spectrograms , Jan. 2018.
- L. Wyse. 2017. Audio Spectrogram Representations for Processing with Convolutional Neural Networks . Proceedings of the First International Workshop on Deep Learning and Music joint with IJCNN. Anchorage, US. May, 2017. 1(1). pp 37–41. DOI: 10.13140/RG.2.2.22227.99364/1
- J. B. Allen, How Do Humans Process and Recognize Speech? , IEEE Trans. Speech Audio Process., vol. 2, no. 4, pp. 567–577, 1994.