機器聽覺:一、AI在音訊處理上的潛力
作者:Daniel Rothmann
編譯:weakish
這兩年來AI,特別是深度學習發展迅猛,我們在影象和視訊處理方面看到了大量AI技術的應用。儘管AI進入音訊世界的步伐要晚一點,我們同樣看到了令人印象深刻的技術進展。
在這篇文章中,我將總結一些進展,勾勒下AI在音訊處理方面的潛力,同時描述下這條路線上可能碰到的問題和挑戰。
趨向更智慧的音訊
我對音訊處理方面的AI應用的興趣源於2016年底DeepMind的WaveNet的發表——WaveNet是一個生成音訊錄音的深度學習模型1。這一基於自適應網路架構的 擴張卷積神經網路 能夠成功生成很有說服力的文字到語音轉換,並能基於經典鋼琴錄音訓練出有趣的類似音樂的錄音。

我們在商業世界中看到了更多機器學習應用——例如LANDR,一個自動母帶後期處理服務,該服務依靠AI設定數字音訊處理和增益細化的引數。
專業音訊軟體巨頭iZotope在2017年釋出了Neutron 2,這個混音工具的特色是利用AI檢測樂器並向用戶建議裝置預設的“音軌助手”。iZotope的音訊修復套件RX 6中還有一個分離談話的工具,同樣基於AI技術。
ofollow,noindex">
AI在數字訊號處理方面的潛力
AI在音訊處理上的應用仍處於早期。深度學習方法讓我們可以從一個全新的角度應對訊號處理問題,但整個音訊行業對此的認知遠遠不夠。目前而言,音訊行業專注於公式化的處理方法:深入理解問題後,手工設計求解函式。然而,理解聲音是一項非常複雜的任務,我們人類直覺上認為相當容易的問題實際上很難公式化地描述。
以音源分離為例:在一個兩個人同時說話的場景下,你的大腦不需要費多少功夫就可以想象任何一個人在單獨說話。但是我們如何描述分離這兩個語言的公式呢?好,它取決於:
有描述人類嗓音的統一方式嗎?如果答案是肯定的,性別、年齡、精力、個性等引數是如何影響這一描述的呢?聽話人的物理距離和房間的音響效果如何影響這一理解?錄音中可能出現的非人類發出的噪聲如何處理?通過什麼引數可以將一個人的嗓音和另一個人區分開來?
如你所見,設計一個全面兼顧這一問題的公式需要關注大量引數。AI在這裡提供了一種更實用的方法——通過設定學習的恰當條件,我們通過統計學方法自動估計這一複雜函式。事實上,助聽器生產商Oticon研發中心Eriksholm的研究人員提出了一種基於卷積迴圈神經網路架構在實時應用中更好地分離音源的方法2。
由於基於深度神經網路處理音訊的方法仍在不斷改進之中,我們只能開始設想下可能解決的一些困難問題——下面是我在深度學習用於實時音訊處理方面的一些設想:
- 選擇性噪聲消除 ,例如移除汽車的聲音。
- Hi-fi音訊重建 ,例如基於小型、低質的麥克風採集的音訊。
- 模擬音訊模擬 ,模仿非線性模擬音訊元件的複雜互動。
- 語音處理 ,例如更改錄音的說話人、方言、語言。
- 改善空間模擬 ,用於迴響、雙耳統合處理。
表示和架構上的挑戰
WaveNet是最早在原始樣本層次成功生成音訊的嘗試之一。這裡有一大問題,CD音質的音訊通常以每秒44100的取樣率儲存,因此WaveNet需要 幾小時 才能生成 幾秒 的音訊。這在實時應用中就不行了。
另一方面,許多基於神經網路處理音訊的現有方案利用光譜表示和卷積網路。這些方案基本上將音訊頻譜視覺化為2D影象,然後使用卷積網路掃描、處理影象3。通常,這些方法的結果並不像視覺領域的結果那麼有吸引力,比如 CycleGAN 可以對電影進行令人印象深刻的風格遷移。

電影和音訊剪輯有一些相同之處,它們都描繪了時間之上的運動。考慮到CycleGAN這樣在影象處理網路方面的創新,有人可能會假定音訊上同樣可以進行這樣的風格遷移。
但電影和音訊剪輯不是一回事——如果我們凍結電影的一幀,從這一幀中仍能得到相當多的關於行動的資訊。但如果我們凍結音訊的“一幀”,其中只有極少的資訊。這意味著,相比電影,音訊在基礎上更依賴時間。在光譜中,我們也從來不會假定一個畫素屬於單個物件:音訊永遠“細如絲線”,光譜在同一幀中顯示所有混雜在一起的聲響3。
卷積神經網路的設計借鑑了人類的視覺系統,最初基於視皮層的資訊傳播過程5。我相信,這裡有一個值得考慮的問題。我們基本是將音訊轉換成影象,然後在影象上進行視覺處理,再轉換回音訊。所以,我們是用機器視覺來處理機器聽覺。但是,從直覺上說,這兩種感官的工作方式是不一樣的。看看下面的光譜,憑藉你聰慧的人類大腦,你能從中得到多少關於音訊實際內容的有意義的資訊?如果你可以聽到它,你將很快直觀地體會到正在發生什麼。也許這正是阻礙面向音訊的AI輔助技術發展的問題所在。

因此我提議,神經網路要想在音訊處理上取得更好的結果,我們應該集中精力找到專門針對音訊的更好表示和神經網路架構。比如自相關圖這樣包括時間、頻率、週期性的三維表示6。人類可以基於直覺比較聲音的週期性,找出模式的相似性,以區分音源。音高和節奏也是時間因素的結果。因此像自相關圖這樣更關注時間的表示,可能有用。

此外,我們可以開始設想在架構上建模聽覺系統的神經通路。當聲音刺激耳膜並傳至耳蝸時,根據頻率的不同,它會轉為不同幅度。接著聲音傳至中央聽覺系統進行時間模式處理。中央聽覺系統中負責從音訊中收集意義的分析模式中,哪一種可以通過人工神經網路建模?也許是週期性6,也許是聲音事件的統計學分組7,也許是分析的擴張時間幀1。

結語
AI領域的發展為智慧音訊處理提供了很大潛力。但要讓神經網路更好地理解聲音,我們也許需要離內在地視覺上的方法遠一點,轉而考慮基於聽覺系統的新技術。
這篇文章中,相比提供的答案,我提出了更多的問題,希望能引起你對此的思考。
參考資料
- A. Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. Senior, K. Kavukcuoglu: WaveNet: A Generative Model for Raw Audio , 2016
- G. Naithani, T. Barker, G. Parascandolo, L. Bramsløw, N. Pontoppidan, T- Virtanan: Low Latency Sound Source Separation Using Convolutional Recurrent Neural Networks , 2017
- L. Wyse: Audio spectrogram representations for processing with Convolutional Neural Networks , 2017
- J. Zhu, T. Park, P. Isola, A. Efros: Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks , 2017
- Y. Bengio: Learning Deep Architectures for AI (p. 44) , 2009
- M. Slaney, R. Lyon: On the importance of time — A temporal representation of sound , 1993
- E. Piazza, T. Sweeny, D. Wessel, M. Silver, D. Whitney: Humans Use Summary Statistics to Perceive Auditory Sequences , 2013