論作曲的能力，深度學習打不過簡單的概率方法

深度學習 · 發表 2018-09-11 10:46:51

摘要：作者：Haebichan Jung 編譯：Bing 編者按：本文來自資料科學家Haebichan Jung，他發現用深度學習製作音樂時存在某些邏輯上的問題，並用資料方法建立自己的模型解決了這一問題。本文分為四部分：問題定位：我是如何發現在利用深度學習技術生成...

作者：Haebichan Jung

編譯：Bing

編者按：本文來自資料科學家Haebichan Jung，他發現用深度學習製作音樂時存在某些邏輯上的問題，並用資料方法建立自己的模型解決了這一問題。本文分為四部分：

問題定位： 我是如何發現在利用深度學習技術生成流行音樂時會有問題的。
解決方法： 我如何建立了一個原始的音樂生成機器，只需要簡單方法就能與深度學習相媲美。
結果評估： 我是如何建立一套評估體系，用數學方法證明“我的音樂比深度學習生成的方法聽起來更像流行音樂”的。
泛化： 如何發現生成自己模型的方法，將其應用到場景而不是音樂生成上。

以下是論智帶來的編譯：

我建立了一個簡單的概率模型，可以生成流行音樂。有了客觀評判尺度之後，我認為模型生成的音樂聽起來更接近流行音樂的風格。我是如何做到的呢？其中最主要的原因是我關注到了流行音樂的核心： 主旋律（melody）和和聲（harmony）之間的資料關係 。

主旋律是人聲部分，是曲調。和聲是伴奏、和絃。在鋼琴曲中，主旋律由右手演奏，左手負責和絃

問題所在

在研究二者的關係之前，讓我們首先對這一問題下個定義。我最初開始這個專案時，只是單純想用深度學習生成流行音樂。然後我就接觸到了LSTMs，這是一種特殊的迴圈神經網路，是用於文字和音樂生成的流行工具。

另一位資料科學家Sigurður Skúli曾寫過一篇教程，講述瞭如何用LSTM神經網路和Keras生成音樂。地址： ofollow,noindex">towardsdatascience.com/how-to-generate-music-using-a-lstm-neural-network-in-keras-68786834d4c5

但是我深入瞭解後，對使用RNN和各種變體生成流行音樂的方法背後的邏輯產生了懷疑。這種邏輯看起來是建立在多種有關流行音樂內部結構的假設上，但我並不完全認可。

其中一個具體的假設是主旋律和和聲彼此獨立的關係。

例如，2017年，多倫多大學的研究人員Hang Chu等人曾發表文章： Song From Pi: A Musically Plausible Network for Pop Music Generation 。其中作者認為：“假設和絃是獨立於給定的旋律的……”基於這一論斷，作者搭建了一個複雜多層的RNN模型，主旋律在它所在的層中可以生成音符，而在和絃層中音符是自動生成的。除了彼此獨立，該模型是依靠主旋律生成和絃的，這就意味著和絃的音符生成是取決於主旋律的。

我覺得這種模型很奇怪，因為他並沒有模仿人類創作歌曲的方法。我本人曾學過鋼琴，就個人而言，我是不會在創作主旋律音符時不考慮和絃的。因為和絃音符既定義了旋律，也對旋律有所限制。西方流行音樂有一個很重要的特質：和絃是決定主旋律的關鍵。用資料科學語言表達，我們可以說某一有條件的概率控制了主旋律和和聲之間的資料關係。

解決方法

首先，我研究了控制不同型別音符之間關係的預定概率。其中一個例子就是上文中提到的旋律與和聲之間的“垂直”關係。

處理資料

關於資料，我將20首流行音樂轉換成midi格式，完整歌單可以點選： www.popmusicmaker.com/

利用一個名為music21的Python庫，主要通過馬爾科夫過程處理了midi檔案，提取出作為輸入的不同型別的音符之間的資料關係。具體來說，我會計算我的音符之間的轉移概率（transition probability）。這表示，當音符從前一個過渡到下一個時，我們可以計算其中的概率（下文會繼續深入講解）。