利用梅爾倒譜系數（MFCC）及空間聚類演算法實現音色識別

阿新 • • 發佈：2019-01-21

寫在前面

2016年4月參加了哈爾濱工業大學深圳研究生院舉辦的創新創業比賽，司職演算法組長，切入點定在了音色識別和相似明星音才藝展示推薦演算法上，不才，拿到了一等獎，趁佳節未散與大家分享。

專案進度安排

2016年1月~2016年3月：前期工作中瞭解學習了語音訊號處理的基本原理，查閱有關文獻了解到了聲音音色資訊的描述方式，梅爾（Mel）倒譜系數的意義，推導了相關公式並實現了MFCC（Mel Frequency Cepstral Coefficient）引數的計算，閱讀並瞭解了有關說話人識別，音色識別和MFCC引數的相關應用情況。

2016年4月~2016年6月：後期工作中組內部分成員同軟體組（還是什麼組？）共同合作完成了由演算法向實際應用的轉化，另一部分成員進行了後續的演算法優化，添加了噪聲預處理環節，並期待利用支援向量機（SVM），K-均值聚類（K-means）等機器學習演算法實現更好的音色識別效果。

專案實施方案與原理

在MFCC引數提取方面，我們遵循[1]中所述的計算流程，程式設計實現了對一段語音的MFCC引數提取：

具體的程式設計環節這裡暫時不介紹，從Mel刻度轉換後我們得到的MFCC引數多達40餘個，為了避免特徵泛化導致識別率降低，我們需要對這些特徵進行篩選。還好這個工作已經有人替我們完成[2]，通過離散傅立葉變換（DCT），我們可以得到需要的C2~C16的特徵值作為說話人的音色描述子。用了別人的工作，我們還應該本著嚴謹的態度對其進行驗證。這裡我們設計一個二類分類實驗，利用SVM來進行音色描述子優劣的描述。利用現有資料庫的測試資料，我們實現瞭如下的測試結果：

SVM十次十折實驗利用MFCC引數作為特徵可實現97.5%的識別準確率。

SVM再處理多類分類問題時存在著運算速度和效率上的限制，從這一點考慮，我們先使用了最簡單的最小歐式距離法進行識別，該演算法在小參考集下運算速度較快，但大參考集時運算耗時會嚴重增長，為了解決這個問題，我們提出了使用K-means聚類+最小歐式距離結合的方法，利用聚類演算法，將大型的資料集分成若干個小的資料集，並且以聚類中心作為該集合的label，識別過程中首先進行類間匹配，接下來再進行類內匹配。

演算法上的專案創新點有二：

其一，首次使用MFCC引數作為歌手的識別推薦系統下，需要解決很多噪聲處理和歌手特徵提取的難題；

其二，在識別過程中採用了無監督學習和有監督學習結合的方法，加快識別速度。

不足之處的反思

目前採用的特徵還只是MFCC引數這一個角度，特徵的型別較為單一，在未來的研究中，可以增加一些更為有效的特徵作為音色的描述，同時，可以引進更大的標準資料庫，在網際網路上利用爬蟲等資料探勘手段收集更多的明星聲音來擴充我們的標準庫。作為一款娛樂應用，這個APP已經具備了初步市場化的能力，但是一首歌終究還是由音色，音調和節奏等多方面組成，我們推薦結果的好壞是一個取決於APP使用者很主觀的評價準則。如何實現APP的可持續發展，如何讓APP保持活力，維持使用者數量和使用者活躍度等等都是很不確定的因素。

reference：

[2]甄斌,吳璽巨集,劉志敏,遲惠生. 語音識別和說話人識別中各倒譜分量的相對重要性[J].北京大學學報(自然科學版),2001,03:371-378.

Attachment:

展示一下最後APP的結果：

以及移動端的邏輯關係：

利用梅爾倒譜系數（MFCC）及空間聚類演算法實現音色識別

寫在前面

專案進度安排

專案實施方案與原理

不足之處的反思

reference：

Attachment:

利用梅爾倒譜系數（MFCC）及空間聚類演算法實現音色識別

梅爾頻率倒譜系數（MFCC）學習筆記

梅爾頻率倒譜系數（MFCC）的提取過程與C++程式碼實現

機器學習總結（十）：常用聚類演算法（Kmeans、密度聚類、層次聚類）及常見問題

基礎演算法（二）：Kmeans聚類演算法的基本原理與應用

機器學習（二）——K均值聚類演算法（K-means）

機器學習（2）：DBSCAN聚類演算法

模糊聚類演算法（FCM）和硬聚類演算法（HCM)的VB6.0實現及其應用

第23課可變參數模板（4）_Optional和Lazy類的實現

python的內置函數（續）及匿名函數

隱馬爾可夫模型（HMM）及Viterbi演算法

SLS機器學習介紹（02）：時序聚類建模

多執行緒（1）：繼承Thread類和實現Runnable介面

吳恩達機器學習（十一）K-means（無監督學習、聚類演算法）

Python Numpy 100題實驗（九）：幾種標準化演算法實現

圖相關（三）圖的鄰接矩陣表示（C++）及最最小生成樹演算法（prim和kruskal）

圖相關（二）圖的鄰接矩陣表示（C++）及最短路徑演算法

【機器學習】人像識別（三）——K-Means聚類

機器學習系列：（六）K-Means聚類

【無監督學習】3：Density Peaks聚類演算法實現（區域性密度聚類演算法）

利用梅爾倒譜系數（MFCC）及空間聚類演算法實現音色識別

寫在前面

專案進度安排

專案實施方案與原理

不足之處的反思

reference：

Attachment:

相關推薦