1. 程式人生 > >論文筆記:語音情感識別(二)聲譜圖+CRNN

論文筆記:語音情感識別(二)聲譜圖+CRNN

一:An Attention Pooling based Representation Learning Method for Speech Emotion Recognition(2018 InterSpeech)
(1)論文的模型如下圖,輸入聲譜圖,CNN先用兩個不同的卷積核分別提取時域特徵和頻域特徵,concat後餵給後面的CNN,在最後一層使用attention pooling的技術,在IEMOCAP的四類情感上取得71.8% 的weighted accuracy (WA) 和68% 的unweighted accuracy (UA),WA就是平時說的準確率,而UA是求各類的準確率然後做平均 。比state-of-art多了3%的WA和4%的UA。
(2)實驗中的其中一篇baseline剛好也看了一下(就是下一篇要提到的論文),baseline用的是五折交叉而且帶驗證集的,而本論文用的是十折交叉只帶測試集的,所以直接對比應該是不太科學的。
(3)我在復現這篇論文模型的時候一直都達不到論文中的結果,反覆看了一下,最後是注意到論文在attention pooling合併前對bottom-up attention的feature map先做了一個softmax,這個softmax我覺得很奇怪,把它去掉後發現準確率飆升,可以達到論文中的實驗結果,甚至可以超出。
(4)復現的時候我用的python_speech_feature庫,其中有三種聲譜圖可以選擇,振幅圖,能量圖,log能量圖,debug的時候發現振幅和能量值的range還是挺大的,用log可以把range很大的值壓到比較小的範圍,所以我用的是log能量圖。論文中提到對聲譜圖做一個預處理,說是可以讓訓練過程更加穩定,我在實現論文的時候有發現不加這個預處理結果會比較高。預處理的做法是先歸一化到[-1, 1]然後做一個u為256的u率壓擴,看到這裡的256我估計論文是把聲譜圖直接儲存成影象後做的歸一化,而我是儲存成聲譜圖矩陣來作為輸入。

二:Efficient Emotion Recognition from Speech Using Deep Learning on Spectrograms(2017 InterSpeech)
(1)這篇論文是上一篇論文的其中一個baseline,於是也看了一下。模型結構圖如下圖,輸入的也是聲譜圖,和上一篇稍微不同的是預處理方面,上篇是切割成小於2s的樣本,本文是小於3s。資料集用的也是IEMOCAP。
(2)論文還探討了幾種預處理(頻率解析度用10HZ還是20HZ)和網路結構(幾個卷積層,LSTM用多少隱藏單元)的實驗影響,以及評估了模型的噪音免疫能力。
(3)論文還介紹了一種兩步預測的方法,先經過1個四分類器(4個情感),如果是中立類,則要另外通過3個二分類器來判定最後的情感。這麼做可以提升UA,其背後直覺的解釋是,一個非中立情感的大部分性質都是中立的,情感性質只佔一小部分,所以對於中立類,需要進一步判定。

三:Deep Spectrum Feature Representations for Speech Emotion Recognition(2018 ACM MM workshop——ASMMC-MMAC)
(1)輸入的是梅爾尺度的聲譜圖(可以用librosa庫調包得到),論文沒有詳細介紹輸入部分和網路的銜接,這裡應該是把一個utterance(一段語音)分成很多幀,每幀得到一個聲譜圖,CNN把一個utterance分成的很多幀拼成不同通道,BLSTM則是把很多幀當成一個序列來輸入。資料集用的也是IEMOCAP。
(2)論文也探討了幾種預處理和網路結構的實驗影響。比較了聲譜圖特徵和其它兩個特徵集(eGeMAPS和ComParE)的效果(餵給SVM),聲譜圖特徵會稍微好一點。

四:An Image-based Deep Spectrum Feature Representation for the Recognition of Emotional Speech(2017 ACM MM)
(1)輸入聲譜圖,放縮裁剪成227x227,送進caffe中預訓練好的AlexNet訓練,然後從第二個全連線層取出特徵向量,跟兩種傳統特徵集eGeMAPS,ComParE和BoAW(bag-of-audio-words,對LLDs特徵的一種組織,LLDs指那些人工設計的低水平描述符,本文中使用的LLDs為MFCC和log訊號能量)進行比較(餵給SVM),論文簡單介紹了這三種特徵。資料集用的是FAU-AIBO,有兩種分類方式,一種是五分類,一種是二分類。
(2)做特徵比較的時候使用了三個版本的FAU-AIBO資料比較,分別是clean,noisy和de-noised。其中de-noised是對noisy資料做了一個去噪,使用了一個三層LSTM模型,輸入是100個Mel譜,模型在幾個噪音版本的Audio Visual Interest Corpus上訓練。
(3)比較發現聲譜圖提取的特徵對於噪音資料具有更好的魯棒性,同時可以看到de-noised系統的去噪並沒有生效(和noisy版本的表現一樣差)。

五:Emotion Recognition from Variable-Length Speech Segments Using Deep Learning on Spectrograms(2018 InterSpeech)
(1)分幀加窗DFT轉為log能量譜,然後做0均值1標準差的歸一化(根據訓練集),使用IEMOCAP資料集。模型結構如下圖所示。卷積學習空間資訊,GRU學習時間資訊,全連線層做最後的分類。
(2)通常的定長做法:為了使得模型能夠輸入定長樣本,通常會把語音劃分成等長樣本(比如3秒)訓練,然後在預測階段也做分割,做多個預測來平均得分。
(3)變長做法:本文用了一種可以在預測階段直接接受變長樣本而不需要切割的方法,具體做法為:使時間長度類似的樣本放在一個batch中然後pad到當前batch最長樣本的長度。訓練/預測的時候使用一個Mask矩陣(向量)來獲得有效(valid)的輸入區域,padding區域丟棄即可,需要注意的是max pooling的時候要處理好邊界問題,對於跨邊界資料把邊緣值作為padding資料。
(4)訓練的時候給不同長度的句子(loss)分配反比權重。另外為了處理IEMOCAP的不平衡問題給不同類別也分配反比權重,之前幾篇在IEMOCAP上做實驗的論文也有用到這個方法,還有使用重取樣的方法。

六:Investigation on Joint Representation Learning for Robust Feature Extraction in Speech Emotion Recognition (2018 InterSpeech)
(1)最近結合了CNN和RNN和CRNN被廣泛用於語音情感識別,然而這些模型只是簡單地使用了聲譜圖的資訊,並不能捕捉足夠的情感特徵。本文提出的HSF-CRNN模型結合了HSF手工特徵,可以學習更好的情感特徵,在2018 InterSpeech非典型情感挑戰資料集 和 IEMOCAP 上做了實驗,比baseline(CRNN)的效果要好。
(2)模型如下兩圖,第一個是baseline,第二個是本文的模型。CRNN部分輸入的是聲譜圖,而LLD(Low Level Descriptors)指的是基頻,能量,過零率,MFCC,LPCC等這些特徵。HSF(High level Statistics Functions)是在LLD基礎上做統計得到的特徵,描述了整個utterance的動態情感內容。

七:Using Regional Saliency for Speech Emotion Recognition(2017 ICASSP)
(1)將CNN應用於低水平的時域特徵(本文用的是40維的log Mel filterbank)來識別情感顯著區,這樣就不需要在utterance水平上做統計運算。如下圖所示,在時間方向上卷積,一幀一幀地卷,然後用全域性最大池化來捕捉時間上的重要區域。資料集用的是IEMOCAP和MSP-IMPROV。
(2)實驗表明了論文的模型(使用區域顯著資訊)比“在utterance水平上做統計然後送入全連線”(使用統計特徵)的效果好。實驗還對比了和“流行的特徵集InterSpeech09,InterSpeech13,GeMAPS和eGeMAPS用在SVM”的表現,有優有劣,不過論文的模型只使用了40個特徵。另外還使用了速度增強來提高表現。

八:3-D Convolutional Recurrent Neural Networks with Attention Model for Speech Emotion Recognition(2018 IEEE Signal Processing Letters)
(1)對語音訊號DFT後的能量譜進行梅爾濾波然後取log,得到log-Mels,又計算log-Mels的deltas和delta-deltas特徵,如下圖所示,三種特徵組成三個通道,橫向上是梅爾濾波組,論文設定為40個,縱向上是時間,丟進3維卷積,池化,線性層,LSTM,然後做個attention,最後接全連線和softmax分類。資料集是IEMOCAP和Emo-DB。
(2)論文做了消解(ablation)學習,發現6個卷積層在IEMOCAP上效果最好,5個卷積層在Emo-DB上最好。另外對比了DNN-ELM和二維卷積,發現本文模型效果最好。

九:A Feature Fusion Method Based On Extreme Learning Machine For Speech Emotion Recognition(2018 ICASSP)
(1)本文在流行的“聲譜圖+CRNN”框架上做了改進,第一個改進是加入啟發性特徵,第二個改進是用ELM的方法替代BLSTM。
(2)啟發性特徵有384維,是2009 InterSpeech挑戰賽提議的統計特徵,使用openSMILE獲得。
(3)BLSTM結構比較複雜,而ELM是一種單隱層網路的學習演算法,它的訓練更快。另外,BLSTM在資料不充足的時候訓練效果並不理想。

系列筆記

論文筆記:語音情感識別(一)語音知識概覽