A Bayesian Approach to Deep Neural Network Adaptation with Applications to Robust Automatic Speech Recognition
基於貝葉斯的深度神經網絡自適應及其在魯棒自動語音識別中的應用
直接貝葉斯DNN自適應
使用高斯先驗對DNN進行MAP自適應
為何貝葉斯在模型自適應中很有用?
- 因為自適應問題可以視為後驗估計問題:
- 能夠克服災難性遺忘問題
在實現通用智能時,神經網絡需要學習並記住多個任務,任務順序無標註,任務會不可預期地切換,同種任務可能在很長一段時間內不會復現。當對當前任務B進行學習時,對先前任務A的知識會突然地丟失,這種現象被稱為災難性遺忘(catastrophic forgetting)。
DNN的MAP自適應:理論背景
基於GMM系統的MAP
GMM作為生成性pdf:符合直覺
共軛先驗(Conjugate Prior)
在貝葉斯統計中,如果後驗分布與先驗分布屬於同類,則先驗分布與後驗分布被稱為共軛分布,而先驗分布被稱為似然函數的共軛先驗。
具體地說,就是給定貝葉斯公式
基於DNN的MAP自適應
但是DNN是鑒別性模型,它沒有生成性後驗概率的概率密度函數。
使得DNN近似為概率密度函數
- 將DNN看作是一個概率密度函數
將DNN的目標函數以概率(似然)形式表示:
- 估計後驗概率
其中似然L可以是交叉熵、最小互信息、最小音素錯誤、最小分類錯誤等。
先驗估計:經驗貝葉斯
對訓練說話人進行自適應,並分析說話人直接的參數分布。
Prior Estimation Cont‘d(先驗估計,接上頁)
con‘d, Abbreviation of continued, 接上頁
假設先驗分布為多元高斯
等式右邊,只用矢量w完成了對矩陣W的表示(向量化)。
假設先驗分布為矩陣高斯
多元高斯與矩陣高斯的結果類似,不過多元高斯先驗使用了向量化,更易於處理、更易於簡化至到L2正則項。
高斯先驗:易於簡化至到L2正則項
- 多元高斯先驗的展開式:
-
- L2正則化訓練
DNN自適應中的災難性遺忘
自適應後,DNN對自適應數據中見過的類有偏差;
喪失對未觀察到樣本的識別能力
貝葉斯用於解決災難性遺忘問題
控制參數數量(LHN)
只對插入到線性隱層的仿射變換權重進行適應:凍結其他參數
通常使用一個瓶頸層以控制LHN的大小,進一步較少參數數量。
MAP:只更新激活函數參數
適應隱層中Sigmoid激活函數(AF)參數
此方法更新的參數比LHN更少。
實驗(SWBD)
- 保持權重不變,只更新AF參數,WER降低4.6%(15.1->14.4)
在此基礎之上,以最大後驗概率準則更新AF參數,WER進一步降低2.8%(14.4->14.0)
- 進行特征空間最大似然線性回歸(fMLLR),WER降低7.9%(15.1->13.9)
在此基礎之上,以最大後驗概率準則更新AF參數,WER進一步降低5.0%(13.9->13.2)
間接貝葉斯DNN自適應
對從DNN獲得瓶頸特征進行MAP/SMAP
- 對DNN的直接自適應是可行的,但是還是比不上對GMM的貝葉斯自適應。
- 如何更好地利用成熟的貝葉斯自適應方法
- 將DNN轉換為GMM
基於DNN瓶頸特征處理後的特征進行MAP/SMAP
瓶頸特征是鑒別性數據驅動方式訓練的;
通過拼接以使用DNN的優點;
要獲得瓶頸特征:
- 訓練一個帶有瓶頸層的DNN;
- 訓練一個不帶有瓶頸層的DNN,然後進行奇異值分解(SVD)以得到瓶頸;
- 不使用瓶頸層,只進行PCA/LDA降維;
MAP/SMAP自適應
MAP
是有效的模型自適應方法,對小數據集魯棒;
數據量很大時,將蛻化至(相當於)最大似然估計(MLE);
會由於缺少數據,不能更新未見的三音素;
SMAP(Structured MAP)
針對少數據量的結構化MAP自適應
MAP/SMAP實驗
瓶頸特征的GMM-HMM略微差與原DNN-HMM(基線)結果(WER提高0.2%,8.84->8.86)
對瓶頸特征進行MAP的GMM-HMM WER降低5.2%(8.84->8.38)
對瓶頸特征進行SMAP的GMM-HMM WER降低11.1%(8.84->7.85)
與MAP-LHN、LHN相比,SMAP最優。
總結
直接DNN自適應:
- 使用高斯先驗進行有監督/無監督的自適應
- 多任務學習(MTL)自適應以解決數據稀疏問題
自適應時,需要對DNN構建一個框架。使用已提出的框架,可以將DNN應用到不同種類型的模型與不同的任務中。
通過瓶頸特征,將DNN"轉換"為生成性模型
- 使用瓶頸特征將DNN-HMM轉換為GMM-HMM
為DNN提供了使用傳統統計學機器學習方法(包括貝葉斯方法)
A Bayesian Approach to Deep Neural Network Adaptation with Applications to Robust Automatic Speech Recognition