1. 程式人生 > >【論文:麥克風陣列增強】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering

【論文:麥克風陣列增強】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering

res transient ice ges nal gen image 增強 reg

作者:桂。

時間:2017-06-06 16:10:47

鏈接:http://www.cnblogs.com/xingshansi/p/6951494.html

原文鏈接:http://pan.baidu.com/s/1i51Kymp


未完待續

前言

  這篇文章是TF-GSC的改進版。雖然TF-GSC對於方向性幹擾的抑制效果不錯,對於彌散噪聲(diffuse noise,題外話:不同方向directional noise的均值,或者接近這種效果,可以理解為diffuse noise.)TF-GSC性能下降明顯,如果diffuse noise還是non-stationary,性能下降就更嚴重了。本文的思路是在TF-GSC的基礎上,引入postfiltering(後置濾波),文中提到了三種方法:兩種基於single channel-1)mixture maximum;2)OMLSA;但如果噪聲both diffused and nonstationary,基於single channel的方法不再適用,這時候方法3仍然有效:a new multimicrophone postfilter method。

  本文主要梳理基於TF-GSC的multimicrophone postfilter method,因為基於single channel的兩種方法都是單獨使用,後面有時間另寫文章整理。

一、OMLSA思想

  A-利用不存在概率的增強

首先回顧利用absence probability的思路

技術分享

容易推理基於MMSE準則的估計器

技術分享

如果考慮語音存在概率,則估計器擴展為

技術分享

理論上技術分享的值為0,上式簡化為

技術分享

  B-語音不存在概率與最大似然準則估計器ML 結合

例如在語音增強一文中介紹的,基於最大似然準則的估計器為

技術分享

從Y的概率密度形式

技術分享

易知ML是基於語音存在的假設,結合語音存在概率,則基於ML準則的估計器為

技術分享

對於技術分享)的計算可以利用貝葉斯準則

技術分享

這裏利用一個假設(也就是約束條件):噪聲服從均值為0,方差相同的復高斯分布技術分享,此時容易證明噪聲幅度服從瑞利分布(相位為均勻分布,且二者獨立),

技術分享

H1假設下,技術分享此時

技術分享

關於技術分享的計算參考語音增強一文的最大似然估計。例如假設語音存在/不存在是等可能的,技術分享,此時完成了技術分享的估計:

技術分享

其中技術分享是a posteriori SNR,技術分享a priori SNR。這個就是一般意義的參數估計了,在語音增強一文也給出了兩個實現思路:1)Maximum-Likelihood Method;2)Decision-Directed Approach.至此也就完成了結合不存在概率的語音增強。

  C-語音不存在概率與最小均方誤差估計器MMSE 結合

其實基本思路都是一樣的:

技術分享

然後是利用貝葉斯進行概率估計

技術分享

不同點在於這裏進行了轉化

技術分享

其中

技術分享

其中技術分享,denotes the a priori probability of speech absence for frequency bin k.從而技術分享

與ML準則不同的是,只有噪聲時,是噪聲D的分布,而不是其幅度(其實如果是幅度,也有一套方法,感興趣可以自己推導推導)。技術分享仍是高斯分布

技術分享

H1時,技術分享且認為D與X不相關,易得

技術分享

代入上面的估計器,有

技術分享

其中技術分享就是技術分享,則技術分享.進一步求解條件概率

技術分享

其中

技術分享

參數估計的細節與ML中的估計思路一致。從而實現信號的增強:

技術分享

G就是MMSE估計器

技術分享

不同之處是裏邊的技術分享替換成技術分享

題外話:看看之前的參數估計與此處參數估計的聯系

技術分享

技術分享技術分享

不得不佩服,這些理論的研究者真有一套。

  D-語音不存在概率與對數最小均方誤差估計器Log-MMSE 結合(OMLSA)

原理與其他方法一致

技術分享

X的估計器

技術分享

可以進一步寫為

技術分享

其中技術分享就是語音增強一文中的對數MMSE估計器。這裏要有一點不同了,這裏的概率是指數形式,有學者研究這樣的增強效果並不比直接LSA更好,所以對其變形

技術分享

還是與其他方法類似:概率相乘的形式。這裏的技術分享與MMSE中的一致。至此完成了LSA與語音不存在概率的結合。但這套理論比較粗糙,一些學者(原文見這裏,P262)提出了不同的角度:只有噪聲時,不再認為嚴格為0,而是接近0:

技術分享

技術分享

其中技術分享,第一項技術分享就是最開始的LSA與語音存在概率的原始結合,這就是optimally modified log-spectrum amplitude (OMLSA) estimator ,即

技術分享

參數估計的改進(此處沒寫完,待補充):

Implementation Issues Regarding A Priori Snr Estimation
Methods For Estimating The A Priori Probability Of Speech Absence

二、論文理論框架

麥克風接收的信號

技術分享

其中m代表第m個麥克,技術分享是TF的時域形式(acoustical transfer function,ATF),技術分享對應the stationary noise component,即穩態噪聲,技術分享對應the transient noise component,即瞬態噪聲。對應頻域變換

技術分享

其中

技術分享

TF-GSC框架前文已經梳理,這裏主要分析 the multimicrophone postfiltering:

技術分享

假設TF-GSC處理之後的信號為Y,則後處理操作

技術分享

其中

技術分享

[找時間再補充,明天要開會,就此打住,休息]

參考

  • Gannot, Sharon, and Israel Cohen. "Speech enhancement based on the general transfer function GSC and postfiltering." IEEE Transactions on Speech and Audio Processing 12.6 (2004): 561-571.
  • Loizou, Philipos C. Speech enhancement: theory and practice. CRC press, 2013.

【論文:麥克風陣列增強】Speech Enhancement Based on the General Transfer Function GSC and Postfiltering