1. 程式人生 > >數字語音訊號處理學習筆記——語音訊號的短時時域分析(1)

數字語音訊號處理學習筆記——語音訊號的短時時域分析(1)

版權宣告:本文為博主原創文章,未經博主允許不得轉載。    https://blog.csdn.net/u013538664/article/details/25392889
3.1 概述

    語音訊號是一種非平穩的時變訊號,它攜帶著各種資訊。在語音編碼、語音合成、語音識別和語音增強等語音處理中都需要提取語音中包含的各種資訊。一般而言語音處理的目的有兩種:一種是對語音訊號進行分析,提取特徵引數,用於後續處理;另一種是加工語音訊號,例如在語音增強中對含噪語音進行背景噪聲抑制,以獲得相對“乾淨”的語音;在語音合成方中需要對分段語音進行拼接平滑,獲得主觀音質較高的合成語音,這方面的應用同樣是建立在分析並提取語音訊號資訊的基礎上的。總之,語音訊號分析的目的就在於方便有效地提取並表示語音訊號所攜帶的資訊。

       根據所分析的引數型別,語音訊號分析可以分成時域分析和變換域(頻域、倒譜域)分析。其中時域分析方法是最簡單、最直觀的方法,它直接對語音訊號的時域波形進行分析,提取的特徵引數主要有語音的短時能量和平均幅度、短時平均過零率、短時自相關函式和短時平均幅度差函式等。

3.2 語音訊號的預處理 

       實際的語音訊號是模擬訊號,因此在對語音訊號進行數字處理之前,首先要將模擬語音訊號s(t)以取樣週期T取樣,將其離散化為s(n),採用週期的選取應根據模擬語音訊號的頻寬(依奈奎斯特取樣定理)來確定,以避免訊號的頻域混疊失真。在對離散後的語音訊號進行量化處理過程中會帶來一定的量化噪聲和失真。

       有了語音資料檔案後,對語音的預處理包括:預加重和加窗分幀等。

3.2.1 語音訊號的預加重處理

       對輸入的數字語音訊號進行預加重,其目的是為了對語音的高頻部分進行加重,去除口脣輻射的影響,增加語音的高頻解析度。一般通過傳遞函式為的一階FIR高通數字濾波器來實現預加重,其中a為預加重係數,。設n時刻的語音取樣值為x(n),經過預加重處理後的結果為,這裡a=0.98。

       以下是預加重前和預加重後的一段濁音訊號及頻譜,可以看出,預加重後的頻譜在高頻部分的幅度得到了提升。

       

3.2.2 語音訊號的加窗處理

進行預加重數字濾波處理後,接下來進行加窗分幀處理。語音訊號是一種隨時間而變化的訊號,主要分為濁音和清音兩大類。濁音的基音週期、清濁音訊號幅度和聲道引數等都隨時間而緩慢變化。由於發聲器官的慣性運動,可以認為在一小段時間裡(一般為10~30ms)語音訊號近似不變,即語音訊號具有短時平穩性。這樣,可以把語音訊號分為一些短段(稱為分析幀)來進行處理。語音訊號的分幀是採用可移動的有限長度視窗進行加權的方法來實現的。一般每秒的幀數為33~100幀,視實際情況而定。分幀雖然可以採用連續分段的方法,但一般要採用交疊分段的方法,這是為了使幀與幀之間平滑過渡,保持其連續性。前一幀和後一幀的交疊部分稱為幀移,幀移與幀長的比值一般取0~1/2。

常用的窗有兩種,一種是矩形窗,窗函式如下:

        

       

另一種是漢明(Hamming)窗,窗函式如下:

   

    

注:矩形窗的主瓣寬度小於漢明窗,具有較高的頻譜解析度,但是矩形窗的旁瓣峰值較大,因此其頻譜洩漏比較嚴重。相比較,雖然漢明窗的主瓣寬度較寬,約大於矩形窗的一倍,但是它的旁瓣衰減較大,具有更平滑的低通特性,能夠在較高的程度上反映短時訊號的頻率特性。

       在確定了窗函式以後,對語音訊號的分幀處理,實際上就是對各幀進行某種變換或運算。設這種變換或運算用T[]表示,x(n)為輸入語音訊號,w(n)為窗序列,h(n)是與w(n)有關的濾波器,則各幀經處理後的輸出可以表示為:

       

       

    


--------------------- 
作者:JameJuZhang 
來源:CSDN 
原文:https://blog.csdn.net/jojozhangju/article/details/25392889 
版權宣告:本文為博主原創文章,轉載請附上博文連結!